Hoe Project ELLORA van Microsoft kleine talen zoals Gondi en Mundari helpt om welsprekend te worden voor de digitale wereld

0
76

Als een Hindi-spreker tegenwoordig naar inhoud op internet moet zoeken, kunnen ze een zoekopdracht in het Devnagari-schrift op hun telefoon typen of gewoon een spraakopdracht geven. Maar hoe zit het met degenen die communiceren in talen die slechts door een paar honderdduizend mensen worden gesproken of talen die niet of nauwelijks online aanwezig zijn? Dit zijn de talen die Microsoft Research helpt met zijn Project ELLORA (Enabling Low Resource Languages) in India.

“We werken aan taal met weinig middelen met technologie, maar we zijn van mening dat deze gemeenschappen enig idee hebben van hun behoeften en verlangens, omdat ze ook op andere manieren worden gemarginaliseerd. Dus werken we met hen samen om hun pijnpunten te begrijpen en te zien hoe technologie kan helpen”, vertelde Kalika Bali van Microsoft Research aan indianexpress.com. Bali is een expert in natuurlijke taalverwerking, waarbij taalkunde en kunstmatige intelligentie samenkomen om computers te trainen om gesproken en geschreven talen te begrijpen.

Kalika Bali, een onderzoeker bij MSR India, is een expert in Natural Language Processing en leidt Project Ellora. (Foto door Praveen Pillai voor Microsoft)

Bali legde uit dat ELLORA's kerndoel is om ervoor te zorgen dat deze talen — die zeer weinig geschreven bronnen hebben, laat staan ​​enige digitale aanwezigheid — blijven niet achter als het gaat om enkele van de ontwikkelingen die taaltechnologie tegenwoordig doormaakt dankzij het gebruik van kunstmatige intelligentie (AI) en geavanceerde natuurlijke taalmodellen. Wat nog belangrijker is, een digitale aanwezigheid zou sommige van deze talen kunnen helpen de dreiging van uitsterven te overleven.

Lees ook |Waarom een ​​startup onder leiding van IITians PrimeOS ontwikkelde voor hun eerste laptop

Microsoft Research (MSR) heeft ervoor gekozen om zich voorlopig op drie hiervan te concentreren. Gondi met bijna drie miljoen sprekers in Madhya Pradesh, Maharashtra, Chhattisgarh, Andhra Pradesh en Telangana, Mundari dat wordt gesproken in Jharkhand, Odisha en West-Bengalen, evenals Idu Mishmi uit Arunachal Pradesh.

Alleen abonneeverhalenAlles bekijken

Drie grote voordelen van Uniebegroting 2023-24: investeringsuitgaven, fiscaal voorzichtigheid en n…< /figuur>Sprankelende zeedieren en wat ze speciaal maakt< /figuur>Union Budget 2023: Hoe de regering de wiskunde berekent

Focus op grensgebieden, NCC is van plan de sterkte van de cadetten met 8 lakh te verhogen. Maandelijks plan om toegang te krijgen tot Budget

Volgens Bali is Gondi de plaats waar het bedrijf een deel van zijn langste werk heeft gedaan en met CGNet Swara als partner in Chhattisgarh heeft gewerkt. CGNet Swara is een online portal waarmee Gondi-sprekers via telefoongesprekken lokaal nieuws in hun taal kunnen melden.

“We hebben geholpen met zaken als Adivasi-radio, dat een hub was voor toegang tot de informatie op de telefoon in Gondi. We hebben ook met hen samengewerkt om een ​​automatisch vertaalsysteem te creëren, omdat een van de grootste problemen de toegang tot informatie in hun eigen taal is”, zei Bali.

MSR is van plan om dit op machinetaal gebaseerde vertaalsysteem binnenkort in het veld te testen en als het goed werkt, zullen Gondi-sprekers toegang krijgen tot alle informatie die beschikbaar is in het Hindi in hun eigen taal. In Arunachal Pradesh werkt MSR aan een digitaal woordenboek voor de Idu Mishmi-taal en werkt het samen met Pratham-boeken.

Advertentie Dr. Meenakshi Munda neemt spraakvoorbeelden van tekst op Karya op om tekst- spraakmodellen voor Mundari. (Foto door Sunil Bisoyi voor Microsoft)

Voor Mundari werkt MSR samen met IIT-Kharagpur en GIZ, het Duitse ontwikkelingsfonds. In het geval van Mundari is de taak specifiek: maak educatief materiaal voor de kinderen, want er zijn maar heel weinig middelen beschikbaar. “Het idee is om de hele pijplijn te creëren. We werken aan het maken van een tekst-naar-spraak-model waarmee het systeem in Mundari kan praten. We werken ook aan een machinevertaalmodel. We hebben zelfs een klein machinevertalingsmodel klaar”, zei Bali, eraan toevoegend dat ze het model nu aan het testen zijn en ook gaan werken aan het spraakherkenningsgedeelte.

Het idee is om uiteindelijk een heel systeem voor Mundari te hebben, zodat de sprekers toegang hebben tot informatie of technologie kunnen gebruiken in hun eigen taal door te spreken, luisteren of typen in hun telefoon. Bali benadrukte ook dat hun modellen voor talen als Mundari niet afhankelijk zijn van woord-tot-woordvertalingen. Maar in plaats daarvan vragen ze moedertaalsprekers om Hindi-zinnen in hun taal te vertalen en zo de bron en dataset te creëren om het computermodel te voeden.

Een tool die ze als onderdeel van hun inspanningen hebben ontwikkeld, heet Interneural Machine Translation (INMT), die kan helpen bij het voorspellen van het volgende woord wanneer iemand vertaalt tussen deze talen, bijvoorbeeld van Hindi naar Mundari. “Het geeft me voorspellende suggesties in Mundari zelf. Het is net als de voorspellende tekst die je krijgt in smartphonetoetsenborden, behalve dat het in twee talen werkt,” Bali legde uit en voegde eraan toe dat dergelijke tools ook de effectiviteit van menselijke vertalers zullen vergroten.

Advertentie Lees ook |Waarom Indiase ontwikkelaars enthousiast en sceptisch zijn over BharOS: 'Meer keuze is goed voor de consument… maar het is een lange weg'

Natuurlijk is er ook de uitdaging om ervoor te zorgen dat de modellen werken op low-end telefoons. Aangezien mensen in gemarginaliseerde gemeenschappen toegang hebben tot goedkopere telefoons, zullen de modellen moeten worden geoptimaliseerd, rekening houdend met deze kritieke factor. “Een van de grote problemen is dat we willen dat deze modellen werken op apparaten zoals telefoons. We hebben veel tijd besteed aan het maken, destilleren en kwantificeren van deze modellen tot kleinere modellen die echt op de telefoon kunnen werken, 'legde Bali uit.

Over de huidige buzz rond Large Language Models (LLM's) en hun rol in vertaaltools, zei Bali dat ze ook een aantal openbaar beschikbare LLM's hadden getest voor een deel van hun onderzoek. Maar om deze modellen te laten werken met dergelijke talen met beperkte tot geen datasets, zal meer werk vergen. “Het is een open onderzoeksvraag over hoe we deze LLM's kunnen draaien om te werken voor enkele van de kleinere talen. En weet je, het antwoord kan liggen in het creëren van een aparte laag bovenop deze technologie. Of het kan liggen in het daadwerkelijk hebben van voldoende gegevens om in de basismodellen te pompen. Ik denk dat we daar niet zo zeker van zijn. Het is een open onderzoek om te zien hoe we dit doen, 'zei ze.

Voorlopig blijft het uiteindelijke doel van Project ELLORA duidelijk: “Dat de kloof tussen taalkundig welvarenden en have-nots niet verder vergroot.”

 

© IE Online Media Services Pvt Ltd