Dutch

Megatron NLG, ERNIE en BLOOM: een blik op GPT-3-achtige grote taalmodellen

Jan 23, 2023

De moderne menselijke taal is gedurende miljoenen jaren geëvolueerd en is ongelooflijk complex. Alleen al de Engelse taal bestaat uit meer dan 1,7 lakh-woorden die zelfstandige naamwoorden, werkwoorden, bijvoeglijke naamwoorden en nog veel meer bevatten, die op miljarden manieren kunnen worden samengesteld om elke keer unieke zinnen te creëren. Hoewel communicatie voor ons vanzelfsprekend is – mensen zijn bedraad om naadloos te spreken en spraak te begrijpen – blijven computers beperkt in hun vermogen om met taal om te gaan. Maar dankzij de opkomst van LLM's (Large Language Models) en (NLP) natuurlijke taalverwerking, zijn er dingen aan het veranderen.

Een van de meest populaire LLM's van de afgelopen tijd is OpenAI's GPT-3/GPT-3.5, de basis van de AI-chatbot ChatGPT. Het heeft veel mensen aan het praten vanwege het vermogen om tekst te produceren die lijkt alsof het door een mens is geschreven, met opmerkelijke nauwkeurigheid. Deze doorbraak kan handig zijn voor bedrijven die taken willen automatiseren, maar ook voor regelmatige gebruikers die specifieke informatie opzoeken. Maar het is niet de enige LLM die er is – er zijn verschillende andere – NVIDIA's MT-NLG bestaat bijvoorbeeld uit aanzienlijk meer parameters. Hier volgt een overzicht van enkele van de belangrijkste LLM's.

OpenAI&#8217 ;s AI-chatbot ChatGPT is gebouwd bovenop het GPT-3.5-taalmodel (Express-foto)

Wat zijn LLM's (Large Language Models)?

Grote taalmodellen gebruiken deep learning-technieken om grote hoeveelheden tekst te verwerken. Ze werken door grote hoeveelheden tekst te verwerken, de structuur en betekenis te begrijpen en ervan te leren. LLM's zijn 'getraind' om betekenissen en relaties tussen woorden te identificeren. Hoe meer trainingsgegevens een model krijgt, hoe slimmer het wordt in het begrijpen en produceren van tekst.

Lees ook |GPT 4 versus GPT 3: wat u kunt verwachten van het bijgewerkte AI-taalmodel

De trainingsgegevens is meestal grote datasets, zoals Wikipedia, OpenWebText en het Common Crawl Corpus. Deze bevatten grote hoeveelheden tekstgegevens, die de modellen gebruiken om natuurlijke taal te begrijpen en te genereren.

Subscriber Only StoriesAlles bekijken

UPSC-sleutel – 23 januari 2023 : Weten over brandtragedie, digitaal gewasonderzoek …UPSC Essentials | Kernbegrippen van de afgelopen week met MCQ'sExplainSpeaking: de moeren en bouten van een Uniebegroting

Madhav Chavan op Idea Exchange: ' Curriculum wordt moeilijker, omdat…Nieuwjaarspromotiecode SD25 toepassen

GPT-3

Generative Pre-trained Transformer 3 (GPT-3) is een taalmodel dat deep learning gebruikt om mensachtige tekst te genereren. Het model, eerder in mei 2020 geïntroduceerd door Open AI als opvolger van GPT-2, kan ook code, verhalen, gedichten en nog veel meer genereren. Het model kreeg veel aandacht na de release van ChatGPT in november en vormt ook de basis voor het beeldgenererende model Dall-E. Het beschikt over 175 miljard trainbare parameters.

ERNIE Titan LLM

Baidu, dat naam heeft gemaakt in zoekmachines, heeft onlangs zijn spel op het gebied van AI opgevoerd. Het Chinese bedrijf heeft zijn eigen grote taalmodel ontwikkeld, ERNIE genaamd (Enhanced Language Representation through Knowledge Integration). “Titan” is een verbeterde versie van ERNIE, ontworpen om het begrip van natuurlijke taal en generatietaken te verbeteren. Het is vooraf getraind op een enorme hoeveelheid tekstgegevens en kan worden verfijnd voor specifieke NLP-taken.

Hoewel modellen zoals GPT-3 veelbelovend zijn, is het nog steeds moeilijk voor gebruikers om de resultaten te controleren en feitelijk consistente output te verkrijgen. ERNIE stelt voor om deze tekortkoming op te lossen door tijdens de trainingsfase een speciale techniek te gebruiken, waarbij het model leert het verschil te zien tussen echte tekst en zelf gegenereerde tekst. Hierdoor kan het model ook de geloofwaardigheid van de gegenereerde tekst beoordelen, waardoor deze betrouwbaarder en betrouwbaarder wordt.

Advertentie

Yandex YaLM 100B

YaLM 100B maakt, zoals de naam al doet vermoeden, gebruik van 100 miljard parameters. Parameters zijn de waarden die tijdens de training worden geleerd en aangepast om de prestaties van het model bij een specifieke taak te optimaliseren. Ze bepalen hoe krachtig een model is. Hoewel het cijfer van 100 miljard duidelijk kleiner is dan de 175 miljard parameters van GPT-3, onderscheidt YaLM zich doordat het gratis beschikbaar is. Het trainen van het model duurde 65 dagen, waarbij 1,7 TB aan online teksten, boeken en “talloze andere bronnen” werd ingevoerd in een pool van 800 A100 grafische kaarten. Yandex beweert dat deze LLM “momenteel 's werelds grootste GPT-achtige neurale netwerk is dat vrij beschikbaar is voor het Engels.” Het model is gepubliceerd op GitHub onder de Apache 2.0-licentie, waardoor zowel onderzoek als commercieel gebruik mogelijk is.

Lees ook |Google over AI-technologie: een zorgvuldige benadering van het implementeren van systemen zoals LaMDA, Waymo

BLOOM

BLOOM is getraind om tekst vanaf een prompt voort te zetten op grote hoeveelheden tekstgegevens met behulp van computerbronnen op industriële schaal, volgens BigScience, het bedrijf erachter. BigScience is een open samenwerking met honderden onderzoekers en instellingen over de hele wereld, gehost op Huggingface. Het is in staat om niet slechts één, maar 46 verschillende talen en 13 programmeertalen uit te voeren, waarvan het bedrijf beweert dat het “nauwelijks te onderscheiden is van door mensen geschreven tekst”. BLOOM kan taken uitvoeren waarvoor het niet specifiek is getraind door ze om te zetten in taken voor het genereren van tekst. Net als GPT-3 gebruikt BLOOM ongeveer 175 miljard parameters. Maar het heeft één groot verschil: het is voor iedereen toegankelijk. De training van het model duurde vier maanden en begon op 11 maart 2022, waarbij gebruik werd gemaakt van 384 grafische kaarten van elk 80 gigabyte op de Jean Zay-supercomputer in Frankrijk.

Gopher

Gopher is een op autoregressieve transformator gebaseerde compacte LLM. Het maakt gebruik van maar liefst 280 miljard parameters, alleen geëvenaard door Nvidia's MT-NLG (530 miljard) in omvang. Het model is getraind op MassiveText, een dataset van 10,5 terabyte met bronnen als Wikipedia, GitHub en Massive Web. Het bedrijf het model, DeepMind, is een Britse AI-dochteronderneming van Alphabet Inc. die in 2014 door Google werd overgenomen. en ethiek.

Advertentie Lees ook |Aanmelden voor OpenAI's ChatGPT-chatbot en Dall-E-beeldgenerator

MT-NLG

Megatron-Turing Natural Language Generation is ontwikkeld door NVIDIA in samenwerking met Microsoft. Het werd voor het eerst geïntroduceerd in oktober 2021 als opvolger van de Turing NLG 17B- en Megatron-LM-modellen. Het Turing-project werd in 2019 door Microsoft gelanceerd met als doel AI-aangedreven enterprise search mogelijk te maken. MT-NLG is de grootste in zijn soort, met 530 miljard parameters. Het kan een breed scala aan natuurlijke taaltaken uitvoeren, zoals voorspelling van voltooiing, begrijpend lezen, gezond verstand redeneren, gevolgtrekkingen in natuurlijke taal en ondubbelzinnig maken van woordbetekenissen. Het model is getraind op NVIDIA's Selene machine learning supercomputer, de zesde snelste supercomputer ter wereld.