Megatron NLG, ERNIE und BLOOM: Ein Blick auf GPT-3-ähnliche Large Language Models

0
64

Die moderne menschliche Sprache hat sich über Millionen von Jahren entwickelt und ist unglaublich komplex. Allein die englische Sprache besteht aus über 1,7 Lakh Wörtern, darunter Substantive, Verben, Adjektive und vieles mehr, die auf Milliarden von Arten zusammengesetzt werden können, um jedes Mal einzigartige Sätze zu erstellen. Während Kommunikation für uns selbstverständlich ist – Menschen sind fest verdrahtet, um Sprache nahtlos zu sprechen und zu verstehen – bleiben Computer in ihrer Fähigkeit, mit Sprache umzugehen, begrenzt. Aber dank des Aufkommens von LLMs (Large Language Models) und (NLP) Natural Language Processing ändern sich die Dinge.

Eines der beliebtesten LLMs der letzten Zeit ist GPT-3/GPT-3.5 von OpenAI, das die Grundlage des KI-Chatbots ChatGPT bildet. Es hat viele Leute zum Reden gebracht, weil es in der Lage ist, Texte mit bemerkenswerter Genauigkeit zu produzieren, die scheinen, als wären sie von einem Menschen geschrieben worden. Dieser Durchbruch kann für Unternehmen nützlich sein, die Aufgaben automatisieren möchten, sowie für normale Benutzer, die nach bestimmten Informationen suchen. Aber es ist nicht das einzige LLM da draußen – es gibt mehrere andere – NVIDIAs MT-NLG zum Beispiel besteht aus deutlich mehr Parametern. Hier ist ein Blick auf einige der wichtigsten LLMs.

OpenAI&#8217 ;s KI-Chatbot ChatGPT basiert auf dem GPT-3.5-Sprachmodell (Express-Foto)

Was sind LLMs (Large Language Models)?

Große Sprachmodelle verwenden Deep-Learning-Techniken, um große Textmengen zu verarbeiten. Sie arbeiten, indem sie riesige Textmengen verarbeiten, die Struktur und Bedeutung verstehen und daraus lernen. LLMs werden „trainiert“, um Bedeutungen und Beziehungen zwischen Wörtern zu erkennen. Je mehr Trainingsdaten einem Modell zugeführt werden, desto intelligenter wird es beim Verstehen und Produzieren von Text.

Lesen Sie auch |GPT 4 vs. GPT 3: Was Sie vom aktualisierten KI-Sprachmodell erwarten können

Die Trainingsdaten sind in der Regel große Datensätze wie Wikipedia, OpenWebText und der Common Crawl Corpus. Diese enthalten große Mengen an Textdaten, die die Modelle verwenden, um natürliche Sprache zu verstehen und zu generieren.

Nur für Abonnenten StoriesView All

UPSC Key – 23. Januar 2023 : Wissen über Feuertragödie, digitale Ernteerhebung …

UPSC-Grundlagen | Schlüsselbegriffe der vergangenen Woche mit MC-Fragen

ExplainSpeaking: Das A und O eines Union Budget

Madhav Chavan beim Ideenaustausch: „ Der Lehrplan wird strenger, weil … Wenden Sie den Neujahrs-Promo-Code SD25

GPT-3

anGenerative Pre-trained Transformer 3 (GPT-3) ist ein Sprachmodell, das Deep Learning verwendet, um menschenähnlichen Text zu generieren. Das von Open AI Anfang Mai 2020 als Nachfolger von GPT-2 eingeführte Modell kann auch Code, Geschichten, Gedichte und vieles mehr generieren. Das Modell erlangte nach der Veröffentlichung von ChatGPT im November große Aufmerksamkeit und bildet auch die Grundlage für das Bilderzeugungsmodell Dall-E. Es bietet 175 Milliarden trainierbare Parameter.

ERNIE Titan LLM

Baidu, das sich in Suchmaschinen einen Namen gemacht hat, hat kürzlich sein Spiel im Bereich KI intensiviert. Das chinesische Unternehmen hat ein eigenes Large Language Model namens ERNIE (Enhanced Language Representation through Knowledge Integration) entwickelt. “Titan” ist eine erweiterte Version von ERNIE, die entwickelt wurde, um das Verständnis natürlicher Sprache und Generierungsaufgaben zu verbessern. Es ist auf einem riesigen Korpus von Textdaten vortrainiert und kann für spezifische NLP-Aufgaben feinabgestimmt werden.

Obwohl Modelle wie GPT-3 vielversprechend sind, ist es für Benutzer immer noch schwierig, die Ergebnisse zu kontrollieren und eine sachlich konsistente Ausgabe zu erhalten. ERNIE schlägt vor, diesen Mangel durch eine spezielle Technik während der Trainingsphase zu beheben, bei der das Modell lernt, den Unterschied zwischen echtem Text und selbst erzeugtem Text zu erkennen. Dadurch kann das Modell auch die Glaubwürdigkeit des generierten Textes einstufen, was ihn zuverlässiger und vertrauenswürdiger macht.

Werbung

Yandex YaLM 100B

YaLM 100B nutzt, wie der Name schon sagt, 100 Milliarden Parameter. Parameter sind die Werte, die während des Trainings erlernt und angepasst werden, um die Leistung des Modells bei einer bestimmten Aufgabe zu optimieren. Sie bestimmen, wie leistungsfähig ein Modell ist. Während die 100-Milliarden-Zahl offensichtlich kleiner ist als die 175-Milliarden-Parameter von GPT-3, zeichnet sich YaLM dadurch aus, dass es kostenlos verfügbar ist. Das Training des Modells dauerte 65 Tage, wobei 1,7 TB an Online-Texten, Büchern und „unzähligen anderen Quellen“ in einen Pool von 800 A100-Grafikkarten eingespeist wurden. Yandex behauptet, dass dieses LLM „derzeit das weltweit größte GPT-ähnliche neuronale Netzwerk ist, das für Englisch frei verfügbar ist“. Das Modell wurde auf GitHub unter der Apache 2.0-Lizenz veröffentlicht, die sowohl Forschungs- als auch kommerzielle Nutzung erlaubt.

Lesen Sie auch |Google on AI tech: Taking a sorgfältige Herangehensweise an die Bereitstellung von Systemen wie LaMDA, Waymo

BLOOM

Laut BigScience, dem Unternehmen dahinter, wurde BLOOM darauf trainiert, Text von einer Eingabeaufforderung aus riesigen Mengen von Textdaten unter Verwendung von Rechenressourcen im industriellen Maßstab fortzusetzen. BigScience ist eine offene Zusammenarbeit mit Hunderten von Forschern und Institutionen auf der ganzen Welt, die auf Huggingface gehostet wird. Es ist in der Lage, nicht nur in einer, sondern in 46 verschiedenen Sprachen und 13 Programmiersprachen auszugeben, die nach Angaben des Unternehmens „kaum von von Menschen geschriebenem Text zu unterscheiden sind“. BLOOM kann Aufgaben ausführen, für die es nicht speziell trainiert wurde, indem es sie in Textgenerierungsaufgaben umwandelt. Wie GPT-3 verwendet BLOOM rund 175 Milliarden Parameter. Aber es hat einen großen Unterschied – es ist für jeden zugänglich. Das Training des Modells dauerte vier Monate und begann am 11. März 2022 mit 384 Grafikkarten mit jeweils 80 Gigabyte auf dem Supercomputer Jean Zay in Frankreich.

Gopher

Gopher ist ein autoregressives, transformatorbasiertes, dichtes LLM. Es verwendet erstaunliche 280 Milliarden Parameter, die nur von Nvidias MT-NLG (530 Milliarden) in der Größe konkurriert werden. Das Modell wurde auf MassiveText trainiert, einem Datensatz mit einer Größe von 10,5 Terabyte, der Quellen wie Wikipedia, GitHub und Massive Web enthält. Das Modellunternehmen DeepMind ist eine britische KI-Tochtergesellschaft von Alphabet Inc., die 2014 von Google übernommen wurde. Berichten zufolge schlägt Gopher Modelle wie GPT-3 in Bezug auf die Leistung in Disziplinen wie Mathematik, Argumentation, Wissen, Naturwissenschaften, Leseverständnis, und Ethik.

Werbung auch lesen |So melden Sie sich für OpenAIs ChatGPT-Chatbot und Dall-E-Bildgenerator an

MT-NLG

Megatron-Turing Natural Language Generation wird von NVIDIA in Zusammenarbeit entwickelt mit Microsoft. Es wurde erstmals im Oktober 2021 als Nachfolger der Modelle Turing NLG 17B und Megatron-LM vorgestellt. Das Turing-Projekt wurde 2019 von Microsoft mit dem Ziel gestartet, eine KI-gestützte Unternehmenssuche zu ermöglichen. MT-NLG ist mit 530 Milliarden Parametern das größte seiner Art. Es kann eine Vielzahl von Aufgaben in natürlicher Sprache ausführen, z. B. Vervollständigungsvorhersage, Leseverständnis, vernünftiges Denken, Schlussfolgerungen in natürlicher Sprache und Begriffsklärung. Das Modell wurde auf NVIDIAs Selene-Supercomputer für maschinelles Lernen trainiert, dem sechstschnellsten Supercomputer der Welt.

© IE Online Media Services Pvt Ltd