Sprachmodell

Sprachmodelle gibt es für alle Bereiche der Computerlinguistik. Neben der Textgenerierung sind dies zum Beispiel Spracherkennung, Erkennung von Handschriften, Informationserkennung und -extraktion.

Die folgenden Arten von Sprachmodellen werden von Ella verwendet:

Sequenz-zu-Sequenz-Sprachmodell: Dies ist ein Modell, das in der natürlichen Sprachverarbeitung (NLP) verwendet wird, bei dem sowohl die Eingabe als auch die Ausgabe eine Sequenz von Wörtern oder Token ist. Es wird üblicherweise für Aufgaben wie die maschinelle Übersetzung verwendet, bei der das Modell eine Sequenz in einer Sprache aufnimmt und eine Sequenz in einer anderen Sprache erzeugt.

BERT-Variante des Sprachmodells: BERT steht für „Bidirectional Encoder Representations from Transformers“. Ein BERT-variantes Sprachmodell basiert auf der BERT-Architektur, kann aber einige Änderungen oder Erweiterungen aufweisen, z. B. andere Trainingsdaten, Modellgröße oder nachgelagerte Feinabstimmung der Aufgaben.

Großes Sprachmodell (LLM): Dies ist ein auf einem neuronalen Netz basierendes Sprachmodell, das darauf ausgelegt ist, menschliche Sprache zu verstehen und zu produzieren. „Groß“ bedeutet, dass das Modell eine große Anzahl von Parametern (Gewichte und Verbindungen) in seiner Architektur hat. Diese Modelle sind in der Lage, ein breites Spektrum von NLP-Aufgaben zu erfüllen, und erfordern oft erhebliche Rechenressourcen für Training und Inferenz.