Three-Way Analysis for a Better Understanding of Word Embedding Models

Media type: Doctoral Thesis; E-Book; Text; Electronic Thesis

Title: Three-Way Analysis for a Better Understanding of Word Embedding Models

Contributor: Elekes, Ábel [Author]

imprint: KIT-Bibliothek, Karlsruhe, 2021-05-07

Language: English

DOI: https://doi.org/10.5445/IR/1000132472

Keywords: DATA processing & computer science

Origination:

Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Description: Word Embedding Models sind für eine Vielzahl von Problemen in der Informatik von großem Wert, insbesondere für die natürliche Sprachverarbeitung. Sie ermöglichen, indem sie sich auf die semantischen Kontexte von Wörtern konzentrieren, Beziehungen zwischen Textsegmenten genauer und mit weniger Verzerrung zu verstehen. Die Motivation dieser Arbeit ist die Tatsache, dass einige Aspekte von Word Embedding Models, zum Beispiel wie diese 'Beziehungen' interpretiert werden sollten und wie weit verschiedene embedding models vergleichbar sind, noch nicht klar genug erfasst worden sind. Wir gruppieren diese Aspekte in drei Kategorien: in algorithmische Fragen, theoretische Fragen und Anwendungsfragen. Auf diesen drei Kategorien basierend präsentieren wir in dieser Arbeit eine Drei-Wege-Bewertung von Word Embedding Models. Der erste Bewertungssatz untersucht den Trainingsalgorithmus von Word Embedding Models. In der bisherigen Literatur wurden Word Embedding Models verwendet, ohne die Tatsache zu berücksichtigen, dass ihre Ähnlichkeitswertverteilungen erheblich unterschiedlich sein können. Unser erster Beitrag besteht darin, zu zeigen, dass Modelle, die mit unterschiedlichen Parametereinstellungen trainiert wurden, sich in der Größe ihrer Ähnlichkeitswerte erheblich unterscheiden können, obwohl gleichzeitig die Form ihrer Verteilung tatsächlich grundlegend ähnlich ist. Ein großer Vorteil der Embedding Models besteht darin, dass sie auf beliebigen Textkorpora trainiert werden können. Während die Qualität von Word Embedding Models, die auf Volltextkorpora trainiert wurden, ziemlich bekannt ist, fehlt eine Bewertung von Modellen, die auf fragmentierten Korpora basieren. Um diese Lücke zu schließen, beschreiben wir im zweiten Teil des Abschnitts zur algorithmischen Bewertung Experimente, deren Ziel es ist zu untersuchen, wie sich die Modellqualität dann ändert, wenn der Trainingskorpus nicht Volltext, sondern n-Gramm ist. Die Experimente quantifizieren, um wie viel Fragmentierung (d. h. Werte von $n$) die durchschnittliche ...

Access State: Open Access

Search in field:

Recently searched for: