• Media type: E-Book; Thesis
  • Title: An integrative approach to linguistic complexity analysis for German
  • Contributor: Weiß, Zarah Leonie [Author]
  • Corporation: Eberhard Karls Universität Tübingen
  • Published: Tübingen, 2024
  • Extent: 1 Online-Ressource (xxx, 423 Seiten); Illustrationen
  • Language: English
  • DOI: 10.15496/publikation-93806
  • Identifier:
  • Keywords: Deutsch > Sprachkompetenz > Computerlinguistik
  • Origination:
  • University thesis: Dissertation, Eberhard Karls Universität Tübingen, 2024
  • Footnote:
  • Description: This thesis develops an integrative approach to automatic linguistic complexity analyses for German and applies it to predict the proficiency of learner writing and the readability of texts for native and non-native speakers of German. Complexity is a central concept in applied linguistics and has been used in Second Language Acquisition (SLA) research to characterize and benchmark language proficiency and to track developmental trajectories of learners (Ortega, 2012). However, the focus of SLA complexity research has been on the analysis of syntax and lexicon and the English language (Housen et al., 2019; Wolfe-Quintero et al., 1998). More research on other linguistic domains—such as morphology or discourse—is needed to model complexity as a multidimensional construct. Furthermore, more languages should be studied to promote complexity research. Measures of linguistic complexity have also been found to be important features in computational linguistic research on Automatic Proficiency Assessment (APA) and Automatic Readability Assessment (ARA). This thesis combines insights from SLA complexity research and computational linguistic approaches to APA and ARA to address important research gaps in SLA complexity research and work on APA and ARA for education contexts. We propose a linguistically broad approach to complexity that combines measures of syntactic, lexical, and morphological complexity, as well as measures of discourse, human processing, and language use. In doing so, we integrate theories and concepts form different research disciplines including SLA complexity research, computational linguistics, and psychology. We implemented a system to automatically calculate these measures relying on Natural Language Processing (NLP) techniques. With 543 measures, it calculates to the best of our knowledge the largest and most diverse collection of measures of absolute and relative complexity for German. To make this resource accessible to other researchers and thereby promote the comparability and reproducibility of complexity research for German, we integrated this system into the Common Text Analysis Platform (CTAP) by Chen and Meurers (2016). We generalized the originally monolingual web platform for English to support multilingual analyses, leading to its extension to several additional languages. In an empirical study on the impact of non-standard language on the NLP annotations and subsequent calculation of measures, we confirmed that even on language from beginning learners, our analysis remains overall robust and errors hardly impact our complexity estimates or models trained with them. We then demonstrate the value of our integrative broad linguistic modeling approach to linguistic complexity for APA and ARA. First, we provide an overview of the current research landscape for both domains by conducting two systematic surveys focusing on automatic approaches for German published in the past twenty years. Both surveys showcase the need for more research on approaches targeting second or foreign language (L2) learners and young native speakers, more cross-corpus testing, and more accessible models. For ARA, we observed that traditional readability formulas remain the de facto standard in research that is not specifically dedicated to the development of new ARA approaches, even though they have been criticized as overly simplistic by ARA researchers and generally perform below the current state-of-the-art (SOTA). Second, we report on several machine learning experiments that build on these insights and take into consideration the research needs we identified. We train models for predicting language proficiency for L2 learners on long texts at the full Common European Framework of Reference for Languages (CEFR) scale (A1 to C1/C2) and short answers to reading comprehension questions in the form of course levels (ranging from A1.1 to A2.2). We also train a model for capturing early native language (L1) academic language proficiency of students using grade levels (1st to 8th grade). For text readability, we train models for L2 learners for longer texts (distinguishing texts for learners at the CEFR levels A2, B1/B2, C1) and sentences (using a 7-point Likert scale) as well as a model for German media language aimed at children or adults (making a binary distinction). We test these models across corpora and on hold-out data sets. With this, we illustrate the generalizability of our models across different task contexts, elicitation contexts, languages, and publishers. We also perform linguistic analyses on all data sets studied, which yields important insights into the characterization of developmental trajectories in German. This thesis makes a special methodological contribution to ARA, as we compile a total of three new readability corpora which for the first time facilitate cross-corpus testing and cross-language testing for German ARA. In sum, this thesis provides novel insights into the developmental variation of linguistic complexity in German and its role for text readability. It also contributes important new resources for research on complexity, ARA, and APA by making available the multilingual CTAP system, new readability corpora, and new models for German.

    Diese Dissertation entwickelt einen integrativen Ansatz zur automatischen Analyse linguistischer Komplexität für das Deutsche und wendet ihn an, um die Schreibkompetenz von Lernenden und die Lesbarkeit von Texten für deutsche Muttersprachler:innen und Nicht-Muttersprachler:innen vorherzusagen. Komplexität ist ein zentrales Konzept in der angewandten Linguistik und wurde in der Forschung zum Zweitspracherwerb (SLA) verwendet, um die Sprachkompetenz von Lernenden zu charakterisieren und zu messen (Ortega, 2012). Der Schwerpunkt der SLA-Komplexitätsforschung lag hierbei auf der Analyse von Syntax und Lexikon im Englischen (Housen et al., 2019; Wolfe-Quintero et al., 1998). Um Komplexität als multidimensionales Konstrukt zu modellieren, sind weitere Forschungen zu anderen sprachlichen Bereichen erforderlich (beispielsweise Morphologie oder Diskurs). Zudem müssen mehr unterschiedliche Sprachen untersucht werden, um die Komplexitätsforschung voranzubringen. Maße für sprachliche Komplexität haben sich auch in der computerlinguistischen Forschung zur automatischen Sprachkompetenzbewertung (APA) und zur automatischen Lesbarkeitserfassung (ARA) als wichtige Merkmale erwiesen. In dieser Arbeit werden Erkenntnisse aus der SLA-Komplexitätsforschung und computergestützte linguistische Ansätze für APA und ARA kombiniert, um wichtige Forschungslücken in den jeweiligen Disziplinen zu schließen. Wir schlagen einen linguistisch breit angelegten Ansatz für Komplexität vor, der Maße für syntaktische, lexikalische und morphologische Komplexität sowie Maße für Diskurs, menschliche Sprachverarbeitung und Sprachgebrauch kombiniert. Dabei integrieren wir Theorien und Konzepte aus verschiedenen Forschungsdisziplinen wie der SLA-Komplexitätsforschung, der Computerlinguistik und der Psychologie. Wir haben ein System zur automatischen Berechnung dieser Maße implementiert, das auf Techniken der natürlichen Sprachverarbeitung (NLP) beruht. Mit 543 Maßen berechnet es nach unserem derzeitigen Kenntnisstand die größte und vielfältigste Sammlung von Maßen der absoluten und relativen Komplexität für das Deutsche. Um diese Ressource anderen Forschern zugänglich zu machen und damit die Vergleichbarkeit und Reproduzierbarkeit der Komplexitätsforschung für das Deutsche zu fördern, haben wir dieses System in CTAP (Chen und Meurers, 2016) integriert. Wir haben die ursprünglich nur für Englisch entwickelte Webplattform generalisiert, um mehrsprachige Analysen zu unterstützen. Dies führte bereits zu ihrer Erweiterung auf mehrere andere Sprachen. In einer empirischen Studie zu den Auswirkungen von nicht-standardisierter Sprache auf die NLP Annotationen und die anschließende Berechnung der Maße haben wir bestätigen können, dass unsere Analyse selbst bei Sprache von Deutsch-Anfängern insgesamt robust bleibt und etwaige Fehler nur geringe Auswirkungen auf unsere Komplexitätsmessungen oder die damit trainierten Modelle haben. Im Weiteren demonstrieren wir den Wert unseres integrativen, breit angelegten linguistischen Modellierungsansatzes für linguistische Komplexität für APA und ARA. Zunächst geben wir einen Überblick über die aktuelle Forschungslandschaft für beide Bereiche, indem wir zwei systematische Literaturrecherchen zu automatischen Ansätzen für das Deutsche in den vergangenen zwanzig Jahren durchführen. Beide Erhebungen zeigen den Bedarf an mehr Forschung zu Ansätzen, die sich an Zweit- oder Fremdsprachenlerner und junge Muttersprachler richten, an mehr korpusübergreifenden Tests und an besser zugänglichen Modellen. In Bezug auf ARA stellen wir fest, dass traditionelle Lesbarkeitsformeln weiterhin den Standard in der Forschung darstellen, die sich nicht speziell mit der Entwicklung neuer ARA-Ansätze befasst. Dies ist der Fall, obwohl diese Formeln von ARA-Forschern als zu vereinfachend kritisiert wurden und im Allgemeinen schlechtere Ergebnisse als zeitgenössische Verfahren liefern. Zweitens berichten wir über mehrere Experimente zum maschinellen Lernen, die die von uns so ermittelten Forschungslücken adressieren. Wir trainieren Modelle zur Vorhersage der Sprachkompetenz von L2-Lernern für lange Texte auf der gesamten Skala des Gemeinsamen Europäischen Referenzrahmens für Sprachen (GER; A1 bis C1/C2) und kurze Antworten auf Fragen zum Leseverständnis in Form von Kursstufen (von A1.1 bis A2.2). Außerdem trainieren wir ein Modell zur Erfassung der frühen muttersprachlichen akademischen Sprachkenntnisse von Schülern anhand von Klassenstufen (1. bis 8. Klasse). Für die Lesbarkeit von Texten trainieren wir Modelle für L2-Lerner für längere Texte (mit Unterscheidung von Texten für Lerner auf den GER-Niveaustufen A2, B1/B2, C1) und Sätze (unter Verwendung einer 7-Punkte-Likert-Skala) sowie ein Modell für deutsche Mediensprache, das sich an Kinder oder Erwachsene richtet (mit einer binären Unterscheidung). Wir testen diese Modelle über Korpora hinweg und an Hold-out-Datensätzen. Damit illustrieren wir die Generalisierbarkeit unserer Modelle über verschiedene Aufgabenkontexte, Erhebungskontexte, Sprachen und Verlage hinweg. Darüber hinaus führen wir für alle untersuchten Datensätze linguistische Analysen durch, die wichtige Erkenntnisse über die Charakterisierung von Entwicklungsverläufen im Deutschen liefern. Wir leisten dabei einen besonderen methodischen Beitrag zu ARA, indem wir drei neue Lesbarkeitskorpora erstellen, die erstmals die korpus- und sprachenübergreifende Evaluation von ARA-Modellen für das Deutsche ermöglichen. Insgesamt liefert die vorliegende Arbeit neue Einsichten in die entwicklungsbedingte Variation sprachlicher Komplexität im Deutschen und ihre Rolle für die Lesbarkeit von Texten. Durch die Bereitstellung des mehrsprachigen CTAP-Systems, neuer Lesbarkeitskorpora und neuer Modelle für das Deutsche stellt sie außerdem wichtige neue Ressourcen für die Forschung zu Komplexität, APA und ARA bereit.
  • Access State: Open Access