An Integrative Approach to Linguistic Complexity Analysis for German

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Meurers, Walt Detmar (Prof. Dr.)
dc.contributor.author Weiß, Zarah Leonie
dc.date.accessioned 2024-03-28T12:51:35Z
dc.date.available 2024-03-28T12:51:35Z
dc.date.issued 2024-03-28
dc.identifier.uri http://hdl.handle.net/10900/152467
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1524679 de_DE
dc.identifier.uri http://dx.doi.org/10.15496/publikation-93806
dc.description.abstract Diese Dissertation entwickelt einen integrativen Ansatz zur automatischen Analyse linguistischer Komplexität für das Deutsche und wendet ihn an, um die Schreibkompetenz von Lernenden und die Lesbarkeit von Texten für deutsche Muttersprachler:innen und Nicht-Muttersprachler:innen vorherzusagen. Komplexität ist ein zentrales Konzept in der angewandten Linguistik und wurde in der Forschung zum Zweitspracherwerb (SLA) verwendet, um die Sprachkompetenz von Lernenden zu charakterisieren und zu messen (Ortega, 2012). Der Schwerpunkt der SLA-Komplexitätsforschung lag hierbei auf der Analyse von Syntax und Lexikon im Englischen (Housen et al., 2019; Wolfe-Quintero et al., 1998). Um Komplexität als multidimensionales Konstrukt zu modellieren, sind weitere Forschungen zu anderen sprachlichen Bereichen erforderlich (beispielsweise Morphologie oder Diskurs). Zudem müssen mehr unterschiedliche Sprachen untersucht werden, um die Komplexitätsforschung voranzubringen. Maße für sprachliche Komplexität haben sich auch in der computerlinguistischen Forschung zur automatischen Sprachkompetenzbewertung (APA) und zur automatischen Lesbarkeitserfassung (ARA) als wichtige Merkmale erwiesen. In dieser Arbeit werden Erkenntnisse aus der SLA-Komplexitätsforschung und computergestützte linguistische Ansätze für APA und ARA kombiniert, um wichtige Forschungslücken in den jeweiligen Disziplinen zu schließen. Wir schlagen einen linguistisch breit angelegten Ansatz für Komplexität vor, der Maße für syntaktische, lexikalische und morphologische Komplexität sowie Maße für Diskurs, menschliche Sprachverarbeitung und Sprachgebrauch kombiniert. Dabei integrieren wir Theorien und Konzepte aus verschiedenen Forschungsdisziplinen wie der SLA-Komplexitätsforschung, der Computerlinguistik und der Psychologie. Wir haben ein System zur automatischen Berechnung dieser Maße implementiert, das auf Techniken der natürlichen Sprachverarbeitung (NLP) beruht. Mit 543 Maßen berechnet es nach unserem derzeitigen Kenntnisstand die größte und vielfältigste Sammlung von Maßen der absoluten und relativen Komplexität für das Deutsche. Um diese Ressource anderen Forschern zugänglich zu machen und damit die Vergleichbarkeit und Reproduzierbarkeit der Komplexitätsforschung für das Deutsche zu fördern, haben wir dieses System in CTAP (Chen und Meurers, 2016) integriert. Wir haben die ursprünglich nur für Englisch entwickelte Webplattform generalisiert, um mehrsprachige Analysen zu unterstützen. Dies führte bereits zu ihrer Erweiterung auf mehrere andere Sprachen. In einer empirischen Studie zu den Auswirkungen von nicht-standardisierter Sprache auf die NLP Annotationen und die anschließende Berechnung der Maße haben wir bestätigen können, dass unsere Analyse selbst bei Sprache von Deutsch-Anfängern insgesamt robust bleibt und etwaige Fehler nur geringe Auswirkungen auf unsere Komplexitätsmessungen oder die damit trainierten Modelle haben. Im Weiteren demonstrieren wir den Wert unseres integrativen, breit angelegten linguistischen Modellierungsansatzes für linguistische Komplexität für APA und ARA. Zunächst geben wir einen Überblick über die aktuelle Forschungslandschaft für beide Bereiche, indem wir zwei systematische Literaturrecherchen zu automatischen Ansätzen für das Deutsche in den vergangenen zwanzig Jahren durchführen. Beide Erhebungen zeigen den Bedarf an mehr Forschung zu Ansätzen, die sich an Zweit- oder Fremdsprachenlerner und junge Muttersprachler richten, an mehr korpusübergreifenden Tests und an besser zugänglichen Modellen. In Bezug auf ARA stellen wir fest, dass traditionelle Lesbarkeitsformeln weiterhin den Standard in der Forschung darstellen, die sich nicht speziell mit der Entwicklung neuer ARA-Ansätze befasst. Dies ist der Fall, obwohl diese Formeln von ARA-Forschern als zu vereinfachend kritisiert wurden und im Allgemeinen schlechtere Ergebnisse als zeitgenössische Verfahren liefern. Zweitens berichten wir über mehrere Experimente zum maschinellen Lernen, die die von uns so ermittelten Forschungslücken adressieren. Wir trainieren Modelle zur Vorhersage der Sprachkompetenz von L2-Lernern für lange Texte auf der gesamten Skala des Gemeinsamen Europäischen Referenzrahmens für Sprachen (GER; A1 bis C1/C2) und kurze Antworten auf Fragen zum Leseverständnis in Form von Kursstufen (von A1.1 bis A2.2). Außerdem trainieren wir ein Modell zur Erfassung der frühen muttersprachlichen akademischen Sprachkenntnisse von Schülern anhand von Klassenstufen (1. bis 8. Klasse). Für die Lesbarkeit von Texten trainieren wir Modelle für L2-Lerner für längere Texte (mit Unterscheidung von Texten für Lerner auf den GER-Niveaustufen A2, B1/B2, C1) und Sätze (unter Verwendung einer 7-Punkte-Likert-Skala) sowie ein Modell für deutsche Mediensprache, das sich an Kinder oder Erwachsene richtet (mit einer binären Unterscheidung). Wir testen diese Modelle über Korpora hinweg und an Hold-out-Datensätzen. Damit illustrieren wir die Generalisierbarkeit unserer Modelle über verschiedene Aufgabenkontexte, Erhebungskontexte, Sprachen und Verlage hinweg. Darüber hinaus führen wir für alle untersuchten Datensätze linguistische Analysen durch, die wichtige Erkenntnisse über die Charakterisierung von Entwicklungsverläufen im Deutschen liefern. Wir leisten dabei einen besonderen methodischen Beitrag zu ARA, indem wir drei neue Lesbarkeitskorpora erstellen, die erstmals die korpus- und sprachenübergreifende Evaluation von ARA-Modellen für das Deutsche ermöglichen. Insgesamt liefert die vorliegende Arbeit neue Einsichten in die entwicklungsbedingte Variation sprachlicher Komplexität im Deutschen und ihre Rolle für die Lesbarkeit von Texten. Durch die Bereitstellung des mehrsprachigen CTAP-Systems, neuer Lesbarkeitskorpora und neuer Modelle für das Deutsche stellt sie außerdem wichtige neue Ressourcen für die Forschung zu Komplexität, APA und ARA bereit. de_DE
dc.description.abstract This thesis develops an integrative approach to automatic linguistic complexity analyses for German and applies it to predict the proficiency of learner writing and the readability of texts for native and non-native speakers of German. Complexity is a central concept in applied linguistics and has been used in Second Language Acquisition (SLA) research to characterize and benchmark language proficiency and to track developmental trajectories of learners (Ortega, 2012). However, the focus of SLA complexity research has been on the analysis of syntax and lexicon and the English language (Housen et al., 2019; Wolfe-Quintero et al., 1998). More research on other linguistic domains—such as morphology or discourse—is needed to model complexity as a multidimensional construct. Furthermore, more languages should be studied to promote complexity research. Measures of linguistic complexity have also been found to be important features in computational linguistic research on Automatic Proficiency Assessment (APA) and Automatic Readability Assessment (ARA). This thesis combines insights from SLA complexity research and computational linguistic approaches to APA and ARA to address important research gaps in SLA complexity research and work on APA and ARA for education contexts. We propose a linguistically broad approach to complexity that combines measures of syntactic, lexical, and morphological complexity, as well as measures of discourse, human processing, and language use. In doing so, we integrate theories and concepts form different research disciplines including SLA complexity research, computational linguistics, and psychology. We implemented a system to automatically calculate these measures relying on Natural Language Processing (NLP) techniques. With 543 measures, it calculates to the best of our knowledge the largest and most diverse collection of measures of absolute and relative complexity for German. To make this resource accessible to other researchers and thereby promote the comparability and reproducibility of complexity research for German, we integrated this system into the Common Text Analysis Platform (CTAP) by Chen and Meurers (2016). We generalized the originally monolingual web platform for English to support multilingual analyses, leading to its extension to several additional languages. In an empirical study on the impact of non-standard language on the NLP annotations and subsequent calculation of measures, we confirmed that even on language from beginning learners, our analysis remains overall robust and errors hardly impact our complexity estimates or models trained with them. We then demonstrate the value of our integrative broad linguistic modeling approach to linguistic complexity for APA and ARA. First, we provide an overview of the current research landscape for both domains by conducting two systematic surveys focusing on automatic approaches for German published in the past twenty years. Both surveys showcase the need for more research on approaches targeting second or foreign language (L2) learners and young native speakers, more cross-corpus testing, and more accessible models. For ARA, we observed that traditional readability formulas remain the de facto standard in research that is not specifically dedicated to the development of new ARA approaches, even though they have been criticized as overly simplistic by ARA researchers and generally perform below the current state-of-the-art (SOTA). Second, we report on several machine learning experiments that build on these insights and take into consideration the research needs we identified. We train models for predicting language proficiency for L2 learners on long texts at the full Common European Framework of Reference for Languages (CEFR) scale (A1 to C1/C2) and short answers to reading comprehension questions in the form of course levels (ranging from A1.1 to A2.2). We also train a model for capturing early native language (L1) academic language proficiency of students using grade levels (1st to 8th grade). For text readability, we train models for L2 learners for longer texts (distinguishing texts for learners at the CEFR levels A2, B1/B2, C1) and sentences (using a 7-point Likert scale) as well as a model for German media language aimed at children or adults (making a binary distinction). We test these models across corpora and on hold-out data sets. With this, we illustrate the generalizability of our models across different task contexts, elicitation contexts, languages, and publishers. We also perform linguistic analyses on all data sets studied, which yields important insights into the characterization of developmental trajectories in German. This thesis makes a special methodological contribution to ARA, as we compile a total of three new readability corpora which for the first time facilitate cross-corpus testing and cross-language testing for German ARA. In sum, this thesis provides novel insights into the developmental variation of linguistic complexity in German and its role for text readability. It also contributes important new resources for research on complexity, ARA, and APA by making available the multilingual CTAP system, new readability corpora, and new models for German. en
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podok de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en en
dc.subject.classification Sprachverarbeitung , Lesbarkeit , Sprachkompetenz , Komplexität , Fremdsprachenlernen , Deutsch als Fremdsprache , Computerlinguistik , Maschinelles Lernen , Spracherwerb , Deutsch , Common European Framework of Reference for Languages de_DE
dc.subject.ddc 004 de_DE
dc.subject.ddc 370 de_DE
dc.subject.ddc 400 de_DE
dc.subject.ddc 430 de_DE
dc.subject.other Automatische Lesbarkeitserfassung de_DE
dc.subject.other Automatische Sprachkompetenzerfassung de_DE
dc.subject.other Natural Language Processing en
dc.subject.other Automatic Essay Rating en
dc.subject.other Schreibqualität de_DE
dc.subject.other Linguistische Komplexität de_DE
dc.subject.other Automatic Proficiency Assessment en
dc.subject.other Zweitspracherwerbsforschung de_DE
dc.subject.other Linguistic Complexity en
dc.subject.other Second Language Acquisition en
dc.subject.other Bildungswissenschaft de_DE
dc.subject.other Education Research en
dc.subject.other Automatische Sprachverarbeitung de_DE
dc.subject.other Syntactic Complexity en
dc.subject.other Syntaktische Komplexität de_DE
dc.subject.other Lexical Complexity en
dc.subject.other Lexikalische Komplexität de_DE
dc.subject.other Morphologische Komplexität de_DE
dc.subject.other Morphological Complexity en
dc.subject.other Textkohäsion de_DE
dc.subject.other Textual cohesion en
dc.subject.other Language Use en
dc.subject.other Sprachnutzung de_DE
dc.subject.other Human Language Processing en
dc.subject.other Menschliche Sprachverarbeitung de_DE
dc.subject.other Absolute Komplexität de_DE
dc.subject.other Absolute Complexity en
dc.subject.other Relative Complexity en
dc.subject.other Relative Komplexität de_DE
dc.subject.other Task Effects en
dc.subject.other Aufgabeneffekte de_DE
dc.subject.other Automatic Readability Assessment en
dc.title An Integrative Approach to Linguistic Complexity Analysis for German en
dc.type PhDThesis de_DE
dcterms.dateAccepted 2024-03-01
utue.publikation.fachbereich Allgemeine u. vergleichende Sprachwissenschaft de_DE
utue.publikation.fakultaet 5 Philosophische Fakultät de_DE
utue.publikation.noppn yes de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige