Designing a Playful, Tablet and Group-Based Literacy Screening for German-speaking Pre-Readers: A Machine Learning Approach

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/159791
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1597912
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1597915
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1597914
http://dx.doi.org/10.15496/publikation-101123
Dokumentart: PhDThesis
Date: 2025-01-02
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Heller, Jürgen (Prof. Dr.)
Day of Oral Examination: 2024-11-27
DDC Classifikation: 004 - Data processing and computer science
370 - Education
400 - Language and Linguistics
430 - Germanic languages; German
Keywords: Schreib- und Lesefähigkeit , Maschinelles Lernen , Screening , Frühdiagnostik , Gruppentest , Serious game , Phonologische Bewusstheit , Benutzerfreundlichkeit , Gamification
Other Keywords: Spielbasiertes Assessment
Game-Based Assessment
License: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Show full item record

Inhaltszusammenfassung:

Die Fähigkeit, lesen und schreiben zu können, ist auch in einem Zeitalter, in dem Sprachmodelle eingesetzt werden, um Texte zu lesen, zu erstellen und zu analysieren, von großer Bedeutung. Wie wichtig es ist, richtig lesen und schreiben zu lernen, zeigen die Diagnose einer Entwicklungsdyslexie bei 4 bis 10% der Kinder in Deutschland und die aktuellen IQB-Bildungstrends 2022, die zeigen, dass 30,4% der Kinder die Mindestanforderungen in der Rechtschreibung nicht erfüllen. Schwerwiegende Lese- und Rechtschreibprobleme können zu schulischen, sozialen und persönlichen Problemen führen. Eine frühzeitige Diagnose ist daher von großer Bedeutung, am besten vor oder direkt nach der Einschulung der Kinder. Das Screening solcher Lese- und Rechtschreibschwächen im Vorlesealter stellt aufgrund der unterentwickelten Fähigkeiten in diesen Bereichen eine große Herausforderung dar. Mehrere Studien haben jedoch die Vielfalt im phonologischen Wahrnehmungsbereich und mögliche Zusammenhänge dieser mit der Lese- und Rechtschreibfähigkeit, ohne speziell lesen und schreiben zu können, aufgezeigt. Standardisierte Screenings für Leseanfänger, die schriftsprachunabhängige Aufgaben verwenden, sind fast ausschließlich als analoge Tests verfügbar und sollen in Einzelsitzungen durchgeführt werden, was für das Lehrpersonal einen hohen Ressourcenaufwand bedeutet. Wir adaptieren den Ansatz eines Diagnostik-Tools für Leseanfänger in ein digitales und ansprechendes tablet-basiertes Screening-System, das im deutschsprachigen Raum noch weitgehend unerforscht ist. Dieses gruppenbasierte digitale Tool zielt darauf ab, durch interaktive Aufgaben individualisierte Prädiktoren zu generieren, die das Vorhersagen von Lese- und Rechtschreibfähigkeiten ermöglichen. Zunächst konzipieren und evaluieren wir die tablet- und gruppenbasierte Anwendung mit fünf Screening-Aufgaben anhand einer entsprechenden Feldstudie, die die Gewinnung aufschlussreicher Prädiktoren ermöglicht. Des Weiteren setzen wir Techniken des maschinellen Lernens ein, um die Ergebnisse der Studie zu analysieren und Vorhersagemodelle daraus abzuleiten. Wir stellen Methoden zur Optimierung der Modelle vor und entwickeln benutzerdefinierte Algorithmen, um die in den Daten vorhandenen Herausforderungen zu bewältigen. Zu diesem Zweck entwickeln wir optimierte Vorhersagemodelle und benutzerdefinierte Algorithmen, um die in den Daten vorhandenen Herausforderungen zu bewältigen. Darüber hinaus konzentrieren wir uns auf die Verbesserung der Interpretierbarkeit der Modelle, um überzeugendere Einblicke in die Vorhersageergebnisse zu ermöglichen. Das angestrebte Ergebnis dieser Arbeit ist eine innovative Anwendung, die die Vorteile der Digitalisierung nutzt und die besonderen Herausforderungen der Früherkennung von Lese- und Rechtschreibproblemen angeht. In dieser Arbeit untersuchen wir (1) die Durchführbarkeit des Screenings im Gruppensetting sowie die Nutzungs- und Spielerfahrungen der Kinder mit 34 deutschen Zweit- und Drittklässlern, führen (2) eine Feldstudie mit 414 deutschen Erstklässlern mit zwei Erhebungszeitpunkten über 1,5 Jahre durch und leiten (3) die Vorhersagekraft von fünf digitalisierten Aufgaben für Kinder im Vorlesealter mit (4) maschinellen Lernmodellen aus dieser Studie ab. Die Tablet-Daten aus dem ersten Erhebungszeitpunkt der Feldstudie werden zur Vorhersage der Lese- und Rechtschreibleistung zum zweiten Erhebungszeitpunkt verwendet. Die Ergebnisse für (1) zeigten, dass die Durchführbarkeit für Gruppensitzungen mit bis zu 10 Kindern durch optimierte Sitzanordnungen, spezifische Materialien und ansprechende (Spiel-)Elemente erreicht wurde, um die Kinder zu motivieren und mögliche Ablenkungen zu minimieren. Als Ergebnis der Studie (2) fanden wir mehrere Aufgaben, deren Merkmale signifikante Prädiktoren für Lese- und Schreibfähigkeiten sind, während andere die Gruppen nicht ausreichend differenzieren konnten (3). Der von uns entwickelte Algorithmus für (4) analysierte verschiedene Modelle und Oversampling-Raten und identifizierte schließlich Random Forest als das beste Modell für die Vorhersage von Lese- und Rechtschreibfähigkeiten. Nach der Klassifizierung der Ergebnisse und dem Vergleich mit anderen traditionellen Lese- und Schreibfähigkeits-Screenings schneidet unser Ansatz mit einer Genauigkeit von 72,5% und einem RATZ-Index von 46% ähnlich gut ab. Die Einbeziehung von Vorhersageintervallen hat die Präzision und Interpretierbarkeit der Ergebnisse verbessert.

Abstract:

The ability to read and write remains highly relevant even in an age in which large language models, for example, are used to read, create, and analyze texts. The significance of properly learning how to read and write is underlined by the diagnosis of developmental dyslexia in 4 to 10% of German children, as well as by the latest IQB educational trends from 2022, which show that 30.4% of children do not meet the minimum spelling requirements. Severe problems in reading and spelling proficiencies can lead to academic, social, or personal challenges. Therefore, early diagnosis is pivotal, optimally, at the time of school enrollment. Screening for such reading and spelling shortcomings in a pre-reader age presents significant challenges due to not yet developed skills in these areas. However, several studies have highlighted diversity in the phonological perceptual domain and possible links to literacy and spelling ability even before children can read and write. Standardized pre-reader screenings that use tasks independent of written language are almost exclusively available as paper-and-pencil tests and are intended to be administered in individual sessions, thus requiring a lot of resources. The group-based digital tool we present in this study aims to generate individualized predictors through interactive tasks, enabling the anticipation of reading and spelling abilities. We are adapting the approach of a literacy diagnostic tool for pre-readers into a digital and engaging tablet-based screening system, which, within the German-speaking domain, is mostly unexplored. First, we design the tablet and group-based application and its five screening tasks before evaluating it in a controlled field trial to extract insightful predictors. Second, we utilize machine learning techniques to analyze the study outcomes and construct prediction models. We present methods for optimizing the models and develop custom algorithms to overcome challenges present in the data. We further focus on enhancing the interpretability of regression models to provide more compelling insights into prediction outcomes. The intended result of this endeavor is to offer a solution that leverages the benefits of digitalization and addresses the unique challenges of diagnosing early-stage reading and spelling issues. In this thesis, we investigate (1) the screening's feasibility in group settings as well as children's user and game experience with 34 German second and third graders, conduct (2) a field study with 414 German first graders with two data collection points over 1.5 years and derive (3) the predictive power of five digitized tasks for children of pre-reader age using (4) machine learning models from that study. The tablet data from the first data collection point of the field study is used to predict reading and spelling performance at the second data collection point. The results for (1) showed that feasibility for group sessions with up to 10 children was achieved through optimized seat arrangements, specific materials, and engaging (task-)elements to motivate children and minimize distractions. As a result of the study (2), we found several tasks whose features are significant predictors of literacy skills, while others failed to differentiate groups adequately (3). Our developed algorithm for (4) assessed various models and oversampling rates and eventually identified Random Forest as the superior model for predicting reading and spelling skills. Once the results are classified and compared to other traditional literacy screenings, our screening approach performs moderately well with a balanced accuracy of 72.5% and a RATZ index of 46%. Incorporating prediction intervals has enhanced result precision and interpretability.

This item appears in the following Collection(s)