Inhaltszusammenfassung:
Das Parsing natürlicher Sprache hängt von den syntaktischen Kategorien
der Wörter ab: Die POS-Kategorie ist eine der am häufigsten
verwendeten Informationsquelle für das Parsing. Beim Parsing stark
flektierender Sprachen spielt morphologische Information, wie Kasus,
Numerus und Genus, ein wichtige Rolle. Sie hilft dabei, syntaktische
Ambiguität beim Shallow Parsing aufzulösen und stellt sich als
besonders nützlich heraus, wenn sie auf Sprachen mit relativ freier
Wortfolge angewandt wird, da sie die Argumentenstruktur eines Satzes
teilweise mitbestimmt.
Im Deutschen, einer stark flektierenden Sprache mit teilweise freier
Wortfolge, ist das Problem der Zuordung morphosyntaktischer
Kategorien, wie POS, Kasus, Numerus, Genus, Person, Tempus und Modus,
schwierig, da die Tokens eine hohe Ambiguität besitzen. Zusätzlich
verkompliziert wird das Problem durch einen teilweise
paradigmaabhängigen Synkretismus im Kasus, der dieser Sprache eigen
ist.
Diese Arbeit beschäftigt sich mit der automatischen
morphosyntaktischen Annotation im Deutschen. Verschiedene Ansätze,
diese Aufgabe zu bewältigen, wurden erarbeitet und ein hybrides System
mit einem regelbasierten und einem statistischen Modul wird
vorgestellt, das die Stärken regelbasierter und statistischer Methoden
vereint. Das regelbasierte Modul basiert auf dem Xerox Incremental
Deep Parsing System und bildet ein neues constraint-basiertes System,
das phraseninterne Kongruenzregeln und phrasenexterne syntaktische
Heuristiken in eine einheitliche Architektur integriert. Das
regelbasierte Modul reduziert die von der morphologischen Analyse
gelieferten möglichen Analysen erfolgreich. Das statistische Modul
basiert auf einer neuartigen Nutzung probabilistischer
Phrasenstrukturgrammatiken zur morphosyntaktischen Annotation. Es löst
die verbleibenden Fälle von Ambiguität und liefert präzise und
vollständig desambiguierte Analysen.
Der Nutzen morphosyntaktischer Information wird durch den Aufbau eines
Dependenz-Parsers für das Deutsche empirisch evaluiert. Die Eingabe
für den Parser ist auf die Tokens und deren morphosyntaktische
Eigeschaften beschränkt. Der Paser erreicht eine
State-Of-The-Art-Performanz.
Abstract:
The parsing of natural language relies on the syntactic
characteristics of words. The part of speech category is one of the
most common sources of information in parsing. In the parsing of
highly inflectional languages, morphological information, such as
case, number and gender, also plays an important role. It helps to
resolve syntactic ambiguity in shallow parsing and is particularly
useful in dependency parsing of languages with free word order, since
it partly determines the argument structure of the sentence.
For German, a highly inflectional language with partially free word
order, the problem of assigning morpho-syntactic categories, such as
part of speech, case, number, gender, person, tense} and mood,
i.e. the problem of morpho-syntactic annotation, is complicated by the
high ambiguity inherent in tokens. Moreover, the partially
paradigm-dependent case syncretism of this language makes the problem
particularly intricate.
This thesis is concerned with the automatic morpho-syntactic
annotation of German. Different approaches to the task are
investigated in this thesis. A hybrid system with rule-based and
statistical modules that combines the relative strengths of the
rule-based and statistical methods involved is presented. The
rule-based module is based on the Xerox Incremental Deep Parsing
System and provides a novel constraint-based framework that integrates
phrase-internal concord rules and phrase-external syntactic heuristics
into one uniform architecture. The rule-based module successfully
reduces the candidate analyses provided by a morphological analyzer.
The statistical module is based on a novel use of probabilistic
phrase-structure grammars for morpho-syntactic annotation. The module
resolves the remaining cases of ambiguity, providing unambiguous and
highly accurate output.
The usefulness of morpho-syntactic information is evaluated
empirically in the creation of a dependency parser for German. The
input to the parser is limited to tokens and their morpho-syntactic
characteristics. The parser reaches state-of-the-art performance.