Inhaltszusammenfassung:
Wir führen eine Methode namens "Treebank Refinement" ein, mit deren
Hilfe die Darstellung syntaktischer Analysen einer Baumbank den
speziellen Bedürfnissen von Parsern für probabilistische kontext-freie
Grammatiken (PCFG-Parsern) angepasst wird. Wir zeigen, dass die Wahl
der Darstellung syntaktischer Analysen in einer Baumbank die Leistung
eines PCFG-Parsers bestimmt, aber dass die Darstellung selten so
gewählt wird, dass sie den Bedürfnissen dieser Parser entspricht.
Deren bekannter Schwäche, Kontext zu modellieren, kann begegnet
werden, indem mehr Informationen zum Kontext in Knoten-Namen
festgehalten werden. Treebank Refinement definiert eine Funktion, die
Knoten-Namen der ursprünglichen Annotation auswählt, denen diese Art
Information zum Kontext fehlt, und die Namen verändert. Allgemein
zeigt der Erfolg dieser Methode, dass es entscheidend ist, eine für
die Aufgabe geeignete Darstellung zu wählen, und zu beachten, aus
welchen Gründen die ursprüngliche Form der Darstellung syntaktischer
Analysen gewählt wurde.
Wir wenden Treebank Refinement auf eine Baumbank des Deutschen an und
zeigen, dass die vorgeschlagenen Änderungen der Annotation leicht
nachzuvollziehen sind. Sie führen zu einer erheblichen Verbesserung
der Leistung von PCFGs beim syntaktischen Parsen. Da sie zudem leicht
verständlich sind, können die einzelnen Veränderungen der Annotation,
die Treebank Refinement vorschlägt, intellektuell überprüft werden und
führen so zu einem tieferen Verständnis der Annotation der Baumbank.
Die Bewertung der einzelnen Änderungsvorschläge zeigt
charakteristische Muster bei Annotationsfehlern und kann daher
verwendet werden, um menschliche Annotatoren auf Inkonsistenzen in der
Annotation aufmerksam zu machen.
Treebank Refinement nutzt bekannte Ergebnisse aus Untersuchungen zum
Zusammenhang zwischen der Leistung von PCFG-Parsern und der Form der
kontext-freien Grammatik, wie er besonders in "Grammar Refinement" von
Bockhorst und Craven (2001) sichtbar wird. Treebank Refinement
ergänzt mächtigere Parsing-Verfahren eher als mit ihnen zu
konkurrieren, da es Knoten-Namen differenziert, falls sie für sehr
verschiedene Zwecke eingesetzt werden. Die Komplexität des Parsens
kann auf diese Weise klein gehalten werden, solange die Parser nur
einfachen strukturellen Präferenzen folgen müssen, die durch
passendere Knoten-Namen ausgedrückt werden können. Treebank
Refinement in Verbindung mit reinen PCFG-Parsern konzentriert sich auf
diese strukturellen Präferenzen und liefert so einen Referenzwert, der
ohne menschlichen Eingriff von reinen PCFG-Parsern erreicht werden
kann. Treebank Refinement ist entsprechend vielfach einsetzbar, um
syntaktisch annotierte Daten zu parsen, zu verstehen und zu
überprüfen.
Abstract:
We present "Treebank Refinement", which is a method that tunes the
representation of syntactic analyses in a treebank to the specific
needs of probabilistic context-free grammar (PCFG) parsers. We show
that the choice of representations of syntactic analyses in a treebank
determines the performance of PCFG parsers but is rarely chosen to
satisfy their specific needs. Their known weakness to model
contextual information can be alleviated by choosing representations
that introduce more contextual information into node labels. Treebank
Refinement defines a function that selects and modifies node labels in
the original representation that lack this kind of contextual
information. From a more general point of view, the success of this
method shows that it is useful to choose more appropriate
representations for different tasks, and to consider the design
decisions that determine the shape of the original representation of
analyses of the treebank.
We apply Treebank Refinement to a German treebank and show that the
changes in the annotation that it suggests are easy to understand.
They lead to a considerable improvement in performance of syntactic
parsing via PCFGs. Being easy to follow, the individual changes
proposed by Treebank Refinement can be evaluated manually and lead to
a more detailed understanding of the annotation in the treebank. The
judgements about the individual changes show characteristic patterns
for annotation errors and can accordingly be employed to direct
annotators to inconsistencies in a treebank.
Treebank Refinement builds on previous work that examines the
connections between PCFG parsing performance and the shape of the
context-free grammar, first and foremost on the idea of "Grammar
Refinement" by Bockhorst and Craven (2001). It rather complements
more powerful syntactic parsers than competing with them, as Treebank
Refinement specialises node labels if they are used for very different
purposes. The complexity of parsing can thus be kept low where the
parsers try to cope with simple structural preferences that can
equally be expressed by more appropriate node labels. Using Treebank
Refinement in conjunction with plain PCFG parsing focuses on these
structural preferences and defines a baseline that can be reached by
automatic means and that can be utilised efficiently by standard PCFG
parsers. Treebank Refinement is thus widely applicable for parsing,
understanding, and correcting syntactically annotated data.