Treebank refinement. optimising representations of syntactic analyses for probabilistic context-free parsing

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-32962
http://hdl.handle.net/10900/46298
Dokumentart: Dissertation
Erscheinungsdatum: 2007
Sprache: Englisch
Fakultät: 5 Philosophische Fakultät
Fachbereich: Allgemeine u. vergleichende Sprachwissenschaft
Gutachter: Hinrichs, Erhard (Prof. Dr.)
Tag der mündl. Prüfung: 2006-06-12
DDC-Klassifikation: 400 - Sprache, Linguistik
Schlagworte: Stochastische Grammatik , Kontextfreie Grammatik , Parsen , Syntax
Freie Schlagwörter: Baumbank
Probabilistic context-free grammar , Parsing , Syntax , Annotation , Treebank
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Wir führen eine Methode namens "Treebank Refinement" ein, mit deren Hilfe die Darstellung syntaktischer Analysen einer Baumbank den speziellen Bedürfnissen von Parsern für probabilistische kontext-freie Grammatiken (PCFG-Parsern) angepasst wird. Wir zeigen, dass die Wahl der Darstellung syntaktischer Analysen in einer Baumbank die Leistung eines PCFG-Parsers bestimmt, aber dass die Darstellung selten so gewählt wird, dass sie den Bedürfnissen dieser Parser entspricht. Deren bekannter Schwäche, Kontext zu modellieren, kann begegnet werden, indem mehr Informationen zum Kontext in Knoten-Namen festgehalten werden. Treebank Refinement definiert eine Funktion, die Knoten-Namen der ursprünglichen Annotation auswählt, denen diese Art Information zum Kontext fehlt, und die Namen verändert. Allgemein zeigt der Erfolg dieser Methode, dass es entscheidend ist, eine für die Aufgabe geeignete Darstellung zu wählen, und zu beachten, aus welchen Gründen die ursprüngliche Form der Darstellung syntaktischer Analysen gewählt wurde. Wir wenden Treebank Refinement auf eine Baumbank des Deutschen an und zeigen, dass die vorgeschlagenen Änderungen der Annotation leicht nachzuvollziehen sind. Sie führen zu einer erheblichen Verbesserung der Leistung von PCFGs beim syntaktischen Parsen. Da sie zudem leicht verständlich sind, können die einzelnen Veränderungen der Annotation, die Treebank Refinement vorschlägt, intellektuell überprüft werden und führen so zu einem tieferen Verständnis der Annotation der Baumbank. Die Bewertung der einzelnen Änderungsvorschläge zeigt charakteristische Muster bei Annotationsfehlern und kann daher verwendet werden, um menschliche Annotatoren auf Inkonsistenzen in der Annotation aufmerksam zu machen. Treebank Refinement nutzt bekannte Ergebnisse aus Untersuchungen zum Zusammenhang zwischen der Leistung von PCFG-Parsern und der Form der kontext-freien Grammatik, wie er besonders in "Grammar Refinement" von Bockhorst und Craven (2001) sichtbar wird. Treebank Refinement ergänzt mächtigere Parsing-Verfahren eher als mit ihnen zu konkurrieren, da es Knoten-Namen differenziert, falls sie für sehr verschiedene Zwecke eingesetzt werden. Die Komplexität des Parsens kann auf diese Weise klein gehalten werden, solange die Parser nur einfachen strukturellen Präferenzen folgen müssen, die durch passendere Knoten-Namen ausgedrückt werden können. Treebank Refinement in Verbindung mit reinen PCFG-Parsern konzentriert sich auf diese strukturellen Präferenzen und liefert so einen Referenzwert, der ohne menschlichen Eingriff von reinen PCFG-Parsern erreicht werden kann. Treebank Refinement ist entsprechend vielfach einsetzbar, um syntaktisch annotierte Daten zu parsen, zu verstehen und zu überprüfen.

Abstract:

We present "Treebank Refinement", which is a method that tunes the representation of syntactic analyses in a treebank to the specific needs of probabilistic context-free grammar (PCFG) parsers. We show that the choice of representations of syntactic analyses in a treebank determines the performance of PCFG parsers but is rarely chosen to satisfy their specific needs. Their known weakness to model contextual information can be alleviated by choosing representations that introduce more contextual information into node labels. Treebank Refinement defines a function that selects and modifies node labels in the original representation that lack this kind of contextual information. From a more general point of view, the success of this method shows that it is useful to choose more appropriate representations for different tasks, and to consider the design decisions that determine the shape of the original representation of analyses of the treebank. We apply Treebank Refinement to a German treebank and show that the changes in the annotation that it suggests are easy to understand. They lead to a considerable improvement in performance of syntactic parsing via PCFGs. Being easy to follow, the individual changes proposed by Treebank Refinement can be evaluated manually and lead to a more detailed understanding of the annotation in the treebank. The judgements about the individual changes show characteristic patterns for annotation errors and can accordingly be employed to direct annotators to inconsistencies in a treebank. Treebank Refinement builds on previous work that examines the connections between PCFG parsing performance and the shape of the context-free grammar, first and foremost on the idea of "Grammar Refinement" by Bockhorst and Craven (2001). It rather complements more powerful syntactic parsers than competing with them, as Treebank Refinement specialises node labels if they are used for very different purposes. The complexity of parsing can thus be kept low where the parsers try to cope with simple structural preferences that can equally be expressed by more appropriate node labels. Using Treebank Refinement in conjunction with plain PCFG parsing focuses on these structural preferences and defines a baseline that can be reached by automatic means and that can be utilised efficiently by standard PCFG parsers. Treebank Refinement is thus widely applicable for parsing, understanding, and correcting syntactically annotated data.

Das Dokument erscheint in: