Treebank refinement. optimising representations of syntactic analyses for probabilistic context-free parsing

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Hinrichs, Erhard (Prof. Dr.) de_DE
dc.contributor.author Ule, Tylman de_DE
dc.date.accessioned 2008-03-27 de_DE
dc.date.accessioned 2014-03-18T09:52:53Z
dc.date.available 2008-03-27 de_DE
dc.date.available 2014-03-18T09:52:53Z
dc.date.issued 2007 de_DE
dc.identifier.other 278553540 de_DE
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-32962 de_DE
dc.identifier.uri http://hdl.handle.net/10900/46298
dc.description.abstract We present "Treebank Refinement", which is a method that tunes the representation of syntactic analyses in a treebank to the specific needs of probabilistic context-free grammar (PCFG) parsers. We show that the choice of representations of syntactic analyses in a treebank determines the performance of PCFG parsers but is rarely chosen to satisfy their specific needs. Their known weakness to model contextual information can be alleviated by choosing representations that introduce more contextual information into node labels. Treebank Refinement defines a function that selects and modifies node labels in the original representation that lack this kind of contextual information. From a more general point of view, the success of this method shows that it is useful to choose more appropriate representations for different tasks, and to consider the design decisions that determine the shape of the original representation of analyses of the treebank. We apply Treebank Refinement to a German treebank and show that the changes in the annotation that it suggests are easy to understand. They lead to a considerable improvement in performance of syntactic parsing via PCFGs. Being easy to follow, the individual changes proposed by Treebank Refinement can be evaluated manually and lead to a more detailed understanding of the annotation in the treebank. The judgements about the individual changes show characteristic patterns for annotation errors and can accordingly be employed to direct annotators to inconsistencies in a treebank. Treebank Refinement builds on previous work that examines the connections between PCFG parsing performance and the shape of the context-free grammar, first and foremost on the idea of "Grammar Refinement" by Bockhorst and Craven (2001). It rather complements more powerful syntactic parsers than competing with them, as Treebank Refinement specialises node labels if they are used for very different purposes. The complexity of parsing can thus be kept low where the parsers try to cope with simple structural preferences that can equally be expressed by more appropriate node labels. Using Treebank Refinement in conjunction with plain PCFG parsing focuses on these structural preferences and defines a baseline that can be reached by automatic means and that can be utilised efficiently by standard PCFG parsers. Treebank Refinement is thus widely applicable for parsing, understanding, and correcting syntactically annotated data. en
dc.description.abstract Wir führen eine Methode namens "Treebank Refinement" ein, mit deren Hilfe die Darstellung syntaktischer Analysen einer Baumbank den speziellen Bedürfnissen von Parsern für probabilistische kontext-freie Grammatiken (PCFG-Parsern) angepasst wird. Wir zeigen, dass die Wahl der Darstellung syntaktischer Analysen in einer Baumbank die Leistung eines PCFG-Parsers bestimmt, aber dass die Darstellung selten so gewählt wird, dass sie den Bedürfnissen dieser Parser entspricht. Deren bekannter Schwäche, Kontext zu modellieren, kann begegnet werden, indem mehr Informationen zum Kontext in Knoten-Namen festgehalten werden. Treebank Refinement definiert eine Funktion, die Knoten-Namen der ursprünglichen Annotation auswählt, denen diese Art Information zum Kontext fehlt, und die Namen verändert. Allgemein zeigt der Erfolg dieser Methode, dass es entscheidend ist, eine für die Aufgabe geeignete Darstellung zu wählen, und zu beachten, aus welchen Gründen die ursprüngliche Form der Darstellung syntaktischer Analysen gewählt wurde. Wir wenden Treebank Refinement auf eine Baumbank des Deutschen an und zeigen, dass die vorgeschlagenen Änderungen der Annotation leicht nachzuvollziehen sind. Sie führen zu einer erheblichen Verbesserung der Leistung von PCFGs beim syntaktischen Parsen. Da sie zudem leicht verständlich sind, können die einzelnen Veränderungen der Annotation, die Treebank Refinement vorschlägt, intellektuell überprüft werden und führen so zu einem tieferen Verständnis der Annotation der Baumbank. Die Bewertung der einzelnen Änderungsvorschläge zeigt charakteristische Muster bei Annotationsfehlern und kann daher verwendet werden, um menschliche Annotatoren auf Inkonsistenzen in der Annotation aufmerksam zu machen. Treebank Refinement nutzt bekannte Ergebnisse aus Untersuchungen zum Zusammenhang zwischen der Leistung von PCFG-Parsern und der Form der kontext-freien Grammatik, wie er besonders in "Grammar Refinement" von Bockhorst und Craven (2001) sichtbar wird. Treebank Refinement ergänzt mächtigere Parsing-Verfahren eher als mit ihnen zu konkurrieren, da es Knoten-Namen differenziert, falls sie für sehr verschiedene Zwecke eingesetzt werden. Die Komplexität des Parsens kann auf diese Weise klein gehalten werden, solange die Parser nur einfachen strukturellen Präferenzen folgen müssen, die durch passendere Knoten-Namen ausgedrückt werden können. Treebank Refinement in Verbindung mit reinen PCFG-Parsern konzentriert sich auf diese strukturellen Präferenzen und liefert so einen Referenzwert, der ohne menschlichen Eingriff von reinen PCFG-Parsern erreicht werden kann. Treebank Refinement ist entsprechend vielfach einsetzbar, um syntaktisch annotierte Daten zu parsen, zu verstehen und zu überprüfen. de_DE
dc.language.iso en de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podok de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en en
dc.subject.classification Stochastische Grammatik , Kontextfreie Grammatik , Parsen , Syntax de_DE
dc.subject.ddc 400 de_DE
dc.subject.other Baumbank de_DE
dc.subject.other Probabilistic context-free grammar , Parsing , Syntax , Annotation , Treebank en
dc.title Treebank refinement. optimising representations of syntactic analyses for probabilistic context-free parsing en
dc.title Treebank refinement. Das Optimieren von Repräsentationen syntaktischer Analysen für probabilistisches kontext-freies Parsen de_DE
dc.type PhDThesis de_DE
dcterms.dateAccepted 2006-06-12 de_DE
utue.publikation.fachbereich Allgemeine u. vergleichende Sprachwissenschaft de_DE
utue.publikation.fakultaet 5 Philosophische Fakultät de_DE
dcterms.DCMIType Text de_DE
utue.publikation.typ doctoralThesis de_DE
utue.opus.id 3296 de_DE
thesis.grantor 09 Neuphilologische Fakultät de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige