Parsing Discontinuous Structures

Maier, Wolfgang

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
5 Philosophische Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Kallmeyer, Laura (Prof. Dr.)	de_DE
dc.contributor.author	Maier, Wolfgang	de_DE
dc.date.accessioned	2013-03-28	de_DE
dc.date.accessioned	2014-03-18T09:56:10Z
dc.date.available	2013-03-28	de_DE
dc.date.available	2014-03-18T09:56:10Z
dc.date.issued	2013	de_DE
dc.identifier.other	38049227X	de_DE
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-67569	de_DE
dc.identifier.uri	http://hdl.handle.net/10900/47069
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-470690	de_DE
dc.description.abstract	The development of frameworks that allow to state grammars for natural languages in a mathematically precise way is a core task of the field of computational linguistics. The same holds for the development of techniques for finding the syntactic structure of a sentence given a grammar, parsing. The focus of this thesis lies on data-driven parsing. In this area, one uses probabilistic grammars that are extracted from manually analyzed sentences coming from a treebank. The probability model can be used for disambiguation, i.e., for finding the best analysis of a sentence. In the last decades, enormous progress has been achieved in the domain of data-driven parsing. Many current parsers are nevertheless still limited in an important aspect: They cannot handle discontinuous structures, a phenomenon which occurs especially frequently in languages with a free word order. This is due to the fact that those parsers are based on Probabilistic Context-Free Grammar (PCFG), a framework that cannot model discontinuities. In this thesis, I propose the use of Probabilistic Simple Range Concatenation Grammar (PSRCG), a natural extension of PCFG, for data-driven parsing. Thereby, I bring together developments from different areas, namely research on parsing German, on the quantification of discontinuity in treebanks, and on formalisms which can model discontinuous structures. Not only theoretical aspects are treated. For the first time, all techniques for direct data-driven parsing of discontinuities have been implemented and tested in a real-world data-driven parsing setting. The parser output quality and the parsing speed are encouraging and prove the point of this work: An exploration of the landscape of formal grammars beyond Context-Free Grammar with regard to data-driven parsing is worth the effort for data-driven parsing and opens the way for many new developments in the future, both in parsing and beyond.	en
dc.description.abstract	Die Entwicklung formaler Systeme für die mathematisch präzise Formulierung einer Grammatik der natürlichen Sprache ist eine Kernaufgabe der Computerlinguistik. Dasselbe gilt für die Entwicklung von Techniken für die Berechnung der syntaktischen Struktur eines Satzes auf Basis einer Grammatik, Parsing. In dieser Dissertation steht das datengetriebene Parsing im Vordergrund. Dabei werden von den manuell annotierten Sätzen einer Baumbank extrahierte probabilistische Grammatiken benutzt. Das Wahrscheinlichkeitsmodell kann zur Disambiguierung benutzt werden, d.h. zur Berechnung der besten Analyse für einen gegebenen Satz. In den vergangenen Jahrzehnten wurden in der Forschung zu datengetriebenem Parsing enorme Fortschritte erzielt. Nichtsdestotrotz sind viele aktuelle Parser weiterhin in einem wichtigen Aspekt beschränkt: Sie können nicht mit diskontinuierlichen Strukturen umgehen, einer Art von Strukturen die besonders in Sprachen mit freier Wortstellung häufig auftritt. Der Grund hierfür ist, dass diese Parser auf Probabilistischer Kontextfreier Grammatik aufbauen, welche Diskontinuitäten nicht modellieren kann. In dieser Dissertation plädiere ich für die Benutzung von Probabilistic Simple Range Concatenation Grammar, einer natürlichen Erweiterung der Probabilistischen Kontextfreien Grammatik, für datengetriebenes Parsing. Ich führe damit Entwicklungen aus verschiedenen Bereichen zusammen: Forschung zum Parsing des Deutschen, zur Quantifizierung von Diskontinuität in Baumbanken, und zu Formalismen, die diskontinuierliche Strukturen modellieren können. Nicht nur theoretische Aspekte werden behandelt. Zum ersten Mal wurden alle Techniken, die für direktes datengetriebenes Parsing von Diskontinuitäten benötigt werden, implementiert und auf einem realistisch großen Datensatz getestet. Die Qualität der Parserausgabe und die Parsinggeschwindigkeit sind ermutigend und sprechen für den Ansatz dieser Arbeit: Eine Erforschung der Landschaft der formalen Grammatiken jenseits der Kontextfreien Grammatik lohnt sich für das datengetriebene Parsing und ebnet den Weg für viele Entwicklungen in der Zukunft, im Parsing, und darüber hinaus.	de_DE
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Syntaktische Analyse , Computerlinguistik , Deutsch , Dependenzgrammatik , Formale Grammatik	de_DE
dc.subject.ddc	400	de_DE
dc.subject.other	Datengetriebene syntaktische Analyse , Diskontinuierliche Strukturen , Baumbank	de_DE
dc.subject.other	Data-driven parsing , Discontinuous structures	en
dc.title	Parsing Discontinuous Structures	en
dc.title	Parsing Diskontinuierlicher Strukturen	de_DE
dc.type	PhDThesis	de_DE
dc.date.updated	2013-03-28	de_DE
dcterms.dateAccepted	2012-10-16	de_DE
utue.publikation.fachbereich	Allgemeine u. vergleichende Sprachwissenschaft	de_DE
utue.publikation.fakultaet	5 Philosophische Fakultät	de_DE
dcterms.DCMIType	Text	de_DE
utue.publikation.typ	doctoralThesis	de_DE
utue.opus.id	6756	de_DE
thesis.grantor	5 Philosophische Fakultät	de_DE

Dateien:	dissertation_maier.pdf 2.45 MB PDF

Das Dokument erscheint in:

5 Philosophische Fakultät [1728]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Parsing Discontinuous Structures

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto