Inhaltszusammenfassung:
Die Phylogenie bietet Rechenverfahren, die für die (Computer-) Linguistik angepasst werden können. Einige dieser Methoden können aufgrund der Gemeinsamkeiten beider Bereiche in die historische Linguistik übernommen werden. Diese, für die Linguistik angepassten und modifizierten Methoden, können angewandt werden, um Geschichte und Entwicklung von Sprachen zu untersuchen, wobei diese Erkenntnisse zu neue Ansätze führen. Eine dieser Herangehensweisen ist der Vergleich zweier Bäume. In der Phyloge-
nie werden Bäume hauptsächlich verglichen, um Rekonstruktionsmethoden zu testen.
Diese Arbeit fußt auf der Idee, durch den Vergleich der Bäume Unterschiede festzustellen. Um Abweichungen zwischen ihnen berechnen zu können, werden zwei Arten von Bäumen, Sprach- und Konzeptbäume, verglichen. Der Sprachbaum stellt die Geschichte der Sprachen dar, während der Konzeptbaum die evolutionäre Vergangenheit einer bestimmten Repräsentation eines Wortes zeigt. Konzept- und Sprachbaum werden mit phylogenetischen Methoden verglichen. Eines dieser Verfahren ist die Berechnung der Distanz zwischen Bäumen. Die zugrunde liegenden Daten für diese Bäume werden von der ASJP Datenbank bereitgestellt (Wichmann et al., 2012).
Mit Hilfe dieser Daten sind linguistische Rekonstruktionsalgorithmen, wie der dERC Algroithmus (Jäger, 2013), in der Lage, sinnvolle Bäume zu konstruieren. Diese können dann automatisch verglichen werden. Die dadurch festgestellten Abweichungen können mit linguistischem Fachwissen interpretiert werden. Dies ermöglicht Einblicke in die Entstehungsgeschichte von Sprachen. Die Unterschiede der Bäume können dann in einem evolutionären Netzwerk visualisiert werden.
Abstract:
The field of phylogenetics provides computational methods which can
be adapted into (computational) linguistics. Due to parallels between the two fields, the interest of combining both arose. The adapted and modified methods can be used to study the history and evolution of languages and therefore new approaches emerged. One approach is the comparison of two trees. Up to now, trees were only compared to test different reconstruction methods.
This thesis exploits the idea of tree comparison for the detection of mismatches. To discover these mismatches, two types of linguistic trees are compared. These trees are so called language and concept trees. The language tree represents the history of languages, whilst concept trees display the evolutionary history of a representation of one specific word. The concept and language tree are compared using popular methods from phylogenetics. One of these methods is the computation of the distance between trees. The underlying data for these trees is provided by the ASJP database (Wichmann et al., 2012). Using this data, linguistic reconstruction algorithms such as the dERC (Jäger, 2013) are able to construct proper linguistic trees which can be compared automatically. The detected mismatches between the trees can be interpreted using linguistic background knowledge to get insights in the evolutionary history of languages. Within an evolutionary network, these mismatches can be depicted by reticulations.