A framework for processing and presenting parallel text corpora

DSpace Repository


Dateien:
Aufrufstatistik

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-13171
http://hdl.handle.net/10900/48620
Dokumentart: Dissertation
Date: 2004
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Sonstige - Informations- und Kognitionswissenschaften
Advisor: Loos, Rüdiger
Day of Oral Examination: 2004-07-21
DDC Classifikation: 004 - Data processing and computer science
Keywords: Korpus <Linguistik> , Hypermedia , Multimedia, Programmierumgebung , Programmdokumentation
Other Keywords: Entwicklungsumgebung , parallele multi-modale Textkorpora
IDE , parallel multi-modal textcorpora
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Diese Arbeit stellt ein erweiterbares System für die Bearbeitung und Präsentation von multi-modalen, parallelen Textkorpora vor. Es kann dazu verwendet werden um digitale Dokumente in vielerlei Formaten wie zum Beispiel einfache Textdateien, XML-Dateien oder Graphiken zu bearbeiten wobei bearbeiten in diesem Zusammenhang vor allem strukturieren und verlinken bedeutet. Diese Strukturierung nach einem neu entwickelten Kodierungschema kann zum Beispiel auf formalen, linguistischen, semantischen, historischen oder auch vielen anderen Gesichtspunkten beruhen. Die Dokumente können gleichzeitig mit beliebig vielen parallelen und sich möglicherweise auch überlappenden Strukturen versehen werden und bezüglich jeder dieser Strukturen auch miteinander verknüpft werden. Die unterschiedlichen Strukturen können je nach Art entweder automatisch oder halbautomatisch erzeugt werden oder sie können vom Benutzer manuell spezifiziert werden. Als Grundlage des vorgestellten Systems dient XTE, ein einfaches aber zugleich mächtiges, externe Kodierungsschema das sowohl als eine XML DTD als auch als ein XML Schema verwirklicht wurde. XTE ist besonders zum Kodieren von vielen, sich gegenseitig überlappenden Hierarchien in multi-modalen Dokumenten und zum Verknüpfen dieser Strukturen über mehrere Dokumente hinweg, geeignet. Zusammen mit XTE wurden zwei ausgereifte Anwendungen zum Betrachten und Bearbeiten von XTE-kodierten Dokumenten sowie zum komfortablen Arbeiten mit den so erstellten Ergebnisdokumenten geschaffen. Diese Anwendungen wurden als anpassbares und erweiterbares System konzipiert, das möglichst einfach für andere Einsatzgebiete und an neue Benutzerwünsche angepasst werden können soll. Die Kombination einer klassischen Synopse zusammen mit den vorhandenen Erweiterungsmöglichkeiten mittels Wörterbüchern, Lexika und Multi-Media Elementen die das System bietet, machen es zu einem Werkzeug das auf vielen Gebieten, angefangen von der Text-Analyse und dem Sprachenlernen über die Erstellung textkritischer Editionen bis hin zum elektronischen Publizieren, einsetzbar ist. Neben diesem System sind als weitere Ergebnisse dieser Arbeit verschiedene Werkzeuge für die Softwaredokumentation entstanden und zur Dokumentation des Systems eingesetzt worden. Weiterhin wurde eine neuartige, mehrsprachige, graphische Benutzeroberfläche entwickelt, die unter anderem in dem hier beschriebenen System eingesetz wurde.

Abstract:

This thesis describes an extensible framework for the processing and presentation of multi-modal, parallel text corpora. It can be used to load digital documents in many formats like for example pure text, XML or bit-mapped graphics, to structure these documents with a uniform markup and link them together. The structuring or tagging can be done with respect to formal, linguistic, semantic, historical and many other aspects. Different, parallel taggings are possible for a document and the documents marked up this way can be linked together with respect to any of these structures. Depending on the nature of the tagging and the scope of the linking, they can be performed automatically, semi-automatically or manually. As a foundation of this work, XTE, a simple but powerful XML standoff annotation scheme has been developed and realized as a DTD and as an XML Schema. XTE is especially well suited for the encoding of multiple, overlapping hierarchies in multi-modal documents and for the cross linking of the elements of these encodings across several documents. Together with XTE, elaborate editor and browser applications have been developed which allow the comfortable creation and presentation of XTE encoded documents. These applications have been realized as a configurable and extensible framework that makes it easy for others to extend, customize and adopt the system for their special needs. The combination of a classical textual synopsis with the supplementary options of dictionaries, encyclopedias, multi-media extensions and powerful tools opens a wide area of applicability for the system ranging from text analysis and language learning to the creation of critical editions and electronic publishing. As a side effect of the main topic, different tools for program and software documentation have been developed and a new and innovative, multilingual user interface has been created. The documentation tools have been used to document the components of the framework while the new user interface has been built into the created applications.

This item appears in the following Collection(s)