Inhaltszusammenfassung:
Short Answer Assessment (SAA), die computerlinguistische Aufgabe mit dem
Ziel, die Angemessenheit einer Antwort auf eine Frage zu bewerten, ist in
den letzten Jahren viel untersucht worden (siehe z.B. Dzikovska et al. 2013;
Burrows et al. 2015). Meist wird das Problem analog zur Paraphrase Recognition
(siehe z.B. Brockett & Dolan 2005) oder zum Textual Entailment (Dagan et al.,
2006) behandelt, indem die zu bewertende Antwort mit einer Referenzantwort
verglichen wird. Dies ist prinzipiell ein sinnvoller Ansatz, der jedoch den
expliziten Kontext einer Antwort außer Acht lässt: die Frage.
In der vorliegenden Arbeit wird ein Ansatz dargestellt, diesen Stand der
Forschung zu ändern, indem die Rolle der Informationsstruktur (IS, siehe z.B.
Krifka 2007) im SAA untersucht wird. Der Ansatz basiert auf der grundlegen-
den Annahme der IS, dass der Inhalt eines sprachlichen Ausdrucks auf einer
bestimmte Art und Weise durch seinen Kontext (hier: die Frage) strukturiert
wird, und dass man daher bis zu einem gewissen Grad vorhersagen kann,
welcher inhaltliche Teil des Ausdrucks relevant ist. Insbesondere wird der
Question Under Discussion (QUD) Ansatz (Roberts, 2012) übernommen, bei
dem die Informationsstruktur einer Antwort durch eine explizite oder implizite
Frage im Diskurs bestimmt wird.
In Kapitel 2 und 3 wird der Leser zunächst in die relevanten wissenschaft-
lichen Bereiche dieser Dissertation eingeführt. Da es sich um eine compu-
terlinguistische Arbeit handelt, die von theoretisch-linguistischer Forschung
inspiriert ist, werden sowohl SAA als auch IS in für die Arbeit ausreichender
Tiefe diskutiert, sowie ein Überblick über aktuelle Ansätze zur Annotation
von IS-Kategorien gegeben. Anschließend wird erörtert, welche Begriffe und
Unterscheidungen der IS für die Ziele dieser Arbeit zentral sind: Ein Vergleich
der given/new-Unterscheidung und der focus/background-Unterscheidung ergibt,
dass letztere das relevantere Kriterium darstellt, da sie erfragte Information
erfasst, welche im Kontext sowohl gegeben als auch neu sein kann.
Kapitel 4 stellt die empirische Basis dieser Arbeit vor, den Corpus of Reading
Comprehension Exercises in German (CREG, Ott, Ziai & Meurers 2012). Es
wird herausgearbeitet, warum ein task-basiertes Korpus wie CREG besonders
geeignet für die linguistische Analyse von Sprache im Kontext ist, und dass es
daher die Basis für die in dieser Arbeit dargestellten Untersuchungen zu SAA
und zur Fokusanalyse darstellt. Kapitel 5 präsentiert das SAA-System CoMiC
(Meurers, Ziai, Ott & Kopp, 2011b), welches für die Integration von Fokus in
SAA in Kapitel 8 verwendet wird.
Kapitel 6 befasst sich mit der Annotation eines Korpus mit dem Ziel der
manuellen und automatischen Fokusanalyse. Es wird diskutiert, auf welchen
Kriterien ein Ansatz zur Annotation von Fokus sinnvoll aufbauen kann, bevor
ein neues Annotationsschema präsentiert und auf einen Teil von CREG ange-
wendet wird. Der Annotationsansatz wird erfolgreich intrinsisch validiert, und
neben Expertenannotation wird außerdem ein Crowdsourcing-Experiment zur
Fokusannotation beschrieben.
Nachdem die Datengrundlage etabliert wurde, wendet sich Kapitel 7 der
automatischen Fokuserkennung in Antworten zu. Nach einem Überblick über
bisherige Arbeiten wird zunächst diskutiert, welche relevanten Eigenschaften
von Fragen und Antworten in einem automatischen Ansatz verwendet werden
können. Darauf folgt die Beschreibung eines wortbasierten Modells zur Foku-
serkennung, welches Merkmale der Syntax und Lexis von Frage und Antwort
einbezieht und mehrere Baselines in der Genauigkeit der Klassifikation klar
übertrifft.
In Kapitel 8 wird die Integration von Fokusinformation in SAA anhand des
CoMiC-Systems dargestellt, welche sowohl als extrinsische Validierung von
manueller und automatischer Fokusanalyse dient, als auch die computerlin-
guistische Aufgabe darstellt, zu der diese Arbeit einen Beitrag leistet. Fokus
wird als Filter für die Zuordnung von Lerner- und Musterantworten in CoMiC
integriert und diese Konfiguration wird benutzt, um den Einfluss von manu-
eller und automatischer Fokusannotation zu untersuchen, was zu positiven
Ergebnissen führt. Es wird außerdem gezeigt, dass eine Kombination von Fokus
und Givenness bei verlässlicher Fokusinformation für bessere Ergebnisse sorgt
als jede Kategorie in Isolation erreichen kann.
Schließlich gibt Kapitel 9 nochmals einen Überblick über den Inhalt der
Arbeit und stellt die Hauptbeiträge heraus. Die Schlussfolgerung ist, dass
Fokusanalyse in authentischen Daten sowohl möglich als auch notwendig ist,
um a) den Kontext in SAA einzubeziehen und b) linguistische Theorien zu IS
zu validieren und zu testen. Basierend auf den Ergebnissen werden mehrere
mögliche Richtungen für zukünftige Forschung aufgezeigt.
Abstract:
Short Answer Assessment (SAA), the computational task of judging the appro-
priateness of an answer to a question, has received much attention in recent
years (cf., e.g., Dzikovska et al. 2013; Burrows et al. 2015). Most researchers
have approached the problem as one similar to paraphrase recognition (cf.,
e.g., Brockett & Dolan 2005) or textual entailment (Dagan et al., 2006), where
the answer to be evaluated is aligned to another available utterance, such as a
target answer, in a sufficiently abstract way to capture form variation. While
this is a reasonable strategy, it fails to take the explicit context of an answer
into account: the question.
In this thesis, we present an attempt to change this situation by investigating
the role of Information Structure (IS, cf., e.g., Krifka 2007) in SAA. The basic
assumption adapted from IS here will be that the content of a linguistic ex-
pression is structured in a non-arbitrary way depending on its context (here:
the question), and thus it is possible to predetermine to some extent which
part of the expression’s content is relevant. In particular, we will adopt the
Question Under Discussion (QUD) approach advanced by Roberts (2012) where
the information structure of an answer is determined by an explicit or implicit
question in the discourse.
We proceed by first introducing the reader to the necessary prerequisites
in chapters 2 and 3. Since this is a computational linguistics thesis which
is inspired by theoretical linguistic research, we will provide an overview of
relevant work in both areas, discussing SAA and Information Structure (IS) in
sufficient detail, as well as existing attempts at annotating Information Structure
in corpora. After providing the reader with enough background to understand
the remainder of the thesis, we launch into a discussion of which IS notions and
dimensions are most relevant to our goal. We compare the given/new distinction
(information status) to the focus/background distinction and conclude that the
latter is better suited to our needs, as it captures requested information, which
can be either given or new in the context.
In chapter 4, we introduce the empirical basis of this work, the Corpus of
Reading Comprehension Exercises in German (CREG, Ott, Ziai & Meurers
2012). We outline how as a task-based corpus, CREG is particularly suited to
the analysis of language in context, and how it thus forms the basis of our
efforts in SAA and focus detection. Complementing this empirical basis, we
present the SAA system CoMiC in chapter 5, which is used to integrate focus
into SAA in chapter 8.
Chapter 6 then delves into the creation of a gold standard for automatic
focus detection. We describe what the desiderata for such a gold standard are
and how a subset of the CREG corpus is chosen for manual focus annotation.
Having determined these prerequisites, we proceed in detail to our novel
annotation scheme for focus, and its intrinsic evaluation in terms of inter-
annotator agreement. We also discuss explorations of using crowd-sourcing for
focus annotation.
After establishing the data basis, we turn to the task of automatic focus
detection in short answers in chapter 7. We first define the computational
task as classifying whether a given word of an answer is focused or not. We
experiment with several groups of features and explain in detail the motivation
for each: syntax and lexis of the question and the the answer, positional
features and givenness features, taking into account both question and answer
properties. Using the adjudicated gold standard we established in chapter 6, we
show that focus can be detected robustly using these features in a word-based
classifier in comparison to several baselines.
In chapter 8, we describe the integration of focus information into SAA,
which is both an extrinsic testbed for focus annotation and detection per se and
the computational task we originally set out to advance. We show that there
are several possible ways of integrating focus information into an alignment-
based SAA system, and discuss each one’s advantages and disadvantages.
We also experiment with using focus vs. using givenness in alignment before
concluding that a combination of both yields superior overall performance.
Finally, chapter 9 presents a summary of our main research findings along
with the contributions of this thesis. We conclude that analyzing focus in
authentic data is not only possible but necessary for a) developing context-
aware SAA approaches and b) grounding and testing linguistic theory. We give
an outlook on where future research needs to go and what particular avenues
could be explored.