Universal Machine Learning Methods for Detecting and Temporal Anchoring of Events

Reimers, Nils Fabian (2018)
Universal Machine Learning Methods for Detecting and Temporal Anchoring of Events.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

URL / URN: https://tuprints.ulb.tu-darmstadt.de/8163

Kurzbeschreibung (Abstract)

Event detection has a lot of use-cases, for example summarization, automatic timeline generation or automatic knowledge base population. However, there is no commonly agreed on definition what counts as an event or how events are expressed in text. As a consequence, many different definitions, annotation schemes and corpora have been published, often focusing on specific applications. For a new application, there is a high chance that new data must be annotated and that a machine learning approach must specifically be trained and tuned for this new dataset.

Instead of a system that works well for one specific dataset, we are interested in a universal learning approach that can be used for a wide range of event detection tasks. In this thesis, we analyze an architecture that is based on bidirectional long short-term memory networks (BiLSTM) and conditional random fields (CRF). The BiLSTM-CRF architecture was successfully used by other researchers for sequence tagging tasks and is a strong candidate for the task of event detection. However, besides numerous hyperparameters, researchers have also published various modifications and extensions of this architecture. These parameters and design choices can have a big impact on the performance and selecting them correctly can make the difference between mediocre and state-of-the-art performance. Which parameters and design choices are of relevance is not clear. This leads to a slow adaptation of the approach to new datasets and requires expert experiences and sometimes brute force search to find optimal parameters. This situation is especially unfavorable for event detection where datasets are often application specific.

In order to accelerate the adaptation to new tasks, we provide an extensive evaluation of the BiLSTM-CRF architecture and its individual components and parameters. We identify which parts are relevant for achieving a good performance and which parameters are important to tune for specific tasks. We derive a standard configuration for the architecture that worked well for various tasks. We then show that the BiLSTM-CRF architecture with the proposed default configuration achieves strong results on different event detection tasks.

In most applications, we are not only interested to know that an event happened, but also need to know when it happened. Different methods for annotating temporal information for events have been proposed. In an annotation study we show that the existent annotation schemes have major drawbacks in providing temporal information for events, at least for news articles. Existent schemes provide insufficient temporal information for the majority of events. This is due to the limitation of the annotation scope to only one sentence or two neighboring sentences. As we show in an annotation study, the relevant temporal information for an event can be several sentences apart from the event mention. We developed a new annotation scheme that addresses short-comings of previous schemes and which requires about 85% less annotation effort. Still, it provides better temporal information for events in a document.

While the new scheme requires less human effort, it creates new challenges for automatic event time extraction systems. Existent schemes can be modeled as a pair-wise classification task, but this is no longer possible for the new scheme. Instead, the whole document must be considered and information from different parts of the document must be merged together. We propose an automatic system that uses a decision tree with convolutional neural networks as local classifiers. The neural networks consider the whole document. The final label is derived step-wise, with different branching options. Compared to state-of-the-art systems, the developed architecture significantly improves the accuracy for event time extraction on our annotated data. Further, it generalizes well to other datasets and tasks. Without adaption, it improved the F1-score for the task of automatic event time line generation for the SemEval-2015 Task 4 by 4.01 percentage points.

The final part of the thesis addresses the evaluation of machine learning approaches. Comparing approaches is a major driving force in our research community, which tries to improve the state-of-the-art for tasks of interest. The question arises how reliable our evaluation methods are to spot differences between approaches. We investigate two evaluation setups that are commonly found in scientific publications and which are the de-facto evaluation setups for shared tasks. We show that these setups are unsuitable to compare learning approaches. This introduces a high risk of drawing wrong conclusions. We identify different sources of variation that must be addressed when comparing machine learning approaches and discuss difficulties of addressing those sources of variations.

Typ des Eintrags:

Dissertation

Erschienen:

2018

Autor(en):

Reimers, Nils Fabian

Art des Eintrags:

Erstveröffentlichung

Titel:

Universal Machine Learning Methods for Detecting and Temporal Anchoring of Events

Sprache:

Englisch

Referenten:

Gurevych, Prof. Dr. Iryna ; Weikum, Prof. Dr. Gerhard ; Roth, Prof. Dan

Publikationsjahr:

2018

Ort:

Darmstadt

Datum der mündlichen Prüfung:

3 Mai 2018

URL / URN:

https://tuprints.ulb.tu-darmstadt.de/8163

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Die Erkennung von Ereignissen besitzt viele Anwendungsszenarien, beispielsweise Textzusammenfassung, automatisierte Generierung von Zeitlinien oder die automatisierte Erstellung von Wissensdatenbanken. Allerdings existiert keine weithin akzeptierte Definition, was eigentlich ein Ereignis ist, stattdessen gibt es viele unterschiedliche Definitionen, Annotationsschema und Datensätze. Oftmals zielen diese Definitionen und Datensätze auf spezifische Anwendungsszenarien ab. Dies bedeutet aber, dass für neue Anwendungen oftmals eine neue Definition geschafft werden muss. Anschließend müssen Daten annotiert werden und ein lernendes System muss auf diesen Daten trainiert werden.

Aufgrund dessen sind wir an Lernverfahren interessiert, die nicht nur auf einem Datensatz gut funktionieren, sondern universell für das Erkennen von Events eingesetzt werden können. Daher analysieren wir in dieser Doktorarbeit eine Architektur, die auf bidirectional long short-term memory networks (BiLSTM) und conditional random fields (CRF) basiert. Die BiLSTM-CRF Architektur wurde bereits erfolgreich für unterschiedlichste Anwendungen aus dem Bereich Sequence Tagging verwendet und ist damit ein vielversprechender Ansatz für die Erkennung von Events. Ein Nachteil der BiLSTM-CRF Architektur ist die hohe Anzahl an Hyperparametern und die hohe Anzahl an konzeptionellen Erweiterungen der Architektur, die von unterschiedlichsten Forschungsgruppen publiziert wurden. Diese Parameter und Designentscheidungen können einen großen Einfluss auf die Performance des Systems haben und es ist nur wenig bekannt, wie die Parameter korrekt zu setzen sind. Dies führt zu einem hohen Aufwand wenn man die Architektur auf einen neuen Datensatz anwenden möchte, da unzählige Parameter und Parameterkombinationen ausprobiert werden müssen. Dies ist besonders kritisch bei der Erkennung von Ereignissen in Texten, da unterschiedlichste applikationsspezifische Datensätze existieren.

Um Aufwand der Adaption für neue Datensätze zu reduzieren, führen wir eine umfassende Analyse der BiLSTM-CRF Architektur durch. Wir identifizieren, welche Parameter und Komponenten der Architektur wichtig für das Erzielen einer guten Performance sind. Darauf aufbauend präsentieren wir eine Standardkonfiguration, die gut funktioniert für eine hohe Anzahl an Datensätzen. Für diese Konfiguration zeigen wir dann, dass diese auch gut für verschiedene Ereignis-Erkennungs-Probleme funktioniert.

In den meisten Anwendungen möchte man nicht nur erkennen, dass ein Ereignis beschrieben wird, sondern man möchte ebenfalls wissen wann dieses Ereignis passiert ist. Es existieren verschiedene Methoden um zeitliche Informationen in Texten zu erfassen und eine Verbindung zu den beschriebenen Ereignissen herzustellen. Wie wir aber in einer Annotationsstudie zeigen, besitzen die existenten Annotationsverfahren, zumindest bei Nachrichtenartikeln, große Nachteile. Existente Annotationsverfahren liefern für einen Großteil der Ereignisse nicht die vom Benutzer gewünschten zeitlichen Informationen. Das Problem existenter Annotationsverfahren ist, dass diese den Annotationsumfang auf denselben bzw. auf benachbarte Sätze beschränken. Zeitliche Informationen für ein Ereignis, dass außerhalb liegt, kann oftmals nicht berücksichtigt werden. Wie wir aber zeigen, kann eine große Anzahl an Sätzen zwischen dem Ereignis und der zeitliche Informationen liegen. Wir entwickelten deswegen ein neues Annotationsverfahren, welches die Nachteile existenter Verfahren adressiert und zeitgleich 85% weniger Annotationsaufwand erfordert.

Während dieses Annotationsverfahren mit weniger Aufwand für die Annotatoren verbunden ist, stellt es automatisierte Verfahren vor neue Herausforderungen. Existente Annotationsschemata lassen sich als paarweise Klassifikation zwischen dem Ereignis und der zeitlichen Information modellieren. Mit dem neuen Annotationsverfahren ist dies nicht mehr möglich. Stattdessen müssen automatisierte Verfahren das gesamte Dokument betrachten und entscheiden, welche Teile im Text relevant sind. Um diese Herausforderungen zu lösen, präsentieren wir einen Entscheidungsbaum, der in den Knoten convolutional neural networks verwendet. Diese neuronale Netzwerke arbeiten auf dem gesamten Textdokument und erzeugen Schrittweise die zeitliche Information für jedes Ereignis im Text. Im Vergleich zu anderen automatisierten System arbeitet das präsentierte System deutlich präziser. Ebenso generalisiert es gut auf neue Daten und Anwendungen. Wir evaluierten es, ohne Anpassung auf den SemEval-2015 Task 4 Datensatz zur Erzeugung automatischer Zeitlinien. Dabei konnte es eine Verbesserung von 4.01 Prozentpunkten erzielen im Vergleich zu anderen Verfahren.

Der letzte Teil der Doktorarbeit beschäftigt sich mit der Evaluation von Lernverfahren. Der Vergleich von Verfahren ist eine treibende Kraft in unserer Forschungsgemeinschaft, die stets versucht, neue und bessere Methoden zu entwickeln. Hierbei entsteht die Frage, wie gut unsere Evaluationsmethoden sind? Wir untersuchen zwei Evaluationsmethoden, die besonders oft in wissenschaftlichen Arbeiten verwendet werden, und zeigen für diese, dass sie ungeeignet sind um Lernverfahren zu vergleichen. Die Schwächen der Evaluationmethoden führen zu einer hohen Gefahr, dass falsche Schlussfolgerungen gezogen werden. Wir identifizieren verschiedene Faktoren, die die Performance von Lernverfahren beeinflussen, und die in der Evaluationsmethode adressiert werden sollten.

Deutsch

URN:

urn:nbn:de:tuda-tuprints-81634

Sachgruppe der Dewey Dezimalklassifikatin (DDC):

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Fachbereich(e)/-gebiet(e):

20 Fachbereich Informatik
20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung

Hinterlegungsdatum:

23 Dez 2018 20:55

Letzte Änderung:

23 Dez 2018 20:55

PPN: