TU Darmstadt / ULB / TUbiblio

Automatic Structured Text Summarization with Concept Maps

Falke, Tobias (2019)
Automatic Structured Text Summarization with Concept Maps.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Efficiently exploring a collection of text documents in order to answer a complex question is a challenge that many people face. As abundant information on almost any topic is electronically available nowadays, supporting tools are needed to ensure that people can profit from the information's availability rather than suffer from the information overload. Structured summaries can help in this situation: They can be used to provide a concise overview of the contents of a document collection, they can reveal interesting relationships and they can be used as a navigation structure to further explore the documents. A concept map, which is a graph representing concepts and their relationships, is a specific form of a structured summary that offers these benefits. However, despite its appealing properties, only a limited amount of research has studied how concept maps can be automatically created to summarize documents. Automating that task is challenging and requires a variety of text processing techniques including information extraction, coreference resolution and summarization. The goal of this thesis is to better understand these challenges and to develop computational models that can address them. As a first contribution, this thesis lays the necessary ground for comparable research on computational models for concept map--based summarization. We propose a precise definition of the task together with suitable evaluation protocols and carry out experimental comparisons of previously proposed methods. As a result, we point out limitations of existing methods and gaps that have to be closed to successfully create summary concept maps. Towards that end, we also release a new benchmark corpus for the task that has been created with a novel, scalable crowdsourcing strategy. Furthermore, we propose new techniques for several subtasks of creating summary concept maps. First, we introduce the usage of predicate-argument analysis for the extraction of concept and relation mentions, which greatly simplifies the development of extraction methods. Second, we demonstrate that a predicate-argument analysis tool can be ported from English to German with low effort, indicating that the extraction technique can also be applied to other languages. We further propose to group concept mentions using pairwise classifications and set partitioning, which significantly improves the quality of the created summary concept maps. We show similar improvements for a new supervised importance estimation model and an optimal subgraph selection procedure. By combining these techniques in a pipeline, we establish a new state-of-the-art for the summarization task. Additionally, we study the use of neural networks to model the summarization problem as a single end-to-end task. While such approaches are not yet competitive with pipeline-based approaches, we report several experiments that illustrate the challenges - mostly related to training data - that currently limit the performance of this technique. We conclude the thesis by presenting a prototype system that demonstrates the use of automatically generated summary concept maps in practice and by pointing out promising directions for future research on the topic of this thesis.

Typ des Eintrags: Dissertation
Erschienen: 2019
Autor(en): Falke, Tobias
Art des Eintrags: Erstveröffentlichung
Titel: Automatic Structured Text Summarization with Concept Maps
Sprache: Englisch
Referenten: Gurevych, Prof. Dr. Iryna ; Dagan, Prof. Dr. Ido
Publikationsjahr: 2019
Ort: Darmstadt
Datum der mündlichen Prüfung: 29 Januar 2019
URL / URN: https://tuprints.ulb.tu-darmstadt.de/8430
Kurzbeschreibung (Abstract):

Efficiently exploring a collection of text documents in order to answer a complex question is a challenge that many people face. As abundant information on almost any topic is electronically available nowadays, supporting tools are needed to ensure that people can profit from the information's availability rather than suffer from the information overload. Structured summaries can help in this situation: They can be used to provide a concise overview of the contents of a document collection, they can reveal interesting relationships and they can be used as a navigation structure to further explore the documents. A concept map, which is a graph representing concepts and their relationships, is a specific form of a structured summary that offers these benefits. However, despite its appealing properties, only a limited amount of research has studied how concept maps can be automatically created to summarize documents. Automating that task is challenging and requires a variety of text processing techniques including information extraction, coreference resolution and summarization. The goal of this thesis is to better understand these challenges and to develop computational models that can address them. As a first contribution, this thesis lays the necessary ground for comparable research on computational models for concept map--based summarization. We propose a precise definition of the task together with suitable evaluation protocols and carry out experimental comparisons of previously proposed methods. As a result, we point out limitations of existing methods and gaps that have to be closed to successfully create summary concept maps. Towards that end, we also release a new benchmark corpus for the task that has been created with a novel, scalable crowdsourcing strategy. Furthermore, we propose new techniques for several subtasks of creating summary concept maps. First, we introduce the usage of predicate-argument analysis for the extraction of concept and relation mentions, which greatly simplifies the development of extraction methods. Second, we demonstrate that a predicate-argument analysis tool can be ported from English to German with low effort, indicating that the extraction technique can also be applied to other languages. We further propose to group concept mentions using pairwise classifications and set partitioning, which significantly improves the quality of the created summary concept maps. We show similar improvements for a new supervised importance estimation model and an optimal subgraph selection procedure. By combining these techniques in a pipeline, we establish a new state-of-the-art for the summarization task. Additionally, we study the use of neural networks to model the summarization problem as a single end-to-end task. While such approaches are not yet competitive with pipeline-based approaches, we report several experiments that illustrate the challenges - mostly related to training data - that currently limit the performance of this technique. We conclude the thesis by presenting a prototype system that demonstrates the use of automatically generated summary concept maps in practice and by pointing out promising directions for future research on the topic of this thesis.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Textdokumente effizient zu durchsuchen um eine komplexe Frage zu beantworten ist eine Herausforderung, der viele Menschen gegenüberstehen. Da heutzutage zu fast jedem Thema zahlreiche Informationen elektronisch verfügbar sind, sind unterstützende Tools erforderlich, die sicherstellen, dass wir von der Verfügbarkeit der Informationen profitieren anstatt in der Informationsflut unterzugehen. Strukturierte Zusammenfassungen können in dieser Situation helfen: Sie können einen prägnanten Überblick über den Inhalt einer Dokumentensammlung geben, können interessante Beziehungen aufzeigen und können als Navigationsstruktur zur weiteren Erkundung der Dokumente dienen. Eine Concept Map, ein Graph bestehend aus Konzepten und ihrer Beziehungen, ist eine Form strukturierter Zusammenfassungen die genau diese Vorteile bietet. Trotz ihrer ansprechenden Eigenschaften wurde bisher jedoch nur wenig untersucht, wie Concept Maps automatisch erstellt werden können um Dokumente zusammenzufassen. Die Automatisierung dieser Aufgabe ist herausfordernd und erfordert eine Vielzahl von Sprachverarbeitungstechniken, insbesondere Methoden der Informationsextraktion, der Koreferenzauflösung und der Zusammenfassung. Das Ziel dieser Arbeit ist es, diese Herausforderungen besser zu verstehen und passende Modelle und Algorithmen zu entwickeln. Zuerst legt diese Arbeit daher den Grundstein für eine vergleichbare Forschung an Methoden für die automatische Textzusammenfassung auf Basis von Concept Maps. Wir führen eine präzise Definition dieses Problems ein, schlagen Evaluierungsprotokolle vor und führen experimentelle Vergleiche existierender Methoden durch. Dabei zeigen sich Einschränkungen bestehender Methoden und noch nicht abgedeckte Teilprobleme des Zusammenfassungsproblems. Zudem veröffentlichen wir ein neues Evaluierungs-Korpus, das mit einer neuartigen, skalierbaren Crowdsourcing-Methode erstellt wurde. Darüber hinaus schlagen wir neue Techniken für mehrere Teilaufgaben der Erstellung von Concept Maps vor. Zunächst führen wir die Verwendung von Prädikat-Argument-Analyse zur Extraktion von Konzept- und Beziehungserwähnungen ein, was die Entwicklung von Extraktionsmethoden erheblich vereinfacht. Zweitens zeigen wir, dass ein Tool zur Prädikat-Argument-Analyse mit geringem Aufwand von Englisch nach Deutsch portiert werden kann, was unterstreicht, dass diese Extraktionstechnik auch auf andere Sprachen angewendet werden kann. Wir schlagen außerdem vor, Konzepterwähnungen mithilfe paarweiser Klassifizierungen zu partitionieren, wodurch die Qualität der erstellten Zusammenfassungen deutlich verbessert wird. Wir zeigen ähnliche Verbesserungen für ein neues Modell zur Abschätzung der Wichtigkeit von Konzepten und ein optimales Selektionsverfahren für Zusammenfassungs-Teilgraphen. Durch die Kombination dieser Techniken in einer Pipeline erstellen wir zudem das aktuell beste System zur Erstellung von Concept Map-basierten Textzusammenfassungen. Darüber hinaus untersuchen wir die Verwendung neuronaler Netze, um das Zusammenfassungsproblem als ein einziges End-to-End-Problem zu modellieren. Zwar können derartige Ansätze zur Zeit noch nicht mit Pipeline-basierten Ansätzen konkurrieren, wir zeigen jedoch durch mehrere Experimente auf, welche Herausforderungen - die überwiegend im Zusammenhang mit Trainingsdaten stehen - die Leistungsfähigkeit dieser Technik derzeit noch einschränken. Zum Abschluss der Arbeit stellen wir einen Anwendungsprototyp vor, der die praktische Nutzung von automatisch generierten Concept Maps demonstriert und beschreiben Richtungen für zukünftige Forschung in diesem Bereich.

Deutsch
URN: urn:nbn:de:tuda-tuprints-84304
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
400 Sprache > 400 Sprache, Linguistik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung
Hinterlegungsdatum: 14 Apr 2019 19:55
Letzte Änderung: 14 Apr 2019 19:55
PPN:
Referenten: Gurevych, Prof. Dr. Iryna ; Dagan, Prof. Dr. Ido
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 29 Januar 2019
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen