TU Darmstadt / ULB / TUbiblio

Knowledge-based Supervision for Domain-adaptive Semantic Role Labeling

Hartmann, Silvana (2017)
Knowledge-based Supervision for Domain-adaptive Semantic Role Labeling.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Semantic role labeling (SRL) is a method for the semantic analysis of texts that adds a level of semantic abstraction on top of syntactic analysis, for instance adding semantic role labels like Agent on top of syntactic functions like Subject. SRL has been shown to benefit various natural language processing applications such as question answering, information extraction, and summarization. Automatic SRL systems are typically based on a predefined model of semantic predicate argument structure incorporated in lexical knowledge bases like PropBank or FrameNet. They are trained using supervised or semi-supervised machine learning methods using training data labeled with predicate (word sense) and role labels. Even state-of-the-art systems based on deep learning still rely on a labeled training set. However, despite the success in an experimental setting, the real-world application of SRL methods is still prohibited by severe coverage problems (lexicon coverage problem) and lack of domain-relevant training data for training supervised systems (domain adaptation problem). These issues apply to English, but are even more severe for other languages, for which only small resources exist. The goal of this thesis is to develop knowledge-based methods to improve lexicon coverage and training data coverage for SRL. We use linked lexical knowledge bases to extend lexicon coverage and as a basis for automatic training data generation across languages and domains.

Typ des Eintrags: Dissertation
Erschienen: 2017
Autor(en): Hartmann, Silvana
Art des Eintrags: Erstveröffentlichung
Titel: Knowledge-based Supervision for Domain-adaptive Semantic Role Labeling
Sprache: Englisch
Referenten: Gurevych, Prof. Dr. Iryna ; Palmer, Prof. Martha ; Ponzetto, Prof. Dr. Simone Paolo
Publikationsjahr: 2017
Ort: Darmstadt
Datum der mündlichen Prüfung: 30 September 2016
URL / URN: http://tuprints.ulb.tu-darmstadt.de/6770
Kurzbeschreibung (Abstract):

Semantic role labeling (SRL) is a method for the semantic analysis of texts that adds a level of semantic abstraction on top of syntactic analysis, for instance adding semantic role labels like Agent on top of syntactic functions like Subject. SRL has been shown to benefit various natural language processing applications such as question answering, information extraction, and summarization. Automatic SRL systems are typically based on a predefined model of semantic predicate argument structure incorporated in lexical knowledge bases like PropBank or FrameNet. They are trained using supervised or semi-supervised machine learning methods using training data labeled with predicate (word sense) and role labels. Even state-of-the-art systems based on deep learning still rely on a labeled training set. However, despite the success in an experimental setting, the real-world application of SRL methods is still prohibited by severe coverage problems (lexicon coverage problem) and lack of domain-relevant training data for training supervised systems (domain adaptation problem). These issues apply to English, but are even more severe for other languages, for which only small resources exist. The goal of this thesis is to develop knowledge-based methods to improve lexicon coverage and training data coverage for SRL. We use linked lexical knowledge bases to extend lexicon coverage and as a basis for automatic training data generation across languages and domains.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Die automatische Annotation semantischer Rollen (Semantic Role Labeling , kurz SRL) ist eine Methode der automatischen Textanalyse, die auf der syntaktischen Analyse aufbaut und syntaktische Argumente um Annotationen ihrer semantischen Funktion ergänzt. Die syntaktische Funktion Subjekt erhält so beispielsweise die semantische Funktion, oder semantische Rolle, "Agent". Frühere Arbeiten zeigen, dass Semantic Role Labeling eingesetzt werden kann um verschiedene Anwendungen, die semantische Informationen voraussetzen, zu verbessern. Beispiele sind das automatische Beantworten von Fragen (Question answering ), die Informationsextraktion (Information extraction) oder die automatische Textzusammenfassung (Summarization). Systeme für die automatische Rollen-Annotation nutzen üblicherweise ein theoretisches Modell semantischer Prädikat-Argument-Struktur, das in lexikalischen Wissensba sen wie PropBank oder FrameNet implementiert ist. Diese Modelle weisen semantischen Prädikaten, zumeist Verben, eine Lesartenannotation (Word Sense) zu, und annotieren (oft abhängig von der Lesart) syntaktische Argumente der Prädikate mit semantischen Rollen. Überwachte oder teilüberwachte Verfahren des Maschinellen Lernens werden auf entsprechend annotierten Trainingsdaten angewendet, um automatische Systeme zur Annotation der Prädikat-Argument-Strukturen zu trainieren. Auch Systeme, die dem neuesten Stand der Forschung entsprechend Deep Learning einsetzen, benötigen annotierte Trainingsdaten. Diese üblicherweise von Experten manuell annotierten Datensätze zu produzieren ist sehr aufwändig. Die mangelnde Abdeckung der Vielfalt natürlicher Sprache durch die Trainingskorpora (mangelnde Lexikonabdeckung) ist ein Grund dafür, dass Systeme für die automatische Annotation semantischer Rollen zwar in Laborexperimenten erfolgreich sind, in praktischen Anwendungen jedoch noch nicht umfassend eingesetzt werden können. Ein weiterer Grund ist der Mangel an Trainingsdaten für verschiedene Textarten oder Genres, auch Domänen genannt, denn trainierte Systeme müssen auf neue Genres, für die sie eingesetzt werden sollen, angepasst werden (Domänenadaption). Diese beiden Probleme bestehen für das Englische, sind jedoch noch stärker ausgeprägt für andere Sprachen, für die es nur wenige, kleine Ressourcen mit semantischen Rollen, also lexikalische Wissensbasen und annotierte Korpora, gibt. Das Forschungsziel dieser Arbeit ist die Entwicklung wissensbasierter Methoden, mit denen die Lexikonabdeckung und Abdeckung mit Trainingsdaten für die automatische An- notation semantischer Rollen verbessert werden kann, sowohl für neue Sprachen als auch für neue Genres. Die Verlinkung lexikalischer Wissensbasen auf der Ebene von Word Sense und semantischer Prädikat-Argument-Struktur dient als Grundlage für die automatische Generierung von Trainingsdaten mit Lesarten und semantischen Rollen für verschiedene Sprachen und Genres.

Deutsch
URN: urn:nbn:de:tuda-tuprints-67700
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung
20 Fachbereich Informatik
Hinterlegungsdatum: 24 Sep 2017 19:55
Letzte Änderung: 24 Sep 2017 19:55
PPN:
Referenten: Gurevych, Prof. Dr. Iryna ; Palmer, Prof. Martha ; Ponzetto, Prof. Dr. Simone Paolo
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 30 September 2016
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen