ULB

TUbiblio

Representation Learning and Learning from Limited Labeled Data for Community Question Answering

Rücklé, Andreas (2021)
Representation Learning and Learning from Limited Labeled Data for Community Question Answering.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00018508
Dissertation, Erstveröffentlichung, Verlagsversion

URL / URN: https://tuprints.ulb.tu-darmstadt.de/18508

Kurzbeschreibung (Abstract)

The amount of information published on the Internet is growing steadily. Accessing the vast knowledge in them more effectively is a fundamental goal of many tasks in natural language processing. In this thesis, we address this challenge from the perspective of community question answering by leveraging data from web forums and Q&A communities to find and identify answers for given questions automatically. More precisely, we are concerned with fundamental challenges that arise from this setting, broadly categorized in (1) obtaining better text representations and (2) dealing with scenarios where we have little or no labeled training data.

We first study attention mechanisms for learning representations of questions and answers to compare them efficiently and effectively. A limitation of previous approaches is that they leverage question information when learning answer representations. This procedure of dependent encoding requires us to obtain separate answer representations for each question, which is inefficient. To remedy this, we propose a self-attentive model that does not suffer from this drawback. We show that our model achieves on-par or better performance for answer selection tasks compared to other approaches while allowing us to encode questions and answers independently. Due to the importance of attention mechanisms, we present a framework to effortlessly transform answer selection models into prototypical question answering systems for the interactive inspection and side-by-side comparison of attention weights.

Besides purely monolingual approaches, we study how to transfer text representations across languages. A popular concept to obtain universally re-usable representations is the one of sentence embeddings. Previous work either studied them only monolingually or cross-lingually for only a few individual datasets. We go beyond this by studying universal cross-lingual sentence embeddings, which are re-usable across many different classification tasks and across languages. Our training-free approach generalizes the concept of average word embeddings by concatenating different kinds of word embeddings and by computing several generalized means. Due to its simplicity, we can effortlessly extend our approach to new languages by incorporating cross-lingual word embeddings. We show that our sentence embeddings outperform more complex techniques monolingually on nine tasks and achieve the best results cross-lingually for the transfer from English to German and French.

We complement this by studying an orthogonal approach where we machine translate the input from German to English and continue monolingually. We investigate the impact of a standard neural machine translation model on the performance of models for determining question similarity in programming and operating systems forums. We highlight that translation mistakes can have a substantial performance impact, and we mitigate this by adapting our machine translation models to these specialized domains using back-translation.

In the second part, we study monolingual scenarios with (a) little labeled data, (b) only unlabeled data, (c) no target dataset information. These are critical challenges in our setting as there exist large numbers of web forums that contain only a few labeled question-answer pairs and no labeled similar questions.

One approach to generalize from small training data is to use simple models with few trainable layers. We present COALA, a shallow task-specific network architecture specialized in answer selection, containing only one trainable layer. This layer learns representations of word n-grams in questions and answers, which we compare and aggregate for scoring. Our approach improves upon a more complex compare-aggregate architecture by 4.5 percentage points on average, across six datasets with small training data. Moreover, it outperforms standard IR baselines already with 25 labeled instances.

The standard method for training models to determine question similarity requires labeled question pairs, which do not exist for many forums. Therefore, we investigate alternatives such as self-supervised training with question title-body information, and we propose duplicate question generation. By leveraging larger amounts of unlabeled data, we show that both methods can achieve substantial improvements over adversarial domain transfer and outperform supervised in-domain training on two datasets. We find that duplicate question generation transfers well to unseen domains, and that we can leverage self-supervised training to obtain suitable answer selection models based on state-of-the-art pre-trained transformers.

Finally, we argue that it can be prohibitive to train separate specialized models for each forum. It is desirable to obtain one model that generalizes well to several unseen scenarios. Towards this goal, we broadly study the zero-shot transfer capabilities of text matching models in community question answering. We train 140 models with self-supervised training signals on different forums and transfer them to nine evaluation datasets of question similarity and answer selection tasks. We find that the large majority of models generalize surprisingly well, and in six cases, all models outperform standard IR baselines. Our analyses reveal that considering a broad selection of source domains is crucial because the best zero-shot transfer performance often correlates with neither domain similarity nor training data size. We investigate different combination techniques and propose incorporating self-supervised and supervised multi-task learning with data from all source forums. Our best model for zero-shot transfer, MultiCQA, outperforms in-domain models on six datasets even though it has not seen target-domain data during training.

Typ des Eintrags:

Dissertation

Erschienen:

2021

Autor(en):

Rücklé, Andreas

Art des Eintrags:

Erstveröffentlichung

Titel:

Representation Learning and Learning from Limited Labeled Data for Community Question Answering

Sprache:

Englisch

Referenten:

Gurevych, Prof. Dr. Iryna ; Berant, Prof. Dr. Jonathan ; Glavaš, Prof. Dr. Goran

Publikationsjahr:

2021

Ort:

Darmstadt

Kollation:

xi, 214 Seiten

Datum der mündlichen Prüfung:

12 April 2021

DOI:

10.26083/tuprints-00018508

URL / URN:

https://tuprints.ulb.tu-darmstadt.de/18508

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Die Menge der im Internet veröffentlichten Informationen wächst stetig. Ein grundlegendes Ziel vieler Aufgaben in der natürlichen Sprachverarbeitung ist es, einen effektiven Zugriff auf dieses Wissen zu ermöglichen. In dieser Arbeit adressieren wir dies aus der Perspektive des Community Question Answering, indem wir Daten aus Webforen und Q&A-Communities nutzen, um Antworten auf gestellte Fragen automatisch zu finden. Insbesondere beschäftigen wir uns mit grundlegenden Herausforderungen, die sich daraus ergeben, unterteilt in (1) das Erlernen besserer Textrepräsentationen und (2) den Umgang mit Szenarien, in denen wir nur wenige oder keine annotierten Trainingsdaten zur Verfügung haben.

Zunächst untersuchen wir sogenannte Attention-Mechanismen für das Erlernen von Frage- und Antwortrepräsentationen, um einen effizienten und effektiven Vergleich der beiden Texte zu ermöglichen. Eine Einschränkung bisheriger Ansätze besteht darin, dass diese beim Lernen von Antwortrepräsentationen auf Informationen in der Frage zurückgreifen. Diese Abhängigkeit macht es erforderlich, für jede Frage eine separate Antwortrepräsentation zu lernen, was ineffizient ist. Wir schlagen als Alternative ein Modell mit Self-Attention vor, welches nicht unter diesem Nachteil leidet. Wir zeigen, dass unser Modell im Vergleich zu anderen Modellen gleichwertige oder bessere Ergebnisse bei der automatischen Antwortselektion erreicht, während es uns zudem erlaubt, Frage- und Antwortrepräsentationen unabhängig zu lernen. Aufgrund der großen Bedeutung von Attention-Mechanismen stellen wir daraufhin ein Framework vor, mit dem wir Modelle zur Antwortselektion in prototypische Frage-Antwort Systeme überführen können. Dies ermöglicht es Forschern verschiedene Attention-Mechanismen interaktiv zu untersuchen und zu vergleichen.

Neben rein monolingualen Ansätzen untersuchen wir darüber hinaus, wie wir sprachübergreifende Textrepräsentationen lernen können. Ein beliebter Ansatz sind sogenannte Sentence Embeddings, die oft als universelle Textrepräsentationen Anwendung finden. Allerdings haben bisherige Arbeiten diese nur monolingual oder nur für wenige sprachübergreifende Aufgaben untersucht. Wir gehen darüber hinaus, indem wir Sentence Embeddings sprachübergreifend für eine Vielzahl von Klassifizierungsaufgaben untersuchen. Wir schlagen einen trainingsfreien Ansatz vor, der ein effizientes Verfahren verallgemeinert, welches den arithmetischen Mittelwert über die Embeddings von Wörtern in einem Satz berechnet. Wir erweitern dies mit verschiedenen Typen von Embeddings und berechnen mehrere Arten von Mittelwerten. Wir können unseren Ansatz dabei mühelos auf neue Sprachen übertragen, indem wir sprachübergreifende Word Embeddings integrieren. Wir zeigen, dass unsere Sentence Embeddings die meisten komplexeren Techniken auf neun monolingualen Klassifikationsaufgaben übertreffen und sprachübergreifend die besten Ergebnisse für den Transfer vom Englischen ins Deutsche und Französische erzielen.

Ergänzend untersuchen wir einen orthogonalen Ansatz, indem wir den Eingabetext vom Deutschen ins Englische maschinell übersetzen und monolingual fortfahren. Wir untersuchen den Einfluss eines neuronalen maschinellen Übersetzungsmodells auf die Effektivität von Modellen zur Bestimmung der Frageähnlichkeit in Programmier- und Betriebssystemforen. Wir zeigen, dass Übersetzungsfehler einen erheblichen Einfluss auf die Effektivität dieses Ansatzes haben können, und verbessern dies, indem wir unser maschinelles Übersetzungsmodell durch Rückübersetzung an unsere speziellen Domänen anpassen.

Im zweiten Teil untersuchen wir monolinguale Szenarien mit (a) wenigen annotierten Daten, (b) gänzlich ohne Annotationen, (c) keiner Zieldatensatzinformation. Dies sind wichtige Herausforderungen, da eine Vielzahl an Webforen nur wenige annotierte Frage-Antwort-Paare und keine annotierten ähnlichen Fragen enthalten.

Eine Möglichkeit um bereits mit wenigen Daten ein effektives Modell zu erlernen ist die Nutzung einfacher Architekturen mit wenigen trainierbaren Netzwerkschichten. Unser Ansatz COALA ist eine flache, aufgabenspezifische neuronale Architektur, welche auf die Antwortselektion spezialisiert ist und nur eine trainierbare Netzwerkschicht enthält. Diese lernt Repräsentationen von Wort-N-Grammen in Fragen und Antworten, die wir vergleichen und anschließend aggregieren. Unser Modell erzielt gegenüber eines komplexeren Compare-Aggregate Modells Verbesserungen von durchschnittlich 4,5 Prozentpunkten, über sechs Datensätze hinweg. Darüber hinaus übertrifft es die IR-Baselines bereits mit 25 annotierten Beispielen.

Der Standardansatz für das Training von Modellen zur Bestimmung der Fragenähnlichkeit erfordert annotierte Fragenpaare, die in vielen Foren nicht existieren. Daher beschäftigen wir uns mit Alternativen, wie dem selbstüberwachten Training mit Informationen aus dem Fragentitel und -body und schlagen die Generierung von Fragenduplikaten vor. Wir zeigen, dass mittels Nutzung größerer Datenmengen erhebliche Verbesserungen gegenüber Adversarial-Domain-Transfer erzielt werden können und wir übertreffen damit das überwachte In-Domain-Training auf zwei Datensätzen. Weiterhin zeigen wir, dass sich Modelle zur Generierung von Fragenduplikaten gut auf andere Domänen übertragen lassen, und dass wir selbstüberwachtes Training nutzen können, um effektive Modelle zur Antwortselektion zu erhalten.

Schließlich argumentieren wir, dass es unerschwinglich sein kann, separate spezialisierte Modelle für jedes einzelne Forum zu trainieren. Es ist vorteilhaft, ein einziges Modell zu erhalten, das breit wiederverwendbar ist. Um dieses Ziel zu erreichen, untersuchen wir zunächst den Zero-Shot-Transfer von Text-Matching-Modellen im Kontext des Community Question Answering. Wir trainieren 140 Modelle mit selbstüberwachtem Training unter der Nutzung von Daten aus verschiedenen Foren. Wir analysieren daraufhin die Effektivität dieser Modelle auf neun Evaluationsdatensätzen für Frageähnlichkeits- und Antwortselektionsaufgaben. Wir stellen fest, dass die große Mehrheit der Modelle überraschend gute Ergebnisse erzielt. In sechs Fällen übertreffen alle Modelle die IR-Baselines. Unsere Analysen ergeben, dass es wichtig ist eine breite Auswahl an Foren für das Training von Modellen zu berücksichtigen, da wir die besten Modelle weder mittels Domänenähnlichkeit noch mittels der Größe der Trainingsdaten zuverlässig vorhersagen können. Abschließend untersuchen wir verschiedene Techniken um Daten aus mehreren Foren zu kombinieren und schlagen vor, selbstüberwachtes und überwachtes Multi-Task-Learning mit Daten aus allen Foren zu kombinieren. Unser bestes Modell für Zero-Shot-Transfer, MultiCQA, erreicht bessere Ergebnisse als bisherige Modelle auf sechs Datensätzen, obwohl es nicht explizit für diese trainiert wurde.

Deutsch

Status:

Verlagsversion

URN:

urn:nbn:de:tuda-tuprints-185080

Sachgruppe der Dewey Dezimalklassifikatin (DDC):

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Fachbereich(e)/-gebiet(e):

20 Fachbereich Informatik
20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung

Hinterlegungsdatum:

28 Jun 2021 09:11

Letzte Änderung: