TU Darmstadt / ULB / TUbiblio

A Machine-Learning-Based Pipeline Approach to Automated Fact-Checking

Hanselowski, Andreas (2020)
A Machine-Learning-Based Pipeline Approach to Automated Fact-Checking.
Technische Universität Darmstadt
doi: 10.25534/tuprints-00014136
Dissertation, Erstveröffentlichung, Verlagsversion

Kurzbeschreibung (Abstract)

In the past couple of years, there has been a significant increase of the amount of false information on the web. The falsehoods quickly spread through social networks reaching a wider audience than ever before. This poses new challenges to our society as we have to reevaluate which information source we should trust and how we consume and distribute content on the web. As a response to the rising amount of disinformation on the Internet, the number of fact-checking platforms has increased. On these platforms, professional fact-checkers validate the published information and make their conclusions publicly available. Nevertheless, the manual validation of information by fact-checkers is laborious and time-consuming, and as a result, not all of the published content can be validated. Since the conclusions of the validations are released with a delay, the interest in the topic has often already declined, and thus, only a small fraction of the original news consumers can be reached. Automated fact-checking holds the promise to address these drawbacks as it would allow fact-checkers to identify and eliminate false information as it appears on the web and before it reaches a wide audience. However, despite significant progress in the field of automated fact-checking, substantial challenges remain: (i) The datasets available for training machine learning-based fact-checking systems do not provide high-quality annotation of real fact-checking instances for all the tasks in the fact-checking process. (ii) Many of today’s fact-checking systems are based on knowledge bases that have low coverage. Moreover, because for these systems sentences in natural language need to be transformed into formal queries, which is a difficult task, the systems are error-prone. (iii) Current end-to-end trained machine learning systems can process raw text and thus, potentially harness the vast amount of knowledge on the Internet, but they are intransparent and do not reach the desired performance. In fact, fact-checking is a challenging task and today’s machine learning approaches are not mature enough to solve the problem without human assistance. In order to tackle the identified challenges, in this thesis, we make the following contributions: (1) We introduce a new corpus on the basis of the Snopes fact-checking website that contains real fact-checking instances and provides high-quality annotations for the different sub-tasks in the fact-checking process. In addition to the corpus, we release our corpus creation methodology that allows for efficiently creating large datasets with a high inter-annotator agreement in order to train machine learning models for automated fact-checking. (2) In order to address the drawbacks of current automated fact-checking systems, we propose a pipeline approach that consists of the four sub-systems: document retrieval, stance detection, evidence extraction, and claim validation. Since today’s machine learning models are not advanced enough to complete the task without human assistance, our pipeline approach is designed to help fact-checkers to speed up the fact-checking process rather than taking over the job entirely. Our pipeline is able to process raw text and thus, make use of the large amount of textual information available on the web, but at the same time, it is transparent, as the outputs of sub-components of the pipeline can be observed. Thus, the different parts of the fact-checking process are automated and potential errors can be identified and traced back to their origin. (3) In order to assess the performance of the developed system, we evaluate the sub-components of the pipeline in highly competitive shared tasks. The stance detection component of the system is evaluated in the Fake News Challenge reaching the second rank out of 50 competing systems.2 The document retrieval component together with the evidence extraction sub-system and the claim validation component are evaluated in the FEVER shared task.3 The first two systems combined reach the first rank in the FEVER shared task Sentence Ranking sub-task outperforming 23 other competing systems. The claim validation component reaches the third rank in the FEVER Recognizing Textual Entailment sub-task. (4) We evaluate our pipeline system, as well as other promising machine learning models for automated fact-checking, on our newly constructed Snopes fact-checking corpus. The results show that even though the systems are able to reach reasonable performance on other datasets, the systems under-perform on our newly created corpus. Our analysis reveals that the more realistic fact-checking problem setting defined by our corpus is more challenging than the problem setting posed by other fact-checking corpora. We therefore conclude that further research is required in order to increase the performance of the automated systems in real fact-checking scenarios.

Typ des Eintrags: Dissertation
Erschienen: 2020
Autor(en): Hanselowski, Andreas
Art des Eintrags: Erstveröffentlichung
Titel: A Machine-Learning-Based Pipeline Approach to Automated Fact-Checking
Sprache: Englisch
Referenten: Gurevych, Prof. Dr. Iryna ; Reed, Prof. Chris
Publikationsjahr: 25 November 2020
Ort: Darmstadt
Verlag: Fachbereich Informatik
Kollation: xx, 170 Seiten
Datum der mündlichen Prüfung: 14 Mai 2020
DOI: 10.25534/tuprints-00014136
URL / URN: https://tuprints.ulb.tu-darmstadt.de/14136
Kurzbeschreibung (Abstract):

In the past couple of years, there has been a significant increase of the amount of false information on the web. The falsehoods quickly spread through social networks reaching a wider audience than ever before. This poses new challenges to our society as we have to reevaluate which information source we should trust and how we consume and distribute content on the web. As a response to the rising amount of disinformation on the Internet, the number of fact-checking platforms has increased. On these platforms, professional fact-checkers validate the published information and make their conclusions publicly available. Nevertheless, the manual validation of information by fact-checkers is laborious and time-consuming, and as a result, not all of the published content can be validated. Since the conclusions of the validations are released with a delay, the interest in the topic has often already declined, and thus, only a small fraction of the original news consumers can be reached. Automated fact-checking holds the promise to address these drawbacks as it would allow fact-checkers to identify and eliminate false information as it appears on the web and before it reaches a wide audience. However, despite significant progress in the field of automated fact-checking, substantial challenges remain: (i) The datasets available for training machine learning-based fact-checking systems do not provide high-quality annotation of real fact-checking instances for all the tasks in the fact-checking process. (ii) Many of today’s fact-checking systems are based on knowledge bases that have low coverage. Moreover, because for these systems sentences in natural language need to be transformed into formal queries, which is a difficult task, the systems are error-prone. (iii) Current end-to-end trained machine learning systems can process raw text and thus, potentially harness the vast amount of knowledge on the Internet, but they are intransparent and do not reach the desired performance. In fact, fact-checking is a challenging task and today’s machine learning approaches are not mature enough to solve the problem without human assistance. In order to tackle the identified challenges, in this thesis, we make the following contributions: (1) We introduce a new corpus on the basis of the Snopes fact-checking website that contains real fact-checking instances and provides high-quality annotations for the different sub-tasks in the fact-checking process. In addition to the corpus, we release our corpus creation methodology that allows for efficiently creating large datasets with a high inter-annotator agreement in order to train machine learning models for automated fact-checking. (2) In order to address the drawbacks of current automated fact-checking systems, we propose a pipeline approach that consists of the four sub-systems: document retrieval, stance detection, evidence extraction, and claim validation. Since today’s machine learning models are not advanced enough to complete the task without human assistance, our pipeline approach is designed to help fact-checkers to speed up the fact-checking process rather than taking over the job entirely. Our pipeline is able to process raw text and thus, make use of the large amount of textual information available on the web, but at the same time, it is transparent, as the outputs of sub-components of the pipeline can be observed. Thus, the different parts of the fact-checking process are automated and potential errors can be identified and traced back to their origin. (3) In order to assess the performance of the developed system, we evaluate the sub-components of the pipeline in highly competitive shared tasks. The stance detection component of the system is evaluated in the Fake News Challenge reaching the second rank out of 50 competing systems.2 The document retrieval component together with the evidence extraction sub-system and the claim validation component are evaluated in the FEVER shared task.3 The first two systems combined reach the first rank in the FEVER shared task Sentence Ranking sub-task outperforming 23 other competing systems. The claim validation component reaches the third rank in the FEVER Recognizing Textual Entailment sub-task. (4) We evaluate our pipeline system, as well as other promising machine learning models for automated fact-checking, on our newly constructed Snopes fact-checking corpus. The results show that even though the systems are able to reach reasonable performance on other datasets, the systems under-perform on our newly created corpus. Our analysis reveals that the more realistic fact-checking problem setting defined by our corpus is more challenging than the problem setting posed by other fact-checking corpora. We therefore conclude that further research is required in order to increase the performance of the automated systems in real fact-checking scenarios.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

In den letzten Jahren hat die Menge an Falschinformation im Internet stark zugenommen. Falsche Informationen verteilen sich sehr schnell in sozialen Netzwerken und erreichen durch diese größere Leserschaft als je zuvor. Das stellt unsere Gesellschaft vor neue Herausforderungen, da wir neu bewerten müssen, welchen Informationsquellen wir Glauben schenken dürfen und wie wir Webinhalte konsumieren und mit anderen teilen. Als eine Antwort auf die wachsende Menge an Falschinformation im Internet hat sich die Anzahl der Fact-Checking Organisationen erheblich erhöht. Auf diesen Plattformen validieren professionelle Fact-Checker publizierte Informationen und veröffentlichen die Ergebnisse ihrer Untersuchungen. Die manuelle Validierung der Informationen durch Fact-Checker ist jedoch sehr arbeitsintensiv und zeitaufwendig. Dadurch können nicht alle Inhalte überprüft werden und für validierte Inhalte erfolgt die Publikation der Analyse oft mit Verspätung. Zu diesem Zeitpunkt ist das Interesse an dem Thema in vielen Fällen schon gesunken, wodurch nur ein Bruchteil der ursprünglichen Leserschaft erreicht werden kann. Automatisches Fact-Checking hat das Potenzial, diese Probleme zu lösen, weil es den Fact-Checkern ermöglichen könnte, Falschinformation zu erkennen und zu entfernen, bevor diese ein weites Publikum erreicht. Trotz der substanziellen Fortschritte auf diesem Gebiet, müssen noch mehrere Herausforderungen bewältigt werden, bevor automatisches Fact-Checking unter realen Bedingungen einsatzfähig wird: (i) Den Datensätzen, die für das Trainieren von Machine-Learning basierten Fact-Checking Systemen zur Verfügung stehen, fehlen qualitativ hochwertige Annotationen aus realen Fact-Checking Fällen für alle Teilaufgaben in dem Fact-Checking Prozess. (ii) Viele der heutigen Fact-Checking Systeme basieren auf Wissensdatenbanken, die nur eine relativ geringe Anzahl von Fakten abdecken, und weil für solche Systeme Sätze in natürlicher Sprache in formale Anfragen umgewandelt werden müssen, sind sie fehleranfällig. (iii) Moderne Machine-Learning basierte Systeme, die mittels Ende-zu-Ende Ansatz trainiert werden, können Text in natürlicher Sprache verarbeiten und dadurch potenziell die große Menge an Information im Internet nutzen. Diese Systeme sind aber intransparent und erreichen nicht die gewünschte Leistung. In der Tat ist Fact-Checking eine anspruchsvolle Aufgabe und moderne Machine-Learning basierte Systeme sind nicht ausgereift genug, um das Problem völlig ohne menschliche Unterstützung zu lösen. Um den identifizierten Herausforderungen zu begegnen, leisten wir in dieser Thesis die folgenden Beiträge: (1) Wir erstellen ein neues Korpus, das auf der Snopes Fact-Checking Plattform basiert. Dieses Korpus beinhaltet reale Fact-Cheking Fälle, die mit qualitativ hochwertigen Annotationen für verschiedene Teilaufgaben innerhalb des Fact-Checking Prozesses angereichert wurden. Des Weiteren veröffentlichen wir unseren Ansatz für den effizienten Aufbau von großen Datensätzen, die dafür geeignet sind, Modelle für das automatisierte Fact-Checking zu trainieren. (2) Um den Nachteilen heutiger Fact-Checking Systeme zu begegnen, stellen wir in dieser Thesis einen neuen Pipeline-Ansatz vor, der aus folgenden vier Komponenten besteht: Document Rertrieval, Stance Detection, Evidence Extraction, und Claim Validation. Weil heutige Machine-Learning basierte Systeme noch nicht ausgereift genug sind um das Fact-Checking Problem eigenständig zu lösen, ist unser Pipeline-Ansatz speziell dafür entwickelt worden, Fact-Checker bei ihrer Arbeit zu unterstützen und nicht etwa den gesamten Fact-Checking Prozess eigenständig durchzuführen. Unser Pipeline-Ansatz ist dazu in der Lage, natürliche Sprache zu verarbeiten und dadurch die große Menge an Information in Textform aus dem Internet zu nutzen. Gleichzeitig ist unser System transparent, da die Ausgaben der dazwischenliegenden Systeme in der Pipeline eingesehen werden können. Dadurch ist es möglich, einzelne Aufgaben in dem Fact-Checking Prozess zu automatisieren und gleichzeitig potenzielle Fehler zu erkennen und auf ihren Ursprung zurückzuführen. (3) Um die Leistungsfähigkeit der Subkomponenten der Pipeline zu testen, evaluieren wir sie in mehreren hart umkämpften internationalen Wettbewerben. Die Stance Detection Komponente der Pipeline erreicht den zweiten Platz unter 50 konkurrierenden Systemen in der Fake News Challenge.4 Die Dokument-Retrieval Komponente, die Evidence-Extraction Komponente, und die Claim-Validation Komponente werden in dem FEVER Shared Task evaluiert.5 Die ersten zwei Komponenten kombiniert erreichen den ersten Platz bei der FEVER Shared Task Sentence Ranking Aufgabenstellung. Die Claim-Validation Komponente erreicht den dritten Platz in der FEVER Recognizing Textual Entailment Aufgabenstellung. (4) Wir evaluieren unser Pipeline System, sowie andere leistungsfähige Modelle, die für das automatisierte Fact-Checking entwickelt worden sind, mit unserem neu erstellten Snopes Fact-Checking Korpus. Die Ergebnisse zeigen, dass, obwohl die Systeme gute Ergebnisse an anderen Korpora erzielen, die Leistung der Systeme auf unserem Korpus relativ gering ausfällt. Unsere Analyse ergibt, dass die realistische Aufgabenstellung, definiert durch unser Korpus, deutlich schwieriger ist als diejenigen Fact-Checking Aufgabenstellungen, die durch die anderen Korpora definiert werden. Wir folgern daraus, dass weitere Forschung notwendig ist, um die Leistungsfähigkeit der automatisierten Systeme in realistischen Fact-Checking Szenarien zu erhöhen.

Deutsch
Status: Verlagsversion
URN: urn:nbn:de:tuda-tuprints-141365
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung
DFG-Graduiertenkollegs
DFG-Graduiertenkollegs > Graduiertenkolleg 1994 Adaptive Informationsaufbereitung aus heterogenen Quellen
Hinterlegungsdatum: 23 Dez 2020 11:20
Letzte Änderung: 18 Jan 2021 09:34
PPN:
Referenten: Gurevych, Prof. Dr. Iryna ; Reed, Prof. Chris
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 14 Mai 2020
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen