TU Darmstadt / ULB / TUbiblio

Advanced Motif Analysis on Text Induced Graphs

Arnold, Thomas Otmar (2018)
Advanced Motif Analysis on Text Induced Graphs.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Motif analysis counts the number of reoccurring patterns (or motifs) in a graph and connects these statistical numbers to the intrinsic semantics of the graph. In this thesis, we will demonstrate the potential of motif analysis on textual data, and introduce new concepts that extend conventional motifs. In particular, we will focus on three main research questions:

1. Can we use graph motifs to assess text quality?

Based on the open encyclopedia Wikipedia, we transform articles of various quality levels into graph structures. There, we find motifs that indicate high or low article quality, and we connect these motifs to linguistic patterns. We also show that a qualitative analysis of the most relevant patterns can yield fruitful insights to our understanding of quality. We then take a look at quality from a very different angle and analyze motifs in the user interaction of collaborative writing communities. These interaction motifs allow us to assess the overall online community success, measured by a combination of growth and user traffic. Certain combinations of user groups show consistent beneficial or detrimental effects on the community performance.

2. How do motifs change over time?

Having established that motif analysis can detect quality on different levels, we now focus at the progression of motifs in dynamic graphs. We take another look at Wikipedia articles, in particular at local text changes in article revisions. To capture patterns in these text revisions, we introduce metamotifs, or motifs of motifs. We also define the novel concept of motif stability - motifs of high stability tend to persist in dynamic graphs, motifs of low stability almost always get changed into other motifs. We present strong correlations between motif stability, established motif characteristics and the quality of the source text.

3. Are metamotifs (motifs of motifs) an improvement over simple motifs and methods?

Finally, we confirm the capabilities of metamotifs, but also quantify their predictive power in a classification experiment of political speeches. To generalize from surface text level, we use semantic frames, which are more abstract than words. With a combination of semantic frames and metamotif analysis on US presidency and German Bundestag data, we confirm that metamotifs outperform traditional motifs and simpler approaches when used as machine learning features.

Typ des Eintrags: Dissertation
Erschienen: 2018
Autor(en): Arnold, Thomas Otmar
Art des Eintrags: Erstveröffentlichung
Titel: Advanced Motif Analysis on Text Induced Graphs
Sprache: Englisch
Referenten: Weihe, Prof. Dr. Karsten ; Gurevych, Prof. Dr. Iryna ; Müller-Hannemann, Prof. Dr. Matthias
Publikationsjahr: 30 Mai 2018
Ort: Darmstadt
Datum der mündlichen Prüfung: 24 Mai 2018
URL / URN: http://tuprints.ulb.tu-darmstadt.de/7442
Kurzbeschreibung (Abstract):

Motif analysis counts the number of reoccurring patterns (or motifs) in a graph and connects these statistical numbers to the intrinsic semantics of the graph. In this thesis, we will demonstrate the potential of motif analysis on textual data, and introduce new concepts that extend conventional motifs. In particular, we will focus on three main research questions:

1. Can we use graph motifs to assess text quality?

Based on the open encyclopedia Wikipedia, we transform articles of various quality levels into graph structures. There, we find motifs that indicate high or low article quality, and we connect these motifs to linguistic patterns. We also show that a qualitative analysis of the most relevant patterns can yield fruitful insights to our understanding of quality. We then take a look at quality from a very different angle and analyze motifs in the user interaction of collaborative writing communities. These interaction motifs allow us to assess the overall online community success, measured by a combination of growth and user traffic. Certain combinations of user groups show consistent beneficial or detrimental effects on the community performance.

2. How do motifs change over time?

Having established that motif analysis can detect quality on different levels, we now focus at the progression of motifs in dynamic graphs. We take another look at Wikipedia articles, in particular at local text changes in article revisions. To capture patterns in these text revisions, we introduce metamotifs, or motifs of motifs. We also define the novel concept of motif stability - motifs of high stability tend to persist in dynamic graphs, motifs of low stability almost always get changed into other motifs. We present strong correlations between motif stability, established motif characteristics and the quality of the source text.

3. Are metamotifs (motifs of motifs) an improvement over simple motifs and methods?

Finally, we confirm the capabilities of metamotifs, but also quantify their predictive power in a classification experiment of political speeches. To generalize from surface text level, we use semantic frames, which are more abstract than words. With a combination of semantic frames and metamotif analysis on US presidency and German Bundestag data, we confirm that metamotifs outperform traditional motifs and simpler approaches when used as machine learning features.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Motivanalyse zählt die Anzahl von wiederkehrenden Mustern (auch Motive genannt) in einem Graphen und setzt diese statistischen Zahlen mit der intrinsischen Semantik des Graphen in Verbindung. In dieser Arbeit werden wir das Potenzial von Motivanalyse in Textdaten aufzeigen und neue Konzepte vorstellen, die konventionelle Motive erweitern. Insbesondere werden wir uns auf drei Hauptforschungsfragen konzentrieren:

1. Können Graphen-Motive zur Beurteilung von Textqualität verwendet werden?

Basierend auf der freien Online-Enzyklopädie Wikipedia transformieren wir Artikel verschiedener Qualitätsstufen in Graphstrukturen. Dort finden wir Motive, die auf hohe oder niedrige Artikelqualität hinweisen, und bringen diese Motive mit linguistischen Mustern in Verbindung. Anhand einer qualitativen Analyse der relevantesten Muster demonstrieren wir, dass Motive neue Erkenntnisse für unser Verständnis von Qualität liefern können. Dann betrachten wir Qualität aus einem ganz anderen Blickwinkel und analysieren Motive in der Interaktion von Autoren in kollaborativen Schreibprozessen. Diese Interaktionsmotive ermöglichen es uns, die Gesamtleistung einzelner Online-Gemeinschaften zu bewerten, gemessen an einer Kombination aus inhaltlichem Wachstum und Nutzeraktivität. Dabei zeigen bestimmte Kombinationen von Benutzergruppen konsistente positive oder negative Auswirkungen auf den Erfolg der Gemeinschaft.

2. Wie verändern sich Motive im Laufe der Zeit?

Nachdem wir gezeigt haben, dass Motivanalyse die Qualität von Text auf verschiedenen Ebenen erkennen kann, konzentrieren wir uns nun auf die Veränderung von Motiven in dynamischen Graphen. Wir werfen dafür einen weiteren Blick auf Wikipedia-Artikel, insbesondere auf lokale Textänderungen in Artikelrevisionen. Zur Erkennung von Motiven in diesen Textrevisionen führen wir Metamotive - Motive von Motiven - ein. Zusätzlich definieren wir ein neuartiges Merkmal von Motiven, genannt Motivstabilität. Motive hoher Stabilität bleiben in dynamischen Graphen meist bestehen, während sich Motive niedriger Stabilität eher in andere Motive verwandeln. Dieses Merkmal ermöglicht es uns, starke Zusammenhänge zwischen bestimmten strukturellen Eigenschaften von Motiven, und ihrer Erwünschtheit in Bezug auf Textqualität herzustellen.

3. Sind Metamotive (Motive von Motiven) eine Verbesserung gegenüber einfachen Motiven und Methoden?

Zum Abschluss dieser Arbeit bestätigen wir die Mächtigkeit von Metamotiven und messen ihre Vorhersagekraft in einem Klassifikations-Experiment von politischen Reden. Anstatt Motive direkt im Text zu betrachten, verwenden wir semantische Rahmen (semantic frames) als Abstraktionsebene. So kombinieren wir semantische Rahmen und Metamotiv-Analysen, um Texte von US-Präsidentschafts-Kandidaten und Debatten des deutschen Bundestags zu analysieren. Durch verschiedene maschinelle Lern-Experimente bestätigen wir, dass Metamotive eine höhere Trennschärfe besitzen als traditionelle Motive und einfachere Ansätze.

Deutsch
URN: urn:nbn:de:tuda-tuprints-74428
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
400 Sprache > 400 Sprache, Linguistik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Algorithmik
DFG-Graduiertenkollegs
DFG-Graduiertenkollegs > Graduiertenkolleg 1994 Adaptive Informationsaufbereitung aus heterogenen Quellen
Hinterlegungsdatum: 03 Jun 2018 19:55
Letzte Änderung: 03 Jun 2018 19:55
PPN:
Referenten: Weihe, Prof. Dr. Karsten ; Gurevych, Prof. Dr. Iryna ; Müller-Hannemann, Prof. Dr. Matthias
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 24 Mai 2018
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen