TU Darmstadt / ULB / TUbiblio

Extraktion und Visualisierung von Relationen in Textdokumentensammlungen auf der Basis einer Wortfeldanalyse

Duchstein, Patrick (2006)
Extraktion und Visualisierung von Relationen in Textdokumentensammlungen auf der Basis einer Wortfeldanalyse.
Technische Universität Darmstadt
Masterarbeit, Bibliographie

Kurzbeschreibung (Abstract)

In der Arbeit wird ein System zur Analyse und Visualisierung von Dokumentsammlungen auf Basis einer Wortfeldanalyse konzipiert und vorgestellt. Dazu wird eine Menge von Dokumenten aus einem jeweiligen Quellformat zunächst in Klartexte umgewandelt und Metadaten wie Autor und Titel werden extrahiert; Wörter werden auf die korrespondierenden Stammformen abgebildet. Die Dokumente werden dann in ein Vektorraummodell überführt, so dass für jedes Dokument ein Vektor existiert, welcher aus dessen gewichteten Termen besteht. Zur Dimensionalitätsreduktion dieser Vektoren und somit zur Wortfeldanalyse findet die Methodik des Latent Semantic Indexing (LSI) Anwendung, unter Berücksichtigung verschiedener Methoden zur Singulärwertzerlegung; weitere Methoden für eine Dimensionalitätsreduktion werden untersucht. Verschiedene Ähnlichkeitsmaße zwischen Dokumentpaaren werden vorgestellt und analysiert. Die Visualisierung erfolgt sowohl zwei- als auch dreidimensional mit Hilfe von Self-Organizing Maps (SOM). Die dreidimensionale Darstellung erfolgt unter Zuhilfenahme von Volumenrendering. Als weitere Visualisierungsmethode steht ein Plot der Hauptachsen im reduzierten Vektorraummodell zur Verfügung. Weiterhin können die Dokumente anhand ihrer Ähnlichkeit gruppiert und anhand der Partitionierung in den Visualisierungen farblich dargestellt und somit unterschieden werden. Die im Rahmen dieser Arbeit entstandenen Software soll weitere Verwendung in einem allgemeinen Visual Analytics Framework finden. This work presents a system for analysis and visualization of document collections based on lexical fields. A set of documents in any format is first converted to plain text, extracting metadata such as author and title. Stemming algorithms are applied to the resulting word set to map all words on their corresponding principal forms. The documents are then converted into a vector space model, consisting of a vector with weighted terms for each document. To achieve a reduction of dimensionality, and likewise the extraction of lexical fields, latent semantic indexing (LSI) is used, in consideration of several methods for singular value decomposition. Further methods to achieve a dimensionality reduction are presented. Several similarity measures for pairs of documents within the reduced vector space model are presented and analyzed. Visualization occurs in 2d and 3d, making use of Self-Organizing Maps (SOM) to map documents onto a grid. The three dimensional view is carried out using volume rendering. Another visualization method is a twodimensional plot of principal components. Furthermore, documents can be clustered according to their pairwise similarity; documents within the visualizations can be colored on the basis of these clusters to gain an oversight over the set documents, their classes and their relations. The software resulting from this work shall have further applications in a general Visual Analytics framework.

Typ des Eintrags: Masterarbeit
Erschienen: 2006
Autor(en): Duchstein, Patrick
Art des Eintrags: Bibliographie
Titel: Extraktion und Visualisierung von Relationen in Textdokumentensammlungen auf der Basis einer Wortfeldanalyse
Sprache: Deutsch
Publikationsjahr: 2006
Kurzbeschreibung (Abstract):

In der Arbeit wird ein System zur Analyse und Visualisierung von Dokumentsammlungen auf Basis einer Wortfeldanalyse konzipiert und vorgestellt. Dazu wird eine Menge von Dokumenten aus einem jeweiligen Quellformat zunächst in Klartexte umgewandelt und Metadaten wie Autor und Titel werden extrahiert; Wörter werden auf die korrespondierenden Stammformen abgebildet. Die Dokumente werden dann in ein Vektorraummodell überführt, so dass für jedes Dokument ein Vektor existiert, welcher aus dessen gewichteten Termen besteht. Zur Dimensionalitätsreduktion dieser Vektoren und somit zur Wortfeldanalyse findet die Methodik des Latent Semantic Indexing (LSI) Anwendung, unter Berücksichtigung verschiedener Methoden zur Singulärwertzerlegung; weitere Methoden für eine Dimensionalitätsreduktion werden untersucht. Verschiedene Ähnlichkeitsmaße zwischen Dokumentpaaren werden vorgestellt und analysiert. Die Visualisierung erfolgt sowohl zwei- als auch dreidimensional mit Hilfe von Self-Organizing Maps (SOM). Die dreidimensionale Darstellung erfolgt unter Zuhilfenahme von Volumenrendering. Als weitere Visualisierungsmethode steht ein Plot der Hauptachsen im reduzierten Vektorraummodell zur Verfügung. Weiterhin können die Dokumente anhand ihrer Ähnlichkeit gruppiert und anhand der Partitionierung in den Visualisierungen farblich dargestellt und somit unterschieden werden. Die im Rahmen dieser Arbeit entstandenen Software soll weitere Verwendung in einem allgemeinen Visual Analytics Framework finden. This work presents a system for analysis and visualization of document collections based on lexical fields. A set of documents in any format is first converted to plain text, extracting metadata such as author and title. Stemming algorithms are applied to the resulting word set to map all words on their corresponding principal forms. The documents are then converted into a vector space model, consisting of a vector with weighted terms for each document. To achieve a reduction of dimensionality, and likewise the extraction of lexical fields, latent semantic indexing (LSI) is used, in consideration of several methods for singular value decomposition. Further methods to achieve a dimensionality reduction are presented. Several similarity measures for pairs of documents within the reduced vector space model are presented and analyzed. Visualization occurs in 2d and 3d, making use of Self-Organizing Maps (SOM) to map documents onto a grid. The three dimensional view is carried out using volume rendering. Another visualization method is a twodimensional plot of principal components. Furthermore, documents can be clustered according to their pairwise similarity; documents within the visualizations can be colored on the basis of these clusters to gain an oversight over the set documents, their classes and their relations. The software resulting from this work shall have further applications in a general Visual Analytics framework.

Freie Schlagworte: Clustering, 3D Visualization, Data visualization, Information visualization, Electronic documents, Document analysis, Similarity metrics
Zusätzliche Informationen:

66 S.

Fachbereich(e)/-gebiet(e): nicht bekannt
20 Fachbereich Informatik
20 Fachbereich Informatik > Graphisch-Interaktive Systeme
Hinterlegungsdatum: 16 Apr 2018 09:03
Letzte Änderung: 16 Apr 2018 09:03
PPN:
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen