TU Darmstadt / ULB / TUbiblio

Automated Ontology Refinement Using Compression-Based Learning

Hättasch, Benjamin (2017)
Automated Ontology Refinement Using Compression-Based Learning.
Technische Universität Darmstadt
Masterarbeit, Bibliographie

Kurzbeschreibung (Abstract)

In this thesis, we propose an approach to refine ontologies for a given domain based on training corpora. We use the Minimum Description Length principle to assess the fit between ontology and text and to identify suitable refinement operations.

For that we need to calculate a score which is based on finding a representation of the text using the ontology. We propose restrictions to the search space and introduce heuristic functions to find the representation in a reasonable amount of time. More heuristics are suggested to find modifications that improve the fit without the need to try every possible operation. We implement a framework for the refining process that contains a couple of refinement operations and can easily be extended with others.

The functionality of the approach as well as the correctness of the implementation is tested with an extensive series of experiments. Synthetic data is used to confirm our hypotheses, afterwards the algorithms are applied to real data. We can also show that our system copes with large corpora containing millions of words. The resulting ontologies are evaluated using well-known metrics from ontology engineering. They could then be used in all kinds of approaches for natural language processing depending on ontologies.

Additionally, we show how parts of our system can be used to solve tasks from natural language processing directly. We suggest a way how the theoretic foundation of it can be used in classification tasks and show a practical application for such a task, namely semantic topic detection.

Typ des Eintrags: Masterarbeit
Erschienen: 2017
Autor(en): Hättasch, Benjamin
Art des Eintrags: Bibliographie
Titel: Automated Ontology Refinement Using Compression-Based Learning
Sprache: Englisch
Referenten: Fürnkranz, Prof.Dr. Johannes ; Vreeken, Dr. Jilles
Publikationsjahr: 4 Dezember 2017
Kurzbeschreibung (Abstract):

In this thesis, we propose an approach to refine ontologies for a given domain based on training corpora. We use the Minimum Description Length principle to assess the fit between ontology and text and to identify suitable refinement operations.

For that we need to calculate a score which is based on finding a representation of the text using the ontology. We propose restrictions to the search space and introduce heuristic functions to find the representation in a reasonable amount of time. More heuristics are suggested to find modifications that improve the fit without the need to try every possible operation. We implement a framework for the refining process that contains a couple of refinement operations and can easily be extended with others.

The functionality of the approach as well as the correctness of the implementation is tested with an extensive series of experiments. Synthetic data is used to confirm our hypotheses, afterwards the algorithms are applied to real data. We can also show that our system copes with large corpora containing millions of words. The resulting ontologies are evaluated using well-known metrics from ontology engineering. They could then be used in all kinds of approaches for natural language processing depending on ontologies.

Additionally, we show how parts of our system can be used to solve tasks from natural language processing directly. We suggest a way how the theoretic foundation of it can be used in classification tasks and show a practical application for such a task, namely semantic topic detection.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

In dieser Thesis stellen wir einen Ansatz vor, um Ontologien für eine gegebene Domäne automatisch anzupassen. Wir nutzen das Minimum Description Length Prinzip um die Übereinstimmung zwischen Ontologie und Text zu bewerten und anhand dessen geeignete Operationen zur Verfeinerung auszuwählen.

Dazu müssen wir einen Zahlwert zur Bewertung berechnen, der darauf basiert, eine Repräsentation des Textes mit Hilfe der Ontologie zu finden. Wir schlagen Einschränkungen des Suchraums vor und führen heuristische Funktionen ein, um diese Repräsentation in angemessener Zeit zu finden. Außerdem empfehlen wir Heuristiken, um Veränderungen der Ontologie zu finden, durch welche die Anpassung zwischen Text und Ontologie erhöht wird, ohne dass alle denkbaren Operationen ausprobiert werden müssen. Wir implementieren ein Framework für den Verfeinerungsprozess, welches bereits einige Verbesserungsoperationen enthält und leicht durch zusätzliche erweitert werden kann.

Sowohl die Funktionalität als auch die Korrektheit der Implementierung werden durch eine umfangreiche Reihe von Experimenten getestet. Synthetische Daten werden genutzt, um unsere Hypothesen zu bestätigen, anschließend wenden die Algorithmen dann auf echte Daten angewandt. Wir können außerdem zeigen, dass unser System auch große Korpora mit Millionen von Wörtern verarbeiten kann. Die entstehenden Ontologien werden evaluiert, wobei bekannte Metriken zum Einsatz kommen, die in der Entwicklung von Ontologien üblich sind. Die Ontologien könnten dann in allen Ontologie-basierten Verfahren in der Verarbeitung natürlicher Sprache zum Einsatz kommen.

Zusätzlich zeigen wir, wie Teile unseres Systems genutzt werden können, um Aufgaben aus der Verarbeitung natürlicher Sprache direkt zu lösen. Wir schlagen eine Methode vor, mit der die theoretischen Grundlagen unseres Ansatzes auf Klassifizierungsaufgaben übertragen werden können. Dies zeigen wir dann exemplarisch an einer Standardaufgabe, dem Ermitteln der semantischen Themen von Texten.

Deutsch
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
Hinterlegungsdatum: 04 Dez 2017
Letzte Änderung: 29 Apr 2019 12:18
PPN:
Referenten: Fürnkranz, Prof.Dr. Johannes ; Vreeken, Dr. Jilles
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen