TU Darmstadt / ULB / TUbiblio

Efficient Decomposition-Based Multiclass and Multilabel Classification

Park, Sang-Hyeun (2012)
Efficient Decomposition-Based Multiclass and Multilabel Classification.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Decomposition-based methods are widely used for multiclass and multilabel classification. These approaches transform or reduce the original task to a set of smaller possibly simpler problems and allow thereby often to utilize many established learning algorithms, which are not amenable to the original task. Even for directly applicable learning algorithms, the combination with a decomposition-scheme may outperform the direct approach, e.g., if the resulting subproblems are simpler (in the sense of learnability). This thesis addresses mainly the efficiency of decomposition-based methods and provides several contributions improving the scalability with respect to the number of classes or labels, number of classifiers and number of instances. Initially, we present two approaches improving the efficiency of the training phase of multiclass classification. The first of them shows that by minimizing redundant learning processes, which can occur in decomposition-based approaches for multiclass problems, the number of operations in the training phase can be significantly reduced. The second approach is tailored to Naive Bayes as base learner. By a tight coupling of Naive Bayes and arbitrary decompositions, it allows an even higher reduction of the training complexity with respect to the number of classifiers. Moreover, an approach improving the efficiency of the testing phase is also presented. It is capable of reducing testing effort with respect to the number of classes independently of the base learner. Furthermore, efficient decomposition-based methods for multilabel classification are also addressed in this thesis. Besides proposing an efficient prediction method, an approach rebalancing predictive performance, time and memory complexity is presented. Aside from the efficiency-focused methods, this thesis contains also a study about a special case of the multilabel classification setting, which is elaborated, formalized and tackled by a prototypical decomposition-based approach.

Typ des Eintrags: Dissertation
Erschienen: 2012
Autor(en): Park, Sang-Hyeun
Art des Eintrags: Erstveröffentlichung
Titel: Efficient Decomposition-Based Multiclass and Multilabel Classification
Sprache: Englisch
Referenten: Fürnkranz, Prof. Dr. Johannes ; Hüllermeier, Prof. Dr. Eyke
Publikationsjahr: 30 Mai 2012
Datum der mündlichen Prüfung: 24 Mai 2012
URL / URN: urn:nbn:de:tuda-tuprints-29942
Kurzbeschreibung (Abstract):

Decomposition-based methods are widely used for multiclass and multilabel classification. These approaches transform or reduce the original task to a set of smaller possibly simpler problems and allow thereby often to utilize many established learning algorithms, which are not amenable to the original task. Even for directly applicable learning algorithms, the combination with a decomposition-scheme may outperform the direct approach, e.g., if the resulting subproblems are simpler (in the sense of learnability). This thesis addresses mainly the efficiency of decomposition-based methods and provides several contributions improving the scalability with respect to the number of classes or labels, number of classifiers and number of instances. Initially, we present two approaches improving the efficiency of the training phase of multiclass classification. The first of them shows that by minimizing redundant learning processes, which can occur in decomposition-based approaches for multiclass problems, the number of operations in the training phase can be significantly reduced. The second approach is tailored to Naive Bayes as base learner. By a tight coupling of Naive Bayes and arbitrary decompositions, it allows an even higher reduction of the training complexity with respect to the number of classifiers. Moreover, an approach improving the efficiency of the testing phase is also presented. It is capable of reducing testing effort with respect to the number of classes independently of the base learner. Furthermore, efficient decomposition-based methods for multilabel classification are also addressed in this thesis. Besides proposing an efficient prediction method, an approach rebalancing predictive performance, time and memory complexity is presented. Aside from the efficiency-focused methods, this thesis contains also a study about a special case of the multilabel classification setting, which is elaborated, formalized and tackled by a prototypical decomposition-based approach.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Multiklassen- und Multilabel-Klassifikationsprobleme werden häufig durch zerlegungsbasierte Ansätze gelöst. Zerlegungsbasierte Ansätze haben gemeinsam, dass sie das ursprüngliche Problem auf eine Menge von kleineren potentiell einfacheren Problemen abbilden. Oft ermöglichen solche Ansätze die Wiederverwendung von vielen bewährten Lernalgorithmen, die nicht direkt auf das ursprüngliche Problem anwendbar sind. Darüber hinaus können auch für direkt anwendbare Lernalgorithmen die zerlegten Teilprobleme einfacher (im Sinne der Lernbarkeit) sein, so dass ein zerlegungsbasierter Ansatz insgesamt eine höhere Vorhersagequalität besitzen kann als die direkte Lösung des Problems. Diese Dissertation beschäftigt sich hauptsächlich mit der Effizienz der zerlegungsbasierten Methoden und erarbeitet mehrere Ansätze mit einer besseren Skalierbarkeit bezüglich Anzahl der Klassen bzw. Labels, Klassifizierer und Instanzen der Daten. Es werden zunächst zwei Ansätze vorgestellt, welche die Trainingsphase für Multiklassenprobleme beschleunigen. In dem ersten Ansatz wird gezeigt, dass durch Minimierung von redundanten Lernvorgängen, die oft in zerlegungsbasierten Multiklassen-Klassifikationsansätzen vorkommen können, Einsparungen in der Trainingsphase möglich sind. Der zweite Ansatz ist speziell auf Naive Bayes als Basislerner ausgerichtet und ermöglicht durch die Ausnutzung spezieller Eigenschaften in diesem Fall eine noch größere Reduktion der Lernkomplexität bezüglich der Klassifiziereranzahl. Es wird zusätzlich ein Ansatz präsentiert, welches die Klassifikationsphase für Multiklassenprobleme beschleunigt. Dieses Verfahren ist unabhängig vom verwendeten Basislerner und reduziert die Klassifikationskomplexität bezüglich der Klassenanzahl. Darüber hinaus werden in dieser Dissertation auch Multilabelprobleme behandelt und dafür neben einer effizienten Klassifikationsmethode auch ein Ansatz vorgestellt, welches die Vorhersagequalität, den Zeitaufwand und die Speicherkomplexität neu abwägt. Neben den effizienzfokussierten Ansätzen beinhaltet diese Dissertation auch eine Studie, die einen Spezialfall von Multilabel-Klassifikationsproblemen vorstellt, formalisiert und mittels einem prototypischen zerlegungsbasierten Ansatz zu lösen versucht.

Deutsch
Freie Schlagworte: efficient classification, efficient decoding, efficient training, decomposition-based, multiclass, multilabel, classification, error-correcting output codes, aggregation
Schlagworte:
Einzelne SchlagworteSprache
Effiziente Klassifikation, Effiziente Dekodierung, Effiziente Trainingsphase, zerlegungsbasiert, Multiklassen, Multilabel, Klassifikation, Error-Correcting Output Codes, AggregationDeutsch
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Knowledge Engineering
Hinterlegungsdatum: 01 Jun 2012 07:18
Letzte Änderung: 29 Mai 2016 21:18
PPN:
Referenten: Fürnkranz, Prof. Dr. Johannes ; Hüllermeier, Prof. Dr. Eyke
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 24 Mai 2012
Schlagworte:
Einzelne SchlagworteSprache
Effiziente Klassifikation, Effiziente Dekodierung, Effiziente Trainingsphase, zerlegungsbasiert, Multiklassen, Multilabel, Klassifikation, Error-Correcting Output Codes, AggregationDeutsch
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen