TU Darmstadt / ULB / TUbiblio

Learning Label Structures with Neural Networks for Multi-label Classification

Nam, Jinseok (2019)
Learning Label Structures with Neural Networks for Multi-label Classification.
Technische Universität Darmstadt
Dissertation, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Multi-label classification (MLC) is the task of predicting a set of labels for a given input instance. A key challenge in MLC is how to capture underlying structures in label spaces. Due to the computational cost of learning from all possible label combinations, it is crucial to take into account scalability as well as predictive performance when we deal with large scale MLC problems. Another problem that arises when building MLC systems is which evaluation measures need to be used for performance comparison. Unlike traditional multi-class classification, several evaluation measures are often used together in MLC because each measure prefers a different MLC system. In other words, we need to understand the properties of MLC evaluation measures and build a system which performs well in terms of those evaluation measures in which we are particularly interested. In this thesis, we develop neural network architectures that efficiently and effectively utilize underlying label structures in large-scale MLC problems. In the literature, neural networks (NNs) that learn from pairwise relationships between labels have been used, but they do not scale well on large-scale label spaces. Thus, we propose a comparably simple NN architecture that uses a loss function which ignores label dependencies. We demonstrate that simpler NNs using cross-entropy per label works better than more complex NNs, particularly in terms of rank loss, an evaluation measure that takes into account the number of incorrectly ranked label pairs. Another commonly considered evaluation measure is subset 0/1 loss. Classifier chains (CCs) have shown state-of-the-art performance in terms of that measure because the joint probability of labels is optimized explicitly. CCs essentially convert the problem of learning the joint probability into a sequential prediction problem. Then, the task is to predict a sequence of binary values for labels. Contrary to the aforementioned NN architecture which ignores label structures, we study recurrent neural networks (RNNs) so as to make use of sequential structures on label chains. The proposed RNNs are advantageous over CC approaches when dealing with a large number of labels due to parameter sharing effects in RNNs and their abilities to learn from long sequences. Our experimental results also confirm that their superior performance on very large label spaces. In addition to NNs that learn from label sequences, we present two novel NN-based methods that learn a joint space of instances and labels efficiently while exploiting label structures. The proposed joint space learning methods project both instances and labels into a lower dimensional space in a way that minimizes the distance between an instance and its relevant labels in that space. While the goal of both joint space learning methods is same, they use different additional information on label spaces during training: One approach makes use of hierarchical structures of labels and can be useful when such label structures are given by human experts. The other uses latent label spaces learned from textual label descriptions so that we can apply it to more general MLC problems where no explicit label structures are available. Notwithstanding the difference between the two approaches, both approaches allow us to make predictions with respect to labels that have not been seen during training.

Typ des Eintrags: Dissertation
Erschienen: 2019
Autor(en): Nam, Jinseok
Art des Eintrags: Erstveröffentlichung
Titel: Learning Label Structures with Neural Networks for Multi-label Classification
Sprache: Englisch
Referenten: Fürnkranz, Prof. Dr. Johannes ; Dembczyński, Prof. Dr. Krzysztof
Publikationsjahr: 2019
Ort: Darmstadt
Datum der mündlichen Prüfung: 11 Juni 2018
URL / URN: https://tuprints.ulb.tu-darmstadt.de/8738
Kurzbeschreibung (Abstract):

Multi-label classification (MLC) is the task of predicting a set of labels for a given input instance. A key challenge in MLC is how to capture underlying structures in label spaces. Due to the computational cost of learning from all possible label combinations, it is crucial to take into account scalability as well as predictive performance when we deal with large scale MLC problems. Another problem that arises when building MLC systems is which evaluation measures need to be used for performance comparison. Unlike traditional multi-class classification, several evaluation measures are often used together in MLC because each measure prefers a different MLC system. In other words, we need to understand the properties of MLC evaluation measures and build a system which performs well in terms of those evaluation measures in which we are particularly interested. In this thesis, we develop neural network architectures that efficiently and effectively utilize underlying label structures in large-scale MLC problems. In the literature, neural networks (NNs) that learn from pairwise relationships between labels have been used, but they do not scale well on large-scale label spaces. Thus, we propose a comparably simple NN architecture that uses a loss function which ignores label dependencies. We demonstrate that simpler NNs using cross-entropy per label works better than more complex NNs, particularly in terms of rank loss, an evaluation measure that takes into account the number of incorrectly ranked label pairs. Another commonly considered evaluation measure is subset 0/1 loss. Classifier chains (CCs) have shown state-of-the-art performance in terms of that measure because the joint probability of labels is optimized explicitly. CCs essentially convert the problem of learning the joint probability into a sequential prediction problem. Then, the task is to predict a sequence of binary values for labels. Contrary to the aforementioned NN architecture which ignores label structures, we study recurrent neural networks (RNNs) so as to make use of sequential structures on label chains. The proposed RNNs are advantageous over CC approaches when dealing with a large number of labels due to parameter sharing effects in RNNs and their abilities to learn from long sequences. Our experimental results also confirm that their superior performance on very large label spaces. In addition to NNs that learn from label sequences, we present two novel NN-based methods that learn a joint space of instances and labels efficiently while exploiting label structures. The proposed joint space learning methods project both instances and labels into a lower dimensional space in a way that minimizes the distance between an instance and its relevant labels in that space. While the goal of both joint space learning methods is same, they use different additional information on label spaces during training: One approach makes use of hierarchical structures of labels and can be useful when such label structures are given by human experts. The other uses latent label spaces learned from textual label descriptions so that we can apply it to more general MLC problems where no explicit label structures are available. Notwithstanding the difference between the two approaches, both approaches allow us to make predictions with respect to labels that have not been seen during training.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Multi-Label-Klassifizierung (MLC) bezeichnet die Aufgabe, eine Menge von Labels für eine gegebene Instanz vorherzusagen. Eine zentrale Herausforderung bei MLC ist die Erfassung der zugrundeliegenden Strukturen im Labelraum. Aufgrund der Komplexität des Lernens aus allen möglichen Labelkombinationen ist es bei großen MLC Datensätzen von entschei- dender Bedeutung, sowohl Skalierbarkeit als auch Vorhersagequalität zu berücksichtigen. Ein weiteres Problem, das bei der Erstellung von MLC-Systemen auftritt, ist die Frage nach dem Evaluationsmaß, welches für den Vergleich der Vorhersagequalität herangezogen werden soll. Im Gegensatz zur traditionellen Multi-Klassen-Klassifizierung werden in MLC häufig mehrere Evaluationsmaße gemeinsam eingesetzt, da jedes Maß ein anderes MLC-System präferiert. Mit anderen Worten, es ist entscheidend, die Eigenschaften der verschiedenen MLC Evalua- tionsmaße zu verstehen, um ein System zu erstellen, das gut in Bezug auf die Maße ist, an denen wir besonders interessiert sind. In dieser Arbeit entwickeln wir Architekturen von Neuronalen Netzwerken (NN), die Labelstrukturen in großen MLC-Problemen effizient und effektiv bezüglich eines bestimmten Evaluationsmaßes ausnutzen. Obwohl NNs, die aus paarweisen Labelbeziehungen lernen, bereits länger in der Literatur verwendet werden, schlagen wir eine vergleichsweise simple Architektur vor, die eine Verlustfunktion verwendet, die Label-Abhängigkeiten ignoriert. Wir zeigen, dass unser Ansatz besser funktioniert als komplexere neuronale Netze bezüglich des Rank-Loss-Maßes, welches explizit die Anzahl der durch das Verfahren falsch sortierten Labelpaare berücksichtigt. Ein weiteres Evaluationsmaß, das üblicherweise beachtet wird, ist Subset 0/1-Loss. Der Classifier-Chain-Ansatz (CC) ist ein erfolgreiches, aktuelles Verfahren um dieses Maß zu optimieren. Dies geschieht dadurch, dass das ursprüngliche Problem in ein sequentielles Vorhersageproblem umgewandelt wird, sodass die Aufgabe daraufhin darin besteht, eine Sequenz von Binärwerten für die Labels vorherzusagen. Im Gegensatz zur eben genannten NN-Architektur, die Labelstrukturen ignoriert, setzen wir rekurrente neuronale Netze (RNN) ein, um Sequenzstrukturen in den Labelketten auszunutzen. Die vorgeschlagenen RNNs erweisen sich gegenüber CCs als vorteilhaft bei Problemen mit einer großen Anzahl an Labels wegen Parameter-Sharing-Effekten bei RNNs und bei Problemen mit langen Labelsequenzen. Zusätzlich zu den NNs, die auf Labelsequenzen gelernt werden, stellen wir zwei weitere neuartige NN-basierte Methoden vor. Diese Methoden projizieren sowohl Instanzen als auch Labels auf eine Art und Weise in einen gemeinsamen niedrig-dimensionalen Raum, welche die Distanz zwischen einer Instanz und ihren relevanten Labels in diesem Raum reduziert. Während das Ziel beider Lernmethoden gleich ist, nämlich das Projizieren von Instanzen und Labels in einen gemeinsamen Raum, verwenden sie unterschiedliche Zusatzinformationen über die Labelräume: Das erste vorgeschlagene Verfahren nutzt hierarchische Strukturen aus und kann insbesondere nützlich sein, wenn solche Stukturen von Experten zur Verfügung gestellt werden. Die zweite Methode nutzt latente Labelräume aus, die von den textuellen Beschreibungen der Labels gelernt werden, sodass wir das Verfahren auf allgemeinere MLC-Probleme anwenden können, für die keine expliziten Labelstrukturen vorhanden sind. Ungeachtet der Unterschiede ermöglichen uns beide Verfahren, Vorhersagen über Labels zu treffen, die während des Trainings nicht gesehen wurden. Außerdem zeigen wir, dass beide Verfahren in der Lage sind, durch Ausnutzung der Zusatzinformationen insgesamt eine bessere Vorhersagequalität zu erreichen.

Deutsch
URN: urn:nbn:de:tuda-tuprints-87385
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Knowledge Engineering
Hinterlegungsdatum: 16 Jun 2019 19:55
Letzte Änderung: 16 Jun 2019 19:55
PPN:
Referenten: Fürnkranz, Prof. Dr. Johannes ; Dembczyński, Prof. Dr. Krzysztof
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 11 Juni 2018
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen