TU Darmstadt / ULB / TUbiblio

Modular and Parameter-efficient Fine-tuning of Language Models

Pfeiffer, Jonas (2023)
Modular and Parameter-efficient Fine-tuning of Language Models.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024565
Dissertation, Erstveröffentlichung, Verlagsversion

Kurzbeschreibung (Abstract)

Transfer learning has recently become the dominant paradigm of natural language processing. Models pre-trained on unlabeled data can be fine-tuned for downstream tasks based on only a handful of examples. A long-term goal is to develop models that acquire new information at scale without incurring negative transfer and that generalize systematically to new settings. Modular deep learning has emerged as a promising solution to these challenges, by updating parameter-efficient units of computation locally and asynchronously. These units are often implemented as modules that are interlaid between layers, interpolated with pre-trained parameters, or concatenated to the inputs. Conditioned on tasks or examples, information is routed to multiple modules through a fixed or learned function, followed by an aggregation of their outputs. This property enables compositional generalization, by disentangling knowledge and recombining it in new ways.

In this thesis, we provide a unified view of modularity in natural language processing, spanning across four dimensions; specifically, we disentangle modularity into computation functions, routing functions, aggregation functions, and the training setting. Along those axes, we propose multiple contributions: a research framework which encompasses all dimensions; a novel attention-based aggregation function which combines the knowledge stored within different modules; routing mechanisms for out of distribution generalization in cross-lingual transfer scenarios; a dataset and modular training strategies for multimodal and multilingual transfer learning; a modular pre-training strategy to tackle catastrophic interference of heterogeneous data.

Typ des Eintrags: Dissertation
Erschienen: 2023
Autor(en): Pfeiffer, Jonas
Art des Eintrags: Erstveröffentlichung
Titel: Modular and Parameter-efficient Fine-tuning of Language Models
Sprache: Englisch
Referenten: Gurevych, Prof. Dr. Iryna ; Glavaš, Prof. Dr. Goran ; Vulić, Prof. Dr. Ivan
Publikationsjahr: 7 November 2023
Ort: Darmstadt
Kollation: xiv, 164 Seiten
Datum der mündlichen Prüfung: 21 April 2023
DOI: 10.26083/tuprints-00024565
URL / URN: https://tuprints.ulb.tu-darmstadt.de/24565
Kurzbeschreibung (Abstract):

Transfer learning has recently become the dominant paradigm of natural language processing. Models pre-trained on unlabeled data can be fine-tuned for downstream tasks based on only a handful of examples. A long-term goal is to develop models that acquire new information at scale without incurring negative transfer and that generalize systematically to new settings. Modular deep learning has emerged as a promising solution to these challenges, by updating parameter-efficient units of computation locally and asynchronously. These units are often implemented as modules that are interlaid between layers, interpolated with pre-trained parameters, or concatenated to the inputs. Conditioned on tasks or examples, information is routed to multiple modules through a fixed or learned function, followed by an aggregation of their outputs. This property enables compositional generalization, by disentangling knowledge and recombining it in new ways.

In this thesis, we provide a unified view of modularity in natural language processing, spanning across four dimensions; specifically, we disentangle modularity into computation functions, routing functions, aggregation functions, and the training setting. Along those axes, we propose multiple contributions: a research framework which encompasses all dimensions; a novel attention-based aggregation function which combines the knowledge stored within different modules; routing mechanisms for out of distribution generalization in cross-lingual transfer scenarios; a dataset and modular training strategies for multimodal and multilingual transfer learning; a modular pre-training strategy to tackle catastrophic interference of heterogeneous data.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Transferlernen ist in letzter Zeit zum vorherrschenden Paradigma der Verarbeitung natürlicher Sprache geworden. Modelle, die mit unbeschrifteten Daten trainiert wurden, können auf der Grundlage von nur einer Handvoll Beispiele für die nachfolgenden Aufgaben feinabgestimmt werden. Ein langfristiges Ziel ist es, Modelle zu entwickeln, die neue Informationen in großem Umfang erwerben, ohne dass es zu einem negativen Transfer kommt, und die sich systematisch auf neue Situationen verallgemeinern. Modulares Deep Learning hat sich als vielversprechende Lösung für diese Herausforderungen herauskristallisiert, indem parameter-effiziente Berechnungseinheiten lokal und asynchron aktualisiert werden. Diese Einheiten werden häufig als Module implementiert, die zwischen den Ebenen eingefügt, mit vortrainierten Parametern interpoliert oder mit den Eingaben verkettet werden. In Abhängigkeit von Aufgaben oder Beispielen werden Informationen über eine festgelegte oder gelernte Funktion an mehrere Module weitergeleitet, gefolgt von einer Aggregation ihrer Ausgaben. Diese Eigenschaft ermöglicht eine kompositorische Generalisierung, bei der das Wissen entwirrt und auf neue Weise kombiniert wird.

In dieser Arbeit bieten wir eine einheitliche Sichtweise der Modularität in der Verarbeitung natürlicher Sprache, die sich über vier Dimensionen erstreckt; insbesondere unterteilen wir die Modularität in Berechnungsfunktionen, Routingfunktionen, Aggregationsfunktionen und die Trainingsumgebung. Entlang dieser Achsen schlagen wir mehrere Beiträge vor: einen Forschungsrahmen, der alle Dimensionen umfasst; eine neuartige, aufmerksamkeitsbasierte Aggregationsfunktion, die das in verschiedenen Modulen gespeicherte Wissen kombiniert; Routing-Mechanismen für die Generalisierung außerhalb der Verteilung in sprachübergreifenden Transferszenarien; einen Datensatz und modulare Trainingsstrategien für multimodales und mehrsprachiges Transferlernen; eine modulare Pre-Training-Strategie, um katastrophale Interferenzen heterogener Daten zu bewältigen.

Deutsch
Status: Verlagsversion
URN: urn:nbn:de:tuda-tuprints-245651
Sachgruppe der Dewey Dezimalklassifikatin (DDC): 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung
TU-Projekte: HMWK|LOEWE|emergenC TP Gurevych
Hinterlegungsdatum: 07 Nov 2023 15:38
Letzte Änderung: 08 Nov 2023 11:58
PPN:
Referenten: Gurevych, Prof. Dr. Iryna ; Glavaš, Prof. Dr. Goran ; Vulić, Prof. Dr. Ivan
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 21 April 2023
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen