Modular and Parameter-efficient Fine-tuning of Language Models

Pfeiffer, Jonas (2023)
Modular and Parameter-efficient Fine-tuning of Language Models.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024565
Dissertation, Erstveröffentlichung, Verlagsversion

URL / URN: https://tuprints.ulb.tu-darmstadt.de/24565

Kurzbeschreibung (Abstract)

Transfer learning has recently become the dominant paradigm of natural language processing. Models pre-trained on unlabeled data can be fine-tuned for downstream tasks based on only a handful of examples. A long-term goal is to develop models that acquire new information at scale without incurring negative transfer and that generalize systematically to new settings. Modular deep learning has emerged as a promising solution to these challenges, by updating parameter-efficient units of computation locally and asynchronously. These units are often implemented as modules that are interlaid between layers, interpolated with pre-trained parameters, or concatenated to the inputs. Conditioned on tasks or examples, information is routed to multiple modules through a fixed or learned function, followed by an aggregation of their outputs. This property enables compositional generalization, by disentangling knowledge and recombining it in new ways.

In this thesis, we provide a unified view of modularity in natural language processing, spanning across four dimensions; specifically, we disentangle modularity into computation functions, routing functions, aggregation functions, and the training setting. Along those axes, we propose multiple contributions: a research framework which encompasses all dimensions; a novel attention-based aggregation function which combines the knowledge stored within different modules; routing mechanisms for out of distribution generalization in cross-lingual transfer scenarios; a dataset and modular training strategies for multimodal and multilingual transfer learning; a modular pre-training strategy to tackle catastrophic interference of heterogeneous data.

Typ des Eintrags:

Dissertation

Erschienen:

2023

Autor(en):

Pfeiffer, Jonas

Art des Eintrags:

Erstveröffentlichung

Titel:

Modular and Parameter-efficient Fine-tuning of Language Models

Sprache:

Englisch

Referenten:

Gurevych, Prof. Dr. Iryna ; Glavaš, Prof. Dr. Goran ; Vulić, Prof. Dr. Ivan

Publikationsjahr:

7 November 2023

Ort:

Darmstadt

Kollation:

xiv, 164 Seiten

Datum der mündlichen Prüfung:

21 April 2023

DOI:

10.26083/tuprints-00024565

URL / URN:

https://tuprints.ulb.tu-darmstadt.de/24565

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Transferlernen ist in letzter Zeit zum vorherrschenden Paradigma der Verarbeitung natürlicher Sprache geworden. Modelle, die mit unbeschrifteten Daten trainiert wurden, können auf der Grundlage von nur einer Handvoll Beispiele für die nachfolgenden Aufgaben feinabgestimmt werden. Ein langfristiges Ziel ist es, Modelle zu entwickeln, die neue Informationen in großem Umfang erwerben, ohne dass es zu einem negativen Transfer kommt, und die sich systematisch auf neue Situationen verallgemeinern. Modulares Deep Learning hat sich als vielversprechende Lösung für diese Herausforderungen herauskristallisiert, indem parameter-effiziente Berechnungseinheiten lokal und asynchron aktualisiert werden. Diese Einheiten werden häufig als Module implementiert, die zwischen den Ebenen eingefügt, mit vortrainierten Parametern interpoliert oder mit den Eingaben verkettet werden. In Abhängigkeit von Aufgaben oder Beispielen werden Informationen über eine festgelegte oder gelernte Funktion an mehrere Module weitergeleitet, gefolgt von einer Aggregation ihrer Ausgaben. Diese Eigenschaft ermöglicht eine kompositorische Generalisierung, bei der das Wissen entwirrt und auf neue Weise kombiniert wird.

In dieser Arbeit bieten wir eine einheitliche Sichtweise der Modularität in der Verarbeitung natürlicher Sprache, die sich über vier Dimensionen erstreckt; insbesondere unterteilen wir die Modularität in Berechnungsfunktionen, Routingfunktionen, Aggregationsfunktionen und die Trainingsumgebung. Entlang dieser Achsen schlagen wir mehrere Beiträge vor: einen Forschungsrahmen, der alle Dimensionen umfasst; eine neuartige, aufmerksamkeitsbasierte Aggregationsfunktion, die das in verschiedenen Modulen gespeicherte Wissen kombiniert; Routing-Mechanismen für die Generalisierung außerhalb der Verteilung in sprachübergreifenden Transferszenarien; einen Datensatz und modulare Trainingsstrategien für multimodales und mehrsprachiges Transferlernen; eine modulare Pre-Training-Strategie, um katastrophale Interferenzen heterogener Daten zu bewältigen.

Deutsch

Status:

Verlagsversion

URN:

urn:nbn:de:tuda-tuprints-245651

Sachgruppe der Dewey Dezimalklassifikatin (DDC):

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Fachbereich(e)/-gebiet(e):

20 Fachbereich Informatik
20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung

TU-Projekte:

HMWK|LOEWE|emergenC TP Gurevych

Hinterlegungsdatum: