TU Darmstadt / ULB / TUbiblio

SFace2: Synthetic-Based Face Recognition with w-Space Identity-Driven Sampling

Boutros, Fadi ; Huber, Marco ; Luu, Anh Thi ; Siebke, Patrick ; Damer, Naser (2024)
SFace2: Synthetic-Based Face Recognition with w-Space Identity-Driven Sampling.
In: IEEE Transactions on Biometrics, Behavior, and Identity Science, (Early Access)
doi: 10.1109/TBIOM.2024.3371502
Artikel, Bibliographie

Kurzbeschreibung (Abstract)

The use of synthetic data for training neural networks has recently received increased attention, especially in the area of face recognition. This was mainly motivated by the increase of privacy, ethical, and legal concerns of using privacy-sensitive authentic data to train face recognition models. Many authentic datasets such as MS-Celeb-1M or VGGFace2 that have been widely used to train state-of-the-art deep face recognition models are retracted and officially no longer maintained or provided by official sources as they often have been collected without explicit consent. Toward this end, we first propose a synthetic face generation approach, SFace which utilizes a class-conditional generative adversarial network to generate class-labeled synthetic face images. To evaluate the privacy aspect of using such synthetic data in face recognition development, we provide an extensive evaluation of the identity relation between the generated synthetic dataset and the original authentic dataset used to train the generative model. The investigation proved that the associated identity of the authentic dataset to the one with the same class label in the synthetic dataset is hardly possible, strengthening the possibility for privacy-aware face recognition training. We then propose three different learning strategies to train the face recognition model on our privacy-friendly dataset, SFace, and report the results on five authentic benchmarks, demonstrating its high potential. Noticing the relatively low (in comparison to authentic data) identity discrimination in SFace, we started by analysing the w-space of the class-conditional generator, finding identity information that is highly correlated to that in the embedding space. Based on this finding, we proposed an approach that performs the sampling in the w-space driven to generate data with higher identity discrimination, the SFace2. Our experiments showed the disentanglement of the latent w-space and the benefit of training face recognition models on the more identity-discriminated synthetic dataset SFace2.

Typ des Eintrags: Artikel
Erschienen: 2024
Autor(en): Boutros, Fadi ; Huber, Marco ; Luu, Anh Thi ; Siebke, Patrick ; Damer, Naser
Art des Eintrags: Bibliographie
Titel: SFace2: Synthetic-Based Face Recognition with w-Space Identity-Driven Sampling
Sprache: Englisch
Publikationsjahr: 29 Februar 2024
Verlag: IEEE
Titel der Zeitschrift, Zeitung oder Schriftenreihe: IEEE Transactions on Biometrics, Behavior, and Identity Science
(Heft-)Nummer: Early Access
DOI: 10.1109/TBIOM.2024.3371502
Kurzbeschreibung (Abstract):

The use of synthetic data for training neural networks has recently received increased attention, especially in the area of face recognition. This was mainly motivated by the increase of privacy, ethical, and legal concerns of using privacy-sensitive authentic data to train face recognition models. Many authentic datasets such as MS-Celeb-1M or VGGFace2 that have been widely used to train state-of-the-art deep face recognition models are retracted and officially no longer maintained or provided by official sources as they often have been collected without explicit consent. Toward this end, we first propose a synthetic face generation approach, SFace which utilizes a class-conditional generative adversarial network to generate class-labeled synthetic face images. To evaluate the privacy aspect of using such synthetic data in face recognition development, we provide an extensive evaluation of the identity relation between the generated synthetic dataset and the original authentic dataset used to train the generative model. The investigation proved that the associated identity of the authentic dataset to the one with the same class label in the synthetic dataset is hardly possible, strengthening the possibility for privacy-aware face recognition training. We then propose three different learning strategies to train the face recognition model on our privacy-friendly dataset, SFace, and report the results on five authentic benchmarks, demonstrating its high potential. Noticing the relatively low (in comparison to authentic data) identity discrimination in SFace, we started by analysing the w-space of the class-conditional generator, finding identity information that is highly correlated to that in the embedding space. Based on this finding, we proposed an approach that performs the sampling in the w-space driven to generate data with higher identity discrimination, the SFace2. Our experiments showed the disentanglement of the latent w-space and the benefit of training face recognition models on the more identity-discriminated synthetic dataset SFace2.

Alternatives oder übersetztes Abstract:
Alternatives AbstractSprache

Die Verwendung synthetischer Daten für das Training neuronaler Netze hat in letzter Zeit zunehmend an Bedeutung gewonnen, insbesondere im Bereich der Gesichtserkennung. Dies wurde vor allem durch die zunehmenden datenschutzrechtlichen, ethischen und rechtlichen Bedenken hinsichtlich der Verwendung von datenschutzsensiblen authentischen Daten zum Training von Gesichtserkennungsmodellen motiviert. Viele authentische Datensätze wie MS-Celeb-1M oder VGGFace2, die häufig zum Trainieren von hochmodernen Deep-Face-Recognition-Modellen verwendet wurden, wurden zurückgezogen und werden offiziell nicht mehr gepflegt oder von offiziellen Quellen zur Verfügung gestellt, da sie oft ohne ausdrückliche Zustimmung gesammelt wurden. Zu diesem Zweck schlagen wir zunächst einen Ansatz zur Erzeugung synthetischer Gesichter, SFace, vor, der ein klassenbedingtes generatives adversariales Netzwerk zur Erzeugung klassenmarkierter synthetischer Gesichtsbilder verwendet. Um den Datenschutzaspekt der Verwendung solcher synthetischen Daten bei der Entwicklung der Gesichtserkennung zu bewerten, führen wir eine umfassende Bewertung der Identitätsbeziehung zwischen dem generierten synthetischen Datensatz und dem authentischen Originaldatensatz durch, der zum Training des generativen Modells verwendet wird. Die Untersuchung hat gezeigt, dass es kaum möglich ist, den authentischen Datensatz mit dem Datensatz mit demselben Klassenlabel im synthetischen Datensatz zu identifizieren, was die Möglichkeit eines datenschutzfreundlichen Gesichtserkennungstrainings stärkt. Wir schlagen dann drei verschiedene Lernstrategien vor, um das Gesichtserkennungsmodell auf unserem datenschutzfreundlichen Datensatz SFace zu trainieren, und berichten über die Ergebnisse auf fünf authentischen Benchmarks, die das hohe Potenzial des Modells demonstrieren. Da die Identitätsunterscheidung in SFace relativ gering ist (im Vergleich zu authentischen Daten), analysierten wir zunächst den w-Raum des Klassenbedingungsgenerators und fanden Identitätsinformationen, die stark mit denen im Einbettungsraum korreliert sind. Auf der Grundlage dieser Erkenntnisse haben wir einen Ansatz vorgeschlagen, der die Stichprobenziehung im w-Raum durchführt, um Daten mit höherer Identitätsunterscheidung zu generieren (SFace2). Unsere Experimente zeigten die Entflechtung des latenten w-Raums und den Nutzen des Trainings von Gesichtserkennungsmodellen auf dem stärker identitätsdiskriminierten synthetischen Datensatz SFace2.

Deutsch
Freie Schlagworte: Biometrics, Face recognition, Machine learning, Generative Adversarial Networks (GAN), Deep learning
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Graphisch-Interaktive Systeme
Hinterlegungsdatum: 12 Apr 2024 10:24
Letzte Änderung: 12 Apr 2024 10:24
PPN:
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen