TU Darmstadt / ULB / TUbiblio

Learning to Detect Personal Information in German Text Documents

Thoma, Nils (2018)
Learning to Detect Personal Information in German Text Documents.
Technische Universität Darmstadt
Bachelorarbeit, Erstveröffentlichung

Kurzbeschreibung (Abstract)

Die Analyse von großen Daten hat in den vergangenen Jahren bedeutend an Popularität gewonnen, besonders unter dem Stichwort 'Big Data'. Größere Rechenkapazitäten sowie die durch die massive Nutzung des Internets schnell wachsende Menge Daten haben diesen Trend beflügelt. Um Missbrauch vorzubeugen und persönliche Daten zu schützen, existieren Auflagen (in der Europäischen Union die DSGVO) welche die Verarbeitung sensibler Daten regulieren. Als Resultat dieser Regelungen ist es für manche Verarbeitungsschritte notwendig, personenbezogene Daten zu entfernen. Da Unternehmen ein Interesse daran haben, trotz dieser Reglungen Wissen aus den Daten gewinnen zu können, ist der Einsatz einer Anonymisierung gegenüber einer Löschung vorzuziehen. Denn so kann aus den Daten weiterhin ein Nutzen gezogen werden.

In der Industrie werden für die automatische Durchführung der Anonymisierung Systeme genutzt, welche auf klassischen Methoden wie Regulären Ausdrücken und Regeln basieren. Doch diese zeigen bisweilen unzufrieden stellende Ergebnisse, besonders bei unregulären Daten, wie es zum Beispiel bei Chat Verläufen aus dem Support eines Unternehmens der Fall ist. In dem eng mit der Anonymisierung verwandten Bereich der Named Entity Recognition (NER) hat sich der Einsatz von Systemen auf Basis Maschinellen Lernens (ML) als erfolgreich gezeigt.

Diese Arbeit geht der Frage nach, inwiefern sich verschiedene ML-Modelle aus der NER in den Bereich der Anonymisierung übertragen lassen und vergleicht ihre Leistungen gegenüber einem in der Industrie eingesetzten Anonymisierungssystem, welches auf klassischen Methoden basiert. Dafür werden verschiedene Tests auf regulären sowie auf unregulären Daten durchgeführt.

Für den Einsatz von ML-Systemen sind entsprechende Datensätze nötig, um sie trainieren und testen zu können. Da keine deutschen Korpusse im Bereich der Anonymisierung existieren, werden im Rahmen dieser Arbeit außerdem die Wiedervervollständigung eines anonymisierten Chat-Korpus (unreguläre Daten) sowie die Generierungen eines kleinen E-Mail Datensatzes mit diversen Anwendungsfällen aus dem Bereich des Kundensupports in Unternehmen (reguläre Daten) durchgeführt.

Anhand diverser Evaluationsmethodiken wird gezeigt, dass der Einsatz von ML-Modellen aus dem Bereich der NER zu guten Ergebnissen in der Anonymisierung führt. Dabei wird die Leistungen des Vergleichssystems aus der Industrie von allen ML-Ansätzen übertroffen. Besonders gute Ergebnisse erreichen Conditional Random Fields, sowie die Kombination eines Bidirektionalen Long-Short-Term-Memory Systems mit einem Convolutional Neural Network.

Typ des Eintrags: Bachelorarbeit
Erschienen: 2018
Autor(en): Thoma, Nils
Art des Eintrags: Erstveröffentlichung
Titel: Learning to Detect Personal Information in German Text Documents
Sprache: Deutsch
Referenten: Fürnkranz, Prof. Dr. Johannes ; Zopf, M.Sc. Markus
Publikationsjahr: 30 Oktober 2018
Ort: Darmstadt
Datum der mündlichen Prüfung: 26 Oktober 2018
URL / URN: https://tuprints.ulb.tu-darmstadt.de/8134
Kurzbeschreibung (Abstract):

Die Analyse von großen Daten hat in den vergangenen Jahren bedeutend an Popularität gewonnen, besonders unter dem Stichwort 'Big Data'. Größere Rechenkapazitäten sowie die durch die massive Nutzung des Internets schnell wachsende Menge Daten haben diesen Trend beflügelt. Um Missbrauch vorzubeugen und persönliche Daten zu schützen, existieren Auflagen (in der Europäischen Union die DSGVO) welche die Verarbeitung sensibler Daten regulieren. Als Resultat dieser Regelungen ist es für manche Verarbeitungsschritte notwendig, personenbezogene Daten zu entfernen. Da Unternehmen ein Interesse daran haben, trotz dieser Reglungen Wissen aus den Daten gewinnen zu können, ist der Einsatz einer Anonymisierung gegenüber einer Löschung vorzuziehen. Denn so kann aus den Daten weiterhin ein Nutzen gezogen werden.

In der Industrie werden für die automatische Durchführung der Anonymisierung Systeme genutzt, welche auf klassischen Methoden wie Regulären Ausdrücken und Regeln basieren. Doch diese zeigen bisweilen unzufrieden stellende Ergebnisse, besonders bei unregulären Daten, wie es zum Beispiel bei Chat Verläufen aus dem Support eines Unternehmens der Fall ist. In dem eng mit der Anonymisierung verwandten Bereich der Named Entity Recognition (NER) hat sich der Einsatz von Systemen auf Basis Maschinellen Lernens (ML) als erfolgreich gezeigt.

Diese Arbeit geht der Frage nach, inwiefern sich verschiedene ML-Modelle aus der NER in den Bereich der Anonymisierung übertragen lassen und vergleicht ihre Leistungen gegenüber einem in der Industrie eingesetzten Anonymisierungssystem, welches auf klassischen Methoden basiert. Dafür werden verschiedene Tests auf regulären sowie auf unregulären Daten durchgeführt.

Für den Einsatz von ML-Systemen sind entsprechende Datensätze nötig, um sie trainieren und testen zu können. Da keine deutschen Korpusse im Bereich der Anonymisierung existieren, werden im Rahmen dieser Arbeit außerdem die Wiedervervollständigung eines anonymisierten Chat-Korpus (unreguläre Daten) sowie die Generierungen eines kleinen E-Mail Datensatzes mit diversen Anwendungsfällen aus dem Bereich des Kundensupports in Unternehmen (reguläre Daten) durchgeführt.

Anhand diverser Evaluationsmethodiken wird gezeigt, dass der Einsatz von ML-Modellen aus dem Bereich der NER zu guten Ergebnissen in der Anonymisierung führt. Dabei wird die Leistungen des Vergleichssystems aus der Industrie von allen ML-Ansätzen übertroffen. Besonders gute Ergebnisse erreichen Conditional Random Fields, sowie die Kombination eines Bidirektionalen Long-Short-Term-Memory Systems mit einem Convolutional Neural Network.

URN: urn:nbn:de:tuda-tuprints-81348
Fachbereich(e)/-gebiet(e): 20 Fachbereich Informatik
20 Fachbereich Informatik > Knowledge Engineering
Hinterlegungsdatum: 11 Nov 2018 20:55
Letzte Änderung: 11 Nov 2018 20:55
PPN:
Referenten: Fürnkranz, Prof. Dr. Johannes ; Zopf, M.Sc. Markus
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: 26 Oktober 2018
Export:
Suche nach Titel in: TUfind oder in Google
Frage zum Eintrag Frage zum Eintrag

Optionen (nur für Redakteure)
Redaktionelle Details anzeigen Redaktionelle Details anzeigen