Walter, Benjamin (2023)
Konvergenzraten von Bildklassifikatoren basierend auf faltenden neuronalen Netzen.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024333
Dissertation, Erstveröffentlichung, Verlagsversion
Kurzbeschreibung (Abstract)
In der vorliegenden Arbeit wird das Konvergenzverhalten von Bildklassifikatoren untersucht, die auf faltenden neuronalen Netzen basieren. Es wird gezeigt, dass die Klassifikatoren, welche durch Kleinste-Quadrate-Schätzer als Plug-In Klassifikatoren definiert werden, dimensionsfreie Konvergenzraten für die Differenz des Missklassifikationsrisikos der Schätzung und dem optimalen Missklassifikationsrisiko erzielen und somit den Fluch der hohen Dimension umgehen. Diese Analyse liefert eine theoretische Erklärung für die Nützlichkeit der Komponenten von faltenden neuronalen Netzen in der Bildklassifikation, gibt theoretische Anhaltspunkte für eine geeignete Wahl der Netzwerkparameter und liefert einen theoretischen Hinweis für den Vorteil dieser Architekturen gegenüber anderen Klassifizierungsmethoden.
In vorhergehenden Arbeiten konnte im Rahmen der Regressionsschätzung gezeigt werden, dass Neuronale-Netze-Schätzer unter kompositionellen Annahmen an die zu schätzende Regressionsfunktion eine dimensionsfreie Konvergenzrate erreichen. Die so erzielten Ergebnisse lieferten bisher allerdings keine theoretische Begründung für die Überlegenheit von faltenden neuronalen Netzen gegenüber anderen Netzwerkarchitekturen in Anwendungen der Bildklassifikation. Um dies zu ermöglichen, wird der obige Ansatz auf die Bildklassifikation übertragen, indem Struktur- und Glattheitsannahmen an die a-posteriori Wahrscheinlichkeit formuliert werden. Auf diese Weise werden drei statistische Modelle zur Bildklassifikation eingeführt, in denen das Konvergenzverhalten geeigneter Klassifikatoren untersucht wird.
Das erste Modell beinhaltet die folgenden grundlegenden Beobachtungen zur Bildklassifikation: Zum einen hängt die Klasse eines Bildes von der Existenz von bestimmten Objekten ab, die möglicherweise deutlich kleiner als der gesamte Bildbereich sind, und zum anderen lassen sich Teilbereiche eines Bildes hierarchisch aus benachbarten kleineren Bereichen zusammensetzen. Das zweite Modell wird um den Aspekt ergänzt, dass es nur auf den ungefähren relativen Abstand von Merkmalen der Objekte zueinander ankommt. Die für das zweite Modell eingeführten Netzwerkarchitekturen von faltenden neuronalen Netzen enthalten insbesondere lokale Pooling Schichten. Für das dritte Modell wird ein allgemeinerer Rahmen eingeführt, in dem Bilder als Zufallsvariablen mit Werten in einem Funktionenraum betrachtet werden, wobei die beobachtete Stichprobe durch Diskretisierung solcher Zufallsvariablen gebildet wird. Es wird dann ein Modell für die funktionale a-posteriori Wahrscheinlichkeit eingeführt, welches Klassifikationsprobleme beinhaltet, bei denen die Rotation von Objekten um beliebige Winkel irrelevant für eine korrekte Klassifizierung ist. Für dieses Modell wird eine dimensionsfreie Konvergenzrate erzielt, wenn ein von der Auflösung der diskretisierten Bilder abhängiger Fehlerterm vernachlässigt wird.
Für die Verifizierung der entsprechenden Resultate werden Approximationseigenschaften für faltende neuronale Netze hergeleitet und die Komplexität der Funktionsklassen dieser Netzwerkarchitekturen beschränkt.
Abschließend wird das Verhalten der eingeführten Bildklassifikatoren bei endlichem Stichprobenumfang analysiert. Hierfür werden die Klassifikatoren sowohl auf simulierte als auch auf reale Bilddatensätze angewendet und die Ergebnisse mit verschiedenen alternativen Klassifikationsmethoden verglichen.
Typ des Eintrags: | Dissertation | ||||
---|---|---|---|---|---|
Erschienen: | 2023 | ||||
Autor(en): | Walter, Benjamin | ||||
Art des Eintrags: | Erstveröffentlichung | ||||
Titel: | Konvergenzraten von Bildklassifikatoren basierend auf faltenden neuronalen Netzen | ||||
Sprache: | Deutsch | ||||
Referenten: | Kohler, Prof. Dr. Michael ; Aurzada, Prof. Dr. Frank | ||||
Publikationsjahr: | 2023 | ||||
Ort: | Darmstadt | ||||
Kollation: | xii, 137 Seiten | ||||
Datum der mündlichen Prüfung: | 28 Juni 2023 | ||||
DOI: | 10.26083/tuprints-00024333 | ||||
URL / URN: | https://tuprints.ulb.tu-darmstadt.de/24333 | ||||
Kurzbeschreibung (Abstract): | In der vorliegenden Arbeit wird das Konvergenzverhalten von Bildklassifikatoren untersucht, die auf faltenden neuronalen Netzen basieren. Es wird gezeigt, dass die Klassifikatoren, welche durch Kleinste-Quadrate-Schätzer als Plug-In Klassifikatoren definiert werden, dimensionsfreie Konvergenzraten für die Differenz des Missklassifikationsrisikos der Schätzung und dem optimalen Missklassifikationsrisiko erzielen und somit den Fluch der hohen Dimension umgehen. Diese Analyse liefert eine theoretische Erklärung für die Nützlichkeit der Komponenten von faltenden neuronalen Netzen in der Bildklassifikation, gibt theoretische Anhaltspunkte für eine geeignete Wahl der Netzwerkparameter und liefert einen theoretischen Hinweis für den Vorteil dieser Architekturen gegenüber anderen Klassifizierungsmethoden. In vorhergehenden Arbeiten konnte im Rahmen der Regressionsschätzung gezeigt werden, dass Neuronale-Netze-Schätzer unter kompositionellen Annahmen an die zu schätzende Regressionsfunktion eine dimensionsfreie Konvergenzrate erreichen. Die so erzielten Ergebnisse lieferten bisher allerdings keine theoretische Begründung für die Überlegenheit von faltenden neuronalen Netzen gegenüber anderen Netzwerkarchitekturen in Anwendungen der Bildklassifikation. Um dies zu ermöglichen, wird der obige Ansatz auf die Bildklassifikation übertragen, indem Struktur- und Glattheitsannahmen an die a-posteriori Wahrscheinlichkeit formuliert werden. Auf diese Weise werden drei statistische Modelle zur Bildklassifikation eingeführt, in denen das Konvergenzverhalten geeigneter Klassifikatoren untersucht wird. Das erste Modell beinhaltet die folgenden grundlegenden Beobachtungen zur Bildklassifikation: Zum einen hängt die Klasse eines Bildes von der Existenz von bestimmten Objekten ab, die möglicherweise deutlich kleiner als der gesamte Bildbereich sind, und zum anderen lassen sich Teilbereiche eines Bildes hierarchisch aus benachbarten kleineren Bereichen zusammensetzen. Das zweite Modell wird um den Aspekt ergänzt, dass es nur auf den ungefähren relativen Abstand von Merkmalen der Objekte zueinander ankommt. Die für das zweite Modell eingeführten Netzwerkarchitekturen von faltenden neuronalen Netzen enthalten insbesondere lokale Pooling Schichten. Für das dritte Modell wird ein allgemeinerer Rahmen eingeführt, in dem Bilder als Zufallsvariablen mit Werten in einem Funktionenraum betrachtet werden, wobei die beobachtete Stichprobe durch Diskretisierung solcher Zufallsvariablen gebildet wird. Es wird dann ein Modell für die funktionale a-posteriori Wahrscheinlichkeit eingeführt, welches Klassifikationsprobleme beinhaltet, bei denen die Rotation von Objekten um beliebige Winkel irrelevant für eine korrekte Klassifizierung ist. Für dieses Modell wird eine dimensionsfreie Konvergenzrate erzielt, wenn ein von der Auflösung der diskretisierten Bilder abhängiger Fehlerterm vernachlässigt wird. Für die Verifizierung der entsprechenden Resultate werden Approximationseigenschaften für faltende neuronale Netze hergeleitet und die Komplexität der Funktionsklassen dieser Netzwerkarchitekturen beschränkt. Abschließend wird das Verhalten der eingeführten Bildklassifikatoren bei endlichem Stichprobenumfang analysiert. Hierfür werden die Klassifikatoren sowohl auf simulierte als auch auf reale Bilddatensätze angewendet und die Ergebnisse mit verschiedenen alternativen Klassifikationsmethoden verglichen. |
||||
Alternatives oder übersetztes Abstract: |
|
||||
Status: | Verlagsversion | ||||
URN: | urn:nbn:de:tuda-tuprints-243332 | ||||
Sachgruppe der Dewey Dezimalklassifikatin (DDC): | 500 Naturwissenschaften und Mathematik > 510 Mathematik | ||||
Fachbereich(e)/-gebiet(e): | 04 Fachbereich Mathematik 04 Fachbereich Mathematik > Stochastik |
||||
Hinterlegungsdatum: | 25 Jul 2023 12:07 | ||||
Letzte Änderung: | 26 Jul 2023 07:57 | ||||
PPN: | |||||
Referenten: | Kohler, Prof. Dr. Michael ; Aurzada, Prof. Dr. Frank | ||||
Datum der mündlichen Prüfung / Verteidigung / mdl. Prüfung: | 28 Juni 2023 | ||||
Export: | |||||
Suche nach Titel in: | TUfind oder in Google |
Frage zum Eintrag |
Optionen (nur für Redakteure)
Redaktionelle Details anzeigen |