TU Darmstadt / ULB / TUbiblio

Variational Approaches with Convolutional Neural Networks for Optical Flow Estimation

Notz, Dominik (2016):
Variational Approaches with Convolutional Neural Networks for Optical Flow Estimation.
Darmstadt, TU, Master Thesis, 2016, [Master Thesis]

Abstract

In this work, we derive a variational method for optical flow estimation based on convolutional neural networks. In recent years, deep learning techniques have been very successfully applied in the field of computer vision, outperforming many previous state-of-the-art methods. Yet, they have hardly been applied to the problem of optical flow estimation. Many of today's algorithms for optical flow estimation resemble the original formulation of Horn and Schunck and make use of the brightness constancy assumption in their data terms. However, this assumption rarely holds in practice. Hence, we replace the brightness constancy assumption with the output of a convolutional neural network. We use two network architectures from the literature and propose a third one with a moderately better performance at a smaller computational expense. We train these networks on well-known optical flow datasets to predict the similarity of two small image patches under flow transformation. Hereby, we investigate the usage of both binary and continuous labels for the distance of the image patches in the training data. We evaluate our derived optical flow estimation algorithm with single CNNs as well as with simple combinations of the learned models. On the MPI-Sintel dataset, our approaches perform almost as good as a similar flow estimation algorithm relying on the brightness constancy assumption. The ground truth data of the KITTI 2015 dataset allows for errors of up to 3 pixels, which significantly harms the CNN training. These imprecisions notably impair the final flow estimates. In dieser Arbeit leiten wir einen auf faltenden neuronalen Netzen basierenden Algorithmus zur Schätzung des optischen Flusses her. In den letzten Jahren wurden Techniken des Deep Learnings sehr erfolgreich im Bereich des maschinellen Sehens eingesetzt und konnten viele der zuvor besten Methoden übertreffen. Dennoch wurden sie kaum auf das Problem der Schätzung des optischen Flusses angewandt. Viele der heutigen Algorithmen zur optischen Flussschätzung ähneln der ursprünglichen Formulierung von Horn und Schunck, und stützen sich auf die Annahme der konstant bleibenden Helligkeit in ihren Datentermen. Diese Annahme gilt jedoch in der Praxis meist nicht. Aus diesem Grund versuchen wir, die Annahme der konstant bleibenden Helligkeit durch Vorhersagen von faltenden neuronalen Netzen zu ersetzen. Wir benutzen zwei Netzwerk-Architekturen aus der Literatur und schlagen eine dritte vor, die bei geringerem Berechnungsaufwand leicht verbesserte Resultate erzielt. Wir trainieren diese Netzwerke mit bekannten Datensätzen des optischen Flusses, sodass sie die Ähnlichkeit zweier kleiner Bildausschnitte unter der Transformation des optischen Flusses vorhersagen. Dabei untersuchen wir die Nutzung von sowohl binären als auch kontinuierlichen Bezeichnern in den Trainingsdaten für die Distanz zwischen den Bildausschnitten. Wir evaluieren unseren hergeleiteten Algorithmus zur Schätzung des optischen Flusses sowohl mit einzelnen faltenden neuronalen Netzen als auch mit einfachen Kombinationen der gelernten Modelle. Auf dem MPI-Sintel Datensatz sind unsere Methoden fast genauso gut wie vergleichbare Algorithmen, die auf der Annahme der konstant bleibenden Helligkeit basieren. Der KITTI 2015 Datensatz erlaubt Fehler von bis zu 3 Pixeln, wodurch die gelernten Modelle signifikant beeinträchtigt werden. Diese Ungenauigkeiten verschlechtern die finalen Schätzungen erheblich.

Item Type: Master Thesis
Erschienen: 2016
Creators: Notz, Dominik
Title: Variational Approaches with Convolutional Neural Networks for Optical Flow Estimation
Language: English
Abstract:

In this work, we derive a variational method for optical flow estimation based on convolutional neural networks. In recent years, deep learning techniques have been very successfully applied in the field of computer vision, outperforming many previous state-of-the-art methods. Yet, they have hardly been applied to the problem of optical flow estimation. Many of today's algorithms for optical flow estimation resemble the original formulation of Horn and Schunck and make use of the brightness constancy assumption in their data terms. However, this assumption rarely holds in practice. Hence, we replace the brightness constancy assumption with the output of a convolutional neural network. We use two network architectures from the literature and propose a third one with a moderately better performance at a smaller computational expense. We train these networks on well-known optical flow datasets to predict the similarity of two small image patches under flow transformation. Hereby, we investigate the usage of both binary and continuous labels for the distance of the image patches in the training data. We evaluate our derived optical flow estimation algorithm with single CNNs as well as with simple combinations of the learned models. On the MPI-Sintel dataset, our approaches perform almost as good as a similar flow estimation algorithm relying on the brightness constancy assumption. The ground truth data of the KITTI 2015 dataset allows for errors of up to 3 pixels, which significantly harms the CNN training. These imprecisions notably impair the final flow estimates. In dieser Arbeit leiten wir einen auf faltenden neuronalen Netzen basierenden Algorithmus zur Schätzung des optischen Flusses her. In den letzten Jahren wurden Techniken des Deep Learnings sehr erfolgreich im Bereich des maschinellen Sehens eingesetzt und konnten viele der zuvor besten Methoden übertreffen. Dennoch wurden sie kaum auf das Problem der Schätzung des optischen Flusses angewandt. Viele der heutigen Algorithmen zur optischen Flussschätzung ähneln der ursprünglichen Formulierung von Horn und Schunck, und stützen sich auf die Annahme der konstant bleibenden Helligkeit in ihren Datentermen. Diese Annahme gilt jedoch in der Praxis meist nicht. Aus diesem Grund versuchen wir, die Annahme der konstant bleibenden Helligkeit durch Vorhersagen von faltenden neuronalen Netzen zu ersetzen. Wir benutzen zwei Netzwerk-Architekturen aus der Literatur und schlagen eine dritte vor, die bei geringerem Berechnungsaufwand leicht verbesserte Resultate erzielt. Wir trainieren diese Netzwerke mit bekannten Datensätzen des optischen Flusses, sodass sie die Ähnlichkeit zweier kleiner Bildausschnitte unter der Transformation des optischen Flusses vorhersagen. Dabei untersuchen wir die Nutzung von sowohl binären als auch kontinuierlichen Bezeichnern in den Trainingsdaten für die Distanz zwischen den Bildausschnitten. Wir evaluieren unseren hergeleiteten Algorithmus zur Schätzung des optischen Flusses sowohl mit einzelnen faltenden neuronalen Netzen als auch mit einfachen Kombinationen der gelernten Modelle. Auf dem MPI-Sintel Datensatz sind unsere Methoden fast genauso gut wie vergleichbare Algorithmen, die auf der Annahme der konstant bleibenden Helligkeit basieren. Der KITTI 2015 Datensatz erlaubt Fehler von bis zu 3 Pixeln, wodurch die gelernten Modelle signifikant beeinträchtigt werden. Diese Ungenauigkeiten verschlechtern die finalen Schätzungen erheblich.

Uncontrolled Keywords: Computer vision, Optical flow, Neural networks
Divisions: 20 Department of Computer Science
20 Department of Computer Science > Mathematical and Applied Visual Computing
Date Deposited: 09 May 2019 10:23
Export:
Suche nach Titel in: TUfind oder in Google

Optionen (nur für Redakteure)

View Item View Item