TU Darmstadt / ULB / TUbiblio

Measuring and Removing Realistic Image Noise

Plötz, Tobias (2021):
Measuring and Removing Realistic Image Noise. (Publisher's Version)
Darmstadt, Technische Universität Darmstadt,
DOI: 10.26083/tuprints-00019105,
[Ph.D. Thesis]

Abstract

When capturing photographs with a digital camera, the resulting images are inherently affected by noise. Image denoising, i. e. the task of recovering the underlying clean image from a noisy observation, is fundamental to improve the perceptual quality, to help further visual reasoning, or to guide the optimization for more general image restoration tasks. Since image noise is a stochastic phenomenon arising from different sources, such as the randomness introduced through the photon arrival process or the electric circuits on the camera chip, recovering the exact noiseless image is in general not possible. The challenge of the image denoising problem now arises by imposing suitable assumptions on both the formation process of the noisy image as wells as on the properties of clean images that we want to recover. These assumptions are either encoded explicitly within a mathematical framework that gives the denoised image as the solution of an optimization problem, or implicitly by choosing a discriminative model, e. g. a convolutional neural network (CNN), that is learned on training data comprised of pairs of clean and noisy images. Having defined a denoising algorithm, it is natural to ask for assessing the quality of the output. Here, the research community by and large relies on synthetic test data for quantitative evaluation where supposedly noiseless images are corrupted by simulated noise. However, evaluating on simulated data can only be a proxy to assessing the accuracy on realistic images. The first contribution of this dissertation fills this gap by proposing a novel methodology for creating realistic test data for image denoising. Specifically, we propose to capture pairs of real noisy and almost noiseless reference images. We show how to extract accurate ground truth from the reference image by taking the underlying image formation process into account. Since the image denoising problem is inherently ill-posed it is interesting to go beyond predicting a single possible outcome by additionally assessing the uncertainty of the prediction. Probabilistic approaches to image denoising naturally lend themselves for uncertainty prediction since they model the posterior distribution of denoised images given the noisy observation. However, inferring the quantities of interest, e. g. the marginal entropy at each pixel, is oftentimes not feasible. Our second contribution proposes a novel stochastic variational inference (SVI) algorithm that fits a variational approximation (Wainwright and Jordan, 2008) to estimate model-based uncertainty on the pixel level. We demonstrate that the resulting algorithm SVIGL is on par or even outperforms the strong baseline of SVI with the popular Adam optimizer (Kingma and Ba, 2015) in terms of speed, robustness, and accuracy. In this thesis we are also concerned with advancing the state of the art in terms of raw denoising accuracy. Currently, neural network based approaches yield the most powerful denoisers. Looking at more traditional methods, non-local approaches (Dabov et al., 2006) tend to be competitive. To combine the best of both worlds, in our third contribution we endow a strong CNN denoiser with a novel block matching layer, called neural nearest neighbors (N3) block, for which we propose a fully differentiable relaxation of the k-nearest neighbor (KNN) selection rule. This allows the network to optimize the feature space on which block matching is conducted. Our N3 block is applicable for general input domains as exemplified on the set reasoning task of correspondence classification. While the aforementioned parts of this dissertation deal with the common case of a saturating camera sensor, i. e. intensity values increase up to a maximal value, we also consider a novel sensor concept called modulo sensor (Zhao et al., 2015) that is promising for high dynamic range (HDR) imaging. Here, pixel elements reset once they reach their maximal value. To obtain a plausible image we need to infer how often each pixel was reset during the exposure. In our fourth contribution we particularly want to reconstruct this information from multiple noisy modulo images. We propose to faithfully model the image formation process and use this generative model in an energy minimization framework to obtain a reconstructed and denoised HDR image, outperforming prior approaches to reconstruction from multiple modulo images.

Item Type: Ph.D. Thesis
Erschienen: 2021
Creators: Plötz, Tobias
Status: Publisher's Version
Title: Measuring and Removing Realistic Image Noise
Language: English
Abstract:

When capturing photographs with a digital camera, the resulting images are inherently affected by noise. Image denoising, i. e. the task of recovering the underlying clean image from a noisy observation, is fundamental to improve the perceptual quality, to help further visual reasoning, or to guide the optimization for more general image restoration tasks. Since image noise is a stochastic phenomenon arising from different sources, such as the randomness introduced through the photon arrival process or the electric circuits on the camera chip, recovering the exact noiseless image is in general not possible. The challenge of the image denoising problem now arises by imposing suitable assumptions on both the formation process of the noisy image as wells as on the properties of clean images that we want to recover. These assumptions are either encoded explicitly within a mathematical framework that gives the denoised image as the solution of an optimization problem, or implicitly by choosing a discriminative model, e. g. a convolutional neural network (CNN), that is learned on training data comprised of pairs of clean and noisy images. Having defined a denoising algorithm, it is natural to ask for assessing the quality of the output. Here, the research community by and large relies on synthetic test data for quantitative evaluation where supposedly noiseless images are corrupted by simulated noise. However, evaluating on simulated data can only be a proxy to assessing the accuracy on realistic images. The first contribution of this dissertation fills this gap by proposing a novel methodology for creating realistic test data for image denoising. Specifically, we propose to capture pairs of real noisy and almost noiseless reference images. We show how to extract accurate ground truth from the reference image by taking the underlying image formation process into account. Since the image denoising problem is inherently ill-posed it is interesting to go beyond predicting a single possible outcome by additionally assessing the uncertainty of the prediction. Probabilistic approaches to image denoising naturally lend themselves for uncertainty prediction since they model the posterior distribution of denoised images given the noisy observation. However, inferring the quantities of interest, e. g. the marginal entropy at each pixel, is oftentimes not feasible. Our second contribution proposes a novel stochastic variational inference (SVI) algorithm that fits a variational approximation (Wainwright and Jordan, 2008) to estimate model-based uncertainty on the pixel level. We demonstrate that the resulting algorithm SVIGL is on par or even outperforms the strong baseline of SVI with the popular Adam optimizer (Kingma and Ba, 2015) in terms of speed, robustness, and accuracy. In this thesis we are also concerned with advancing the state of the art in terms of raw denoising accuracy. Currently, neural network based approaches yield the most powerful denoisers. Looking at more traditional methods, non-local approaches (Dabov et al., 2006) tend to be competitive. To combine the best of both worlds, in our third contribution we endow a strong CNN denoiser with a novel block matching layer, called neural nearest neighbors (N3) block, for which we propose a fully differentiable relaxation of the k-nearest neighbor (KNN) selection rule. This allows the network to optimize the feature space on which block matching is conducted. Our N3 block is applicable for general input domains as exemplified on the set reasoning task of correspondence classification. While the aforementioned parts of this dissertation deal with the common case of a saturating camera sensor, i. e. intensity values increase up to a maximal value, we also consider a novel sensor concept called modulo sensor (Zhao et al., 2015) that is promising for high dynamic range (HDR) imaging. Here, pixel elements reset once they reach their maximal value. To obtain a plausible image we need to infer how often each pixel was reset during the exposure. In our fourth contribution we particularly want to reconstruct this information from multiple noisy modulo images. We propose to faithfully model the image formation process and use this generative model in an energy minimization framework to obtain a reconstructed and denoised HDR image, outperforming prior approaches to reconstruction from multiple modulo images.

Place of Publication: Darmstadt
Collation: xvi, 198 Seiten
Divisions: 20 Department of Computer Science
20 Department of Computer Science > Visual Inference
Date Deposited: 14 Jul 2021 09:01
DOI: 10.26083/tuprints-00019105
Official URL: https://tuprints.ulb.tu-darmstadt.de/19105
URN: urn:nbn:de:tuda-tuprints-191055
Referees: Roth, Prof Ph.D Stefan ; Brown, Prof Dr. Michael S.
Refereed / Verteidigung / mdl. Prüfung: 1 September 2020
Alternative Abstract:
Alternative abstract Language

Bei der Aufnahme von Fotos mit einer Digitalkamera werden die resultierenden Bilder von Natur aus durch Rauschen beeinträchtigt. Bildentrauschung, also die Aufgabe, das zugrunde liegende saubere Bild aus einer verrauschten Beobachtung wiederherzustellen, ist von grundlegender Bedeutung, um die visuelle Qualität zu verbessern, weiteres visuelles Verstehen zu unterstützen oder die Optimierung für allgemeinere Bildwiederherstellungsaufgaben beeinzuflussen. Da Bildrauschen ein stochastisches Phänomen ist, das von verschiedenen Quellen herrührt, wie zum Beispiel dem stochastischen Ankunftsverhalten von Photonen oder Rauschen in den elektrischen Schaltungen auf dem Kamerachip, ist es im Allgemeinen nicht möglich, das genaue rauschfreie Bild wiederherzustellen. Die Herausforderung des Bildentrauschungsproblems besteht nun darin, sowohl für den Entstehungsprozess des verrauschten Bildes als auch für die Eigenschaften der wiederherzustellenden rauschfreien Bilder geeignete Annahmen zu treffen. Diese Annahmen werden entweder explizit in einem mathematischen Modell codiert, in dem das entrauschte Bild als Lösung eines Optimierungsproblems gegeben ist, oder implizit durch Auswahl eines Unterscheidungsmodells wie zum Beispiel eines CNNs, das anhand von Trainingsdaten gelernt wird, die aus sauberen und verrauschten Bildpaaren bestehen. Mit der der Entscheidung für einen Entrauschungsalgorithmus geht natürlich die Frage nach der Qualität seiner Ausgabe einher. Hier stützt sich die Forschung im Großen und Ganzen auf synthetische Testdaten zur quantitativen Auswertung, bei denen als rauschfrei angenommene Bilder mittels simulierten Rauschens verändert werden. Die Auswertung auf simulierten Daten kann jedoch nur eine Annäherung für die Genauigkeit auf realistischen Bildern liefern. Der erste Beitrag dieser Dissertation füllt diese Lücke, indem er eine neuartige Methodik zur Erstellung realistischer Testdaten für das Entrauschen von Bildern vorschlägt. Insbesondere schlagen wir vor, Paare von je einem echten verrauschten Bild und einem fast rauschfreien Referenzbild aufzunehmen. Wir zeigen, wie aus dem Referenzbild akkurate Ground Truth unter Berücksichtigung des zugrunde liegenden Bilderzeugungsprozesses extrahiert werden können. Da das Problem der Bildentrauschung von Natur aus unterspezifiziert ist, ist es spanned, über die Vorhersage eines einzelnen möglichen Ergebnisses hinauszugehen, indem zusätzlich die Unsicherheit der Vorhersage bewertet wird. Probabilistische Ansätze zur Bildentrauschung eignen sich direkt für die Vorhersage von Unsicherheiten, da sie die a-posteri Verteilung der entrauschten Bilder gegeben der verrauschten Beobachtung modellieren. Jedoch ist die Inferenz, z. B. der Marginalentropie an jedem Pixel, oft nicht möglich auf. Unser zweiter Beitrag schlägt einen neuartigen SVI-Algorithmus vor, der eine Variationsverteilung (Wainwright and Jordan, 2008) berechnet, um die modellbasierte Unsicherheit auf Pixelebene abzuschätzen. Wir zeigen, dass der resultierende SVIGL-Algorithmus in Bezug auf Geschwindigkeit, Robustheit und Genauigkeit die starke Vergleichsmethod von SVI kombiniert mit dem beliebten Adam-Optimierer (Kingma and Ba, 2015) erreicht oder sogar übertrifft. In dieser Arbeit beschäftigen wir uns auch damit, den Stand der Technik in Bezug auf die Genauigkeit der entrauschten Bilder zu verbessern. Derzeit liefern Ansätze basierend auf neuronale Netzen die besten Ergebnisse und von traditionelleren Methoden können vor allem nicht-lokale Ansätze (Dabov et al., 2006) damit mithalten. Um das Beste aus beiden Welten zu kombinieren, kombinieren wir in unserem dritten Beitrag einen starken CNN-Entrauscher mit einem neuartigen Block-Matching-Layer, dem so genannten N3-Block (neuronale nächste Nachbarn), für den wir eine vollständig differenzierbare Relaxation der KNN-Auswahlregel präsentieren. Dies ermöglicht es dem Netzwerk, den Merkmalsraum des Block-Matchings zu optimieren. Unser N3-Block ist für allgemeine Eingabedomänen anwendbar. Das zeigen wir am Beispiel der Klassifizierung von Bildpunktkorrespondenzen, wobei das Netzwerk auf mengenwertigen Eingaben operiert. Während sich die vorgenannten Teile dieser Dissertation mit dem Bildern eines saturierenden Kamerasensors befassen, d. h. die Intensitätswerte steigen nur bis zu einem Maximalwert, betrachten wir auch das neuartige Sensorkonzept eines Modulo-Sensors (Zhao et al., 2015), das für die HDR-Bildgebung vielversprechend ist. Hier werden Pixelwerte zurückgesetzt, sobald sie ihren Maximalwert erreicht haben. Um ein plausibles Bild zu erhalten, muss rekonstruiert werden, wie oft jeder Pixel während der Belichtungszeit zurückgesetzt wurde. In unserem vierten Beitrag rekonstruieren wir diese Informationen aus mehreren verrauschten Modulobildern. Unsere Methode basiert auf einem generativen Modell des Bilderzeugungsprozesses. Das rekonstruierte und entrauschte HDR-Bild erhalten wir anschließend durch Energieminimierung und wir zeigen, dass wir so die Genauigkeit gegenüber existierenden Ansätzen zur Rekonstruktion aus mehreren Modulo-Bildern verbessern.

German
Export:
Suche nach Titel in: TUfind oder in Google
Send an inquiry Send an inquiry

Options (only for editors)
Show editorial Details Show editorial Details