Measuring and Removing Realistic Image Noise

Plötz, Tobias (2021)
Measuring and Removing Realistic Image Noise.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00019105
Dissertation, Erstveröffentlichung, Verlagsversion

URL / URN: https://tuprints.ulb.tu-darmstadt.de/19105

Kurzbeschreibung (Abstract)

When capturing photographs with a digital camera, the resulting images are inherently affected by noise. Image denoising, i. e. the task of recovering the underlying clean image from a noisy observation, is fundamental to improve the perceptual quality, to help further visual reasoning, or to guide the optimization for more general image restoration tasks. Since image noise is a stochastic phenomenon arising from different sources, such as the randomness introduced through the photon arrival process or the electric circuits on the camera chip, recovering the exact noiseless image is in general not possible. The challenge of the image denoising problem now arises by imposing suitable assumptions on both the formation process of the noisy image as wells as on the properties of clean images that we want to recover. These assumptions are either encoded explicitly within a mathematical framework that gives the denoised image as the solution of an optimization problem, or implicitly by choosing a discriminative model, e. g. a convolutional neural network (CNN), that is learned on training data comprised of pairs of clean and noisy images. Having defined a denoising algorithm, it is natural to ask for assessing the quality of the output. Here, the research community by and large relies on synthetic test data for quantitative evaluation where supposedly noiseless images are corrupted by simulated noise. However, evaluating on simulated data can only be a proxy to assessing the accuracy on realistic images. The first contribution of this dissertation fills this gap by proposing a novel methodology for creating realistic test data for image denoising. Specifically, we propose to capture pairs of real noisy and almost noiseless reference images. We show how to extract accurate ground truth from the reference image by taking the underlying image formation process into account. Since the image denoising problem is inherently ill-posed it is interesting to go beyond predicting a single possible outcome by additionally assessing the uncertainty of the prediction. Probabilistic approaches to image denoising naturally lend themselves for uncertainty prediction since they model the posterior distribution of denoised images given the noisy observation. However, inferring the quantities of interest, e. g. the marginal entropy at each pixel, is oftentimes not feasible. Our second contribution proposes a novel stochastic variational inference (SVI) algorithm that fits a variational approximation (Wainwright and Jordan, 2008) to estimate model-based uncertainty on the pixel level. We demonstrate that the resulting algorithm SVIGL is on par or even outperforms the strong baseline of SVI with the popular Adam optimizer (Kingma and Ba, 2015) in terms of speed, robustness, and accuracy. In this thesis we are also concerned with advancing the state of the art in terms of raw denoising accuracy. Currently, neural network based approaches yield the most powerful denoisers. Looking at more traditional methods, non-local approaches (Dabov et al., 2006) tend to be competitive. To combine the best of both worlds, in our third contribution we endow a strong CNN denoiser with a novel block matching layer, called neural nearest neighbors (N3) block, for which we propose a fully differentiable relaxation of the k-nearest neighbor (KNN) selection rule. This allows the network to optimize the feature space on which block matching is conducted. Our N3 block is applicable for general input domains as exemplified on the set reasoning task of correspondence classification. While the aforementioned parts of this dissertation deal with the common case of a saturating camera sensor, i. e. intensity values increase up to a maximal value, we also consider a novel sensor concept called modulo sensor (Zhao et al., 2015) that is promising for high dynamic range (HDR) imaging. Here, pixel elements reset once they reach their maximal value. To obtain a plausible image we need to infer how often each pixel was reset during the exposure. In our fourth contribution we particularly want to reconstruct this information from multiple noisy modulo images. We propose to faithfully model the image formation process and use this generative model in an energy minimization framework to obtain a reconstructed and denoised HDR image, outperforming prior approaches to reconstruction from multiple modulo images.

Typ des Eintrags:

Dissertation

Erschienen:

2021

Autor(en):

Plötz, Tobias

Art des Eintrags:

Erstveröffentlichung

Titel:

Measuring and Removing Realistic Image Noise

Sprache:

Englisch

Referenten:

Roth, Prof Ph.D Stefan ; Brown, Prof Dr. Michael S.

Publikationsjahr:

2021

Ort:

Darmstadt

Kollation:

xvi, 198 Seiten

Datum der mündlichen Prüfung:

1 September 2020

DOI:

10.26083/tuprints-00019105

URL / URN:

https://tuprints.ulb.tu-darmstadt.de/19105

Kurzbeschreibung (Abstract):

Alternatives oder übersetztes Abstract:

Alternatives Abstract

Sprache

Bei der Aufnahme von Fotos mit einer Digitalkamera werden die resultierenden Bilder von Natur aus durch Rauschen beeinträchtigt. Bildentrauschung, also die Aufgabe, das zugrunde liegende saubere Bild aus einer verrauschten Beobachtung wiederherzustellen, ist von grundlegender Bedeutung, um die visuelle Qualität zu verbessern, weiteres visuelles Verstehen zu unterstützen oder die Optimierung für allgemeinere Bildwiederherstellungsaufgaben beeinzuflussen. Da Bildrauschen ein stochastisches Phänomen ist, das von verschiedenen Quellen herrührt, wie zum Beispiel dem stochastischen Ankunftsverhalten von Photonen oder Rauschen in den elektrischen Schaltungen auf dem Kamerachip, ist es im Allgemeinen nicht möglich, das genaue rauschfreie Bild wiederherzustellen. Die Herausforderung des Bildentrauschungsproblems besteht nun darin, sowohl für den Entstehungsprozess des verrauschten Bildes als auch für die Eigenschaften der wiederherzustellenden rauschfreien Bilder geeignete Annahmen zu treffen. Diese Annahmen werden entweder explizit in einem mathematischen Modell codiert, in dem das entrauschte Bild als Lösung eines Optimierungsproblems gegeben ist, oder implizit durch Auswahl eines Unterscheidungsmodells wie zum Beispiel eines CNNs, das anhand von Trainingsdaten gelernt wird, die aus sauberen und verrauschten Bildpaaren bestehen. Mit der der Entscheidung für einen Entrauschungsalgorithmus geht natürlich die Frage nach der Qualität seiner Ausgabe einher. Hier stützt sich die Forschung im Großen und Ganzen auf synthetische Testdaten zur quantitativen Auswertung, bei denen als rauschfrei angenommene Bilder mittels simulierten Rauschens verändert werden. Die Auswertung auf simulierten Daten kann jedoch nur eine Annäherung für die Genauigkeit auf realistischen Bildern liefern. Der erste Beitrag dieser Dissertation füllt diese Lücke, indem er eine neuartige Methodik zur Erstellung realistischer Testdaten für das Entrauschen von Bildern vorschlägt. Insbesondere schlagen wir vor, Paare von je einem echten verrauschten Bild und einem fast rauschfreien Referenzbild aufzunehmen. Wir zeigen, wie aus dem Referenzbild akkurate Ground Truth unter Berücksichtigung des zugrunde liegenden Bilderzeugungsprozesses extrahiert werden können. Da das Problem der Bildentrauschung von Natur aus unterspezifiziert ist, ist es spanned, über die Vorhersage eines einzelnen möglichen Ergebnisses hinauszugehen, indem zusätzlich die Unsicherheit der Vorhersage bewertet wird. Probabilistische Ansätze zur Bildentrauschung eignen sich direkt für die Vorhersage von Unsicherheiten, da sie die a-posteri Verteilung der entrauschten Bilder gegeben der verrauschten Beobachtung modellieren. Jedoch ist die Inferenz, z. B. der Marginalentropie an jedem Pixel, oft nicht möglich auf. Unser zweiter Beitrag schlägt einen neuartigen SVI-Algorithmus vor, der eine Variationsverteilung (Wainwright and Jordan, 2008) berechnet, um die modellbasierte Unsicherheit auf Pixelebene abzuschätzen. Wir zeigen, dass der resultierende SVIGL-Algorithmus in Bezug auf Geschwindigkeit, Robustheit und Genauigkeit die starke Vergleichsmethod von SVI kombiniert mit dem beliebten Adam-Optimierer (Kingma and Ba, 2015) erreicht oder sogar übertrifft. In dieser Arbeit beschäftigen wir uns auch damit, den Stand der Technik in Bezug auf die Genauigkeit der entrauschten Bilder zu verbessern. Derzeit liefern Ansätze basierend auf neuronale Netzen die besten Ergebnisse und von traditionelleren Methoden können vor allem nicht-lokale Ansätze (Dabov et al., 2006) damit mithalten. Um das Beste aus beiden Welten zu kombinieren, kombinieren wir in unserem dritten Beitrag einen starken CNN-Entrauscher mit einem neuartigen Block-Matching-Layer, dem so genannten N3-Block (neuronale nächste Nachbarn), für den wir eine vollständig differenzierbare Relaxation der KNN-Auswahlregel präsentieren. Dies ermöglicht es dem Netzwerk, den Merkmalsraum des Block-Matchings zu optimieren. Unser N3-Block ist für allgemeine Eingabedomänen anwendbar. Das zeigen wir am Beispiel der Klassifizierung von Bildpunktkorrespondenzen, wobei das Netzwerk auf mengenwertigen Eingaben operiert. Während sich die vorgenannten Teile dieser Dissertation mit dem Bildern eines saturierenden Kamerasensors befassen, d. h. die Intensitätswerte steigen nur bis zu einem Maximalwert, betrachten wir auch das neuartige Sensorkonzept eines Modulo-Sensors (Zhao et al., 2015), das für die HDR-Bildgebung vielversprechend ist. Hier werden Pixelwerte zurückgesetzt, sobald sie ihren Maximalwert erreicht haben. Um ein plausibles Bild zu erhalten, muss rekonstruiert werden, wie oft jeder Pixel während der Belichtungszeit zurückgesetzt wurde. In unserem vierten Beitrag rekonstruieren wir diese Informationen aus mehreren verrauschten Modulobildern. Unsere Methode basiert auf einem generativen Modell des Bilderzeugungsprozesses. Das rekonstruierte und entrauschte HDR-Bild erhalten wir anschließend durch Energieminimierung und wir zeigen, dass wir so die Genauigkeit gegenüber existierenden Ansätzen zur Rekonstruktion aus mehreren Modulo-Bildern verbessern.

Deutsch

Status:

Verlagsversion

URN:

urn:nbn:de:tuda-tuprints-191055

Sachgruppe der Dewey Dezimalklassifikatin (DDC):

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Fachbereich(e)/-gebiet(e):

20 Fachbereich Informatik
20 Fachbereich Informatik > Visuelle Inferenz

Hinterlegungsdatum:

14 Jul 2021 09:01

Letzte Änderung: