Addressing the Data Scarcity of Learning-based Optical Flow Approaches

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/103400
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1034002
http://dx.doi.org/10.15496/publikation-44779
Dokumentart: Dissertation
Erscheinungsdatum: 2020-07-20
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Geiger, Andreas (Prof. Dr.-Ing.)
Tag der mündl. Prüfung: 2020-04-24
DDC-Klassifikation: 004 - Informatik
Schlagworte: Deep learning , Optischer Fluss , Datensatz , Neuronales Netz
Freie Schlagwörter:
Optical Flow
Motion
Dataset
Data
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Tiefe neuronale Netze ermöglichen das Erlernen von komplexeren hierarchischen Repräsentationen und machen somit das Ende-zu-Ende Lernen des optischen Flusses attraktiv. Jedoch erfordert das Trainieren solcher Modelle große Datensätzen und die Erzeugung von Grundwahrheiten für reale Bilder ist sehr aufwendig. Aufgrund der Schwierigkeiten dichte Grundwahrheiten zu erfassen, sind existierende Datensätze begrenzt in ihrer Größe und Vielfalt. Wir präsentieren zwei Strategien, um diesen Datenmangel zu lösen: Zunächst schlagen wir einen Ansatz zur Erstellung neuer realen Datensätze vor, wobei wir mithilfe von Hochgeschwindigkeitskameras strenge zeitliche Annahmen ausnutzen. Wir lösen dieses Problem, indem wir Pixel durch dichte Raum-Zeit-Volumen verfolgen, die mit der Hochgeschwindigkeitskamera aufgenommen wurden. Unser Modell nutzt die Linearität kleiner Bewegungen und schätzt Verdeckungen über mehrere Bilder. Mit unserer Technik sind wir in der Lage, außerhalb des Labors in natürlicher Umgebung genaue Referenzflussfelder zu erzeugen. Außerdem zeigen wir, wie unsere Vorhersagen genutzt werden können, um Bilder mit realistischer Bewegungsunschärfe zu ergänzen. Wir bewerten die Qualität der erzeugten Flussfelder mit synthetischen und realen Datensätzen. Schließlich generieren wir einen neuartigen, herausfordernden optischen Fluss Datensatz, indem wir unsere Methode auf Daten einer Hochgeschwindigkeitskamera anwenden. Wir nutzen diesen Datensatz, um den Stand der Technik im optischen Fluss unter unterschiedlich starker Bewegungsunschärfe zu analysieren. Außerdem untersuchen wir, wie man aus Daten ohne Grundwahrheiten anspruchsvolle Modelle lernen kann. Unüberwachtes Lernen ist eine vielversprechende Richtung, aber die Leistung der derzeitigen Methoden ist immer noch begrenzt. Insbesondere das Fehlen einer korrekten Handhabung von Verdeckungen in dem gebräuchlichen fotometrischen Vergleich stellt eine große Fehlerquelle dar. Während die meisten optischen Fluss Methoden Paare von aufeinanderfolgenden Einzelbildern verarbeiten, kann eine bessere Schätzung von Verdeckungen realisiert werden, wenn mehrere Einzelbilder betrachtet werden. Wir entwickeln eine Methode für das unüberwachte Lernen von optischem Fluss und Verdeckungen mit mehreren Bildern. Genauer gesagt, nutzen wir die minimale Konfiguration von drei Bildern, um den fotometrischen Vergleich zu verstärken und explizit Verdeckungen zu schätzen. Wir zeigen, dass unsere Formulierung die bestehenden unüberwachten Zwei-Bild-Methoden übertrifft und sogar vergleichbare Ergebnisse mit einigen überwachten Methoden liefert. Beide Strategien sind für künftige Fortschritte im Bereich des optischen Flusses von wesentlicher Bedeutung. Während neue Datensätze es ermöglichen, die Fortschritte zu messen und neue Ansätze zu vergleichen, erlaubt das unüberwachte Lernen die Nutzung neuer Datenquellen, um bessere Modelle zu trainieren.

Abstract:

Learning to solve optical flow in an end-to-end fashion from examples is attractive as deep neural networks allow for learning more complex hierarchical flow representations directly from annotated data. However, training such models requires large datasets, and obtaining ground truth for real images is challenging. Due to the difficulty of capturing dense ground truth, existing optical flow datasets are limited in size and diversity. Therefore, we present two strategies to address this data scarcity problem: First, we propose an approach to create new real-world datasets by exploiting temporal constraints using a high-speed video camera. We tackle this problem by tracking pixels through densely sampled space-time volumes recorded with a high-speed video camera. Our model exploits the linearity of small motions and reasons about occlusions from multiple frames. Using our technique, we are able to establish accurate reference flow fields outside the laboratory in natural environments. Besides, we show how our predictions can be used to augment the input images with realistic motion blur. We demonstrate the quality of the produced flow fields on synthetic and real-world datasets. Finally, we collect a novel challenging optical flow dataset by applying our technique on data from a high-speed camera and analyze the performance of state of the art in optical flow under various levels of motion blur. Second, we investigate how to learn sophisticated models from unlabeled data. Unsupervised learning is a promising direction, yet the performance of current unsupervised methods is still limited. In particular, the lack of proper occlusion handling in commonly used data terms constitutes a major source of error. While most optical flow methods process pairs of consecutive frames, more advanced occlusion reasoning can be realized when considering multiple frames. We propose a framework for unsupervised learning of optical flow and occlusions over multiple frames. More specifically, we exploit the minimal configuration of three frames to strengthen the photometric loss and explicitly reason about occlusions. We demonstrate that our multi-frame, occlusion-sensitive formulation outperforms previous unsupervised methods and even produces results on par with some fully supervised methods. Both directions are essential for future advances in optical flow. While new datasets allow measuring the advancements and comparing novel approaches, unsupervised learning permits the usage of new data sources to train better models.

Das Dokument erscheint in: