Inhaltszusammenfassung:
Kürzlich wurde das erste In-Car Augmented Reality (AR) System eingeführt. Das
System beinhaltet das Rendern von verschiedenen 3D Objekten auf einem Live-Video,
welches auf einem Zentraldisplay in der Mittelkonsole des Fahrzeuges angezeigt
wird. Ziel dieser Arbeit ist es ein System zu entwickeln, welches nicht nur 2D-Videos
augmentieren kann, sondern eine 3D-Rekonstruktion der aktuellen Fahrzeugumgebung
erstellen kann. Dies ermöglicht eine Vielzahl von verschiedenen Anwendungen,
u.a. die Anzeige dieses 3D-Scans auf einem Head-mounted Display (HMD) als Teil
einer Mixed Reality (MR) Anwendung. Eine MR-Anwendung bedarf einer überzeugenden
und immersiven Darstellung der Umgebung mit einer hohen Renderfrequenz.
Wir beschränken uns auf eine einzelne Front-Stereokamera, welche vorne am Auto
verbaut oder montiert ist, um diese Aufgabe zu bewältigen. Hierzu fusionieren wir
die Stereomessungen temporär.
Zuerst analysieren wir von Grund auf die Effekte der temporalen Stereofusion.
Wir schätzen die erreichbare Genauigkeit ab und zeigen Einschränkungen der temporalen
Fusion und unseren Annahmen auf. Wir leiten außerdem ein 1D Extended
Information Filter und ein 3D Extended Kalman Filter her, um Stereomessungen temporär
zu vereinen. Die Filter verbesserten den Tiefenfehler in Simulationen wesentlich.
Die Ergebnisse der Analyse integrieren wir in ein neuartiges 3D-Rekonstruktions-
Framework, bei dem jeder Punkt mit einem Filter modelliert wird. Das sog. “Warping”
von Pixeln von einem Bild zu einem anderen Bild ermöglicht die temporäre Fusion
von Messungen nach einem Clustering-Schritt, welcher uns erlaubt verschiedene
Tiefenebenen pro Pixel gesondert zu betrachten.
Das Framework funktioniert als punkt-basierte Rekonstruktion oder alternativ
als mesh-basierte Erweiterung. Hierfür triangulieren wir Tiefenbilder, um die 3DSzene
nur mit RGB- und Tiefenbildern als Input auf der GPU zu rendern. Wir
können die Eigenschaften von urbanen Szenen und der Kamerabewegung ausnutzen,
um Pixel zu identifizieren und zu rendern, welche nicht mehr in zukünftigen
Frames beobachtet werden. Das ermöglicht uns diesen Teil der Szene in der größten
beobachteten Auflösung zu rekonstruieren. Solche Randpixel formen einen Schlauch
(“Tube”) über mehrere Frames, weshalb wir dieses Mesh als Tube Mesh bezeichnen.
Unser Framework erlaubt es uns auch die rechenintensiven Filter-Propagationen
komplett auf die GPU auszulagern. DesWeiteren demonstrieren wir ein Verfahren,
um einen vollen, dynamischen, virtuellen Himmel mithilfe der gleichen Kamera
zu erstellen, welcher ergänzend zu der 3D-Szenenrekonstruktion als Hintergrund
gezeigt werden kann.
Wir evaluieren unsere Methoden gegen andere Verfahren in einem umfangreichen
Benchmark auf dem populären “KITTI Visual Odometry”-Datensatz und dem synthethischen
SYNTHIA-Datensatz. Neben Stereofehlern im Bild vergleichen wir auch
die Performanz der Verfahren für die Rekonstruktion von bestimmten Strukturen
in den Referenz-Tiefenbildern, sowie ihre Fähigkeit die Erscheinung der 3D-Szene
aus unterschiedlichen Blickwinkeln vorherzusagen auf dem SYNTHIA-Datensatz.
Unsere Methode zeigt signifikante Verbesserungen des Disparitätsfehlers sowie des
Bildfehlers aus unterschiedlichen Blickwinkeln. Außerdem erzielen wir eine so hohe
Rendergeschwindigkeit, dass die Anforderung der Bildwiederholrate von modernen
HMDs erfüllt wird. Zum Schluss zeigen wir Herausforderungen in der Evaluation
auf, untersuchen die Auswirkungen des Weglassens einzelner Komponenten
unseres Frameworks und schließen mit einer qualitativen Demonstration von unterschiedlichen Datensätzen ab, inklusive der Diskussion von Fehlerfällen.
Abstract:
Recently, the first in-car augmented reality (AR) system has been introduced to the
market. It features various virtual 3D objects drawn on top of a 2D live video feed,
which is displayed on a central display inside the vehicle. Our goal with this thesis is
to develop an approach that allows to not only augment a 2D video, but to reconstruct
a 3D scene of the surrounding driving environment of the vehicle. This opens up
various possibilities including the display of this 3D scan on a head-mounted display
(HMD) as part of a Mixed Reality (MR) application, which requires a convincing
and immersive visualization of the surroundings with high rendering speed. To
accomplish this task, we limit ourselves to the use of a single front-mounted stereo
camera on a vehicle and fuse stereo measurements temporally.
First, we analyze the effects of temporal stereo fusion thoroughly. We estimate the
theoretically achievable accuracy and highlight limitations of temporal fusion and
our assumptions. We also derive a 1D extended information filter and a 3D extended
Kalman filter to fuse measurements temporally, which substantially improves the
depth error in our simulations. We integrate these results in a novel dense 3D
reconstruction framework, which models each point as a probabilistic filter. Projecting
3D points to the newest image allows us to fuse measurements temporally after a
clustering stage, which also gives us the ability to handle multiple depth layers per
pixel.
The 3D reconstruction framework is point-based, but it also has a mesh-based
extension. For that, we leverage a novel depth image triangulation method to render
the scene on the GPU using only RGB and depth images as input. We can exploit
the nature of urban scenery and the vehicle movement by first identifying and then
rendering pixels of the previous stereo camera frame that are no longer seen in the
current frame. These pixels at the previous image border form a tube over multiple
frames, which we call a tube mesh, and have the highest possible observable resolution.
We are also able to offload intensive filter propagation computations completely
to the GPU. Furthermore, we demonstrate a way to create a dense, dynamic virtual
sky background from the same camera to accompany our reconstructed 3D scene.
We evaluate our method against other approaches in an extensive benchmark on
the popular KITTI visual odometry dataset and on the synthetic SYNTHIA dataset.
Besides stereo error metrics in image space, we also compare how the approaches
perform regarding the available depth structure in the reference depth image and
in their ability to predict the appearance of the scene from different viewing angles
on SYNTHIA. Our method shows significant improvements in terms of disparity
and view prediction errors. We also achieve such a high rendering speed that we can
fulfill the framerate requirements of modern HMDs. Finally, we highlight challenges
in the evaluation, perform ablation studies of our framework and conclude with a
qualitative showcase on different datasets including the discussion of failure cases.