Learning 3D LiDAR Object Detection without Human Annotations

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/166495
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1664950
http://dx.doi.org/10.15496/publikation-107822
Dokumentart: Dissertation
Erscheinungsdatum: 2025-06-11
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Geiger, Andreas (Prof. Dr.)
Tag der mündl. Prüfung: 2025-05-08
DDC-Klassifikation: 004 - Informatik
Freie Schlagwörter:
LiDAR
Object Detection
Self-Supervised
Lidar Scene Flow
Lidar Motion Segmentation
Lidar simulation
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Das Aufkommen von Deep Learning (DL) hat das Feld der Computer Vision revolutioniert, indem es Maschinen in die Lage versetzt hat, Menschen in einer Vielzahl von Aufgaben zu übertreffen. Insbesondere im Bereich des autonomen Fahrens (AD) und der Fahrerassistenzsysteme (ADAS) wird DL erfolgreich für zahlreiche Aufgaben angewendet, wie Objekterkennung, Segmentierung, Vorhersage, Trajektorienplanung undviele andere. Um optimale Leistung, Sicherheit und Zuverlässigkeit von AD-Systemen zu gewährleisten, müssen DL-Methoden rigoros auf großen und abwechslungsreichen Datensätzen trainiert und getestet werden. Dies stellt eine Herausforderung dar, aufgrund der Komplexität und erforderlichen Variabilität der Datensätze sowie der Kosten, die mit der Erfassung ausreichender Daten seltener, aber kritischer Ereignisse verbunden sind. Eine Möglichkeit, dieses Problem zu adressieren, ist die Simulation, die große Mengen synthetischer Daten zu einem Bruchteil der Kosten der realen Datenerfassung erzeugen kann. Außerdem hat sie den Vorteil, dass alle Systemeinflüsse vollständig und unabhängig kontrolliert werden können, was eine eingehende Analyse des Systemverhaltens in Bezug auf Änderungen in der Umgebung ermöglicht, ohne Menschenleben oder teure Prototypenzu gefährden. In der Vergangenheit hat die Simulation realistischer Light Detection and Ranging (LiDAR)-Daten weniger Aufmerksamkeit erhalten als die Simulation fotorealistischer Bilder. Daher präsentieren wir ein physikalisch basiertes LiDAR-Simulationsmodell, das in der Lage ist, realistische LiDAR-Daten zu erzeugen, und verwenden es, um verschiedene DL-Modelle für die LiDAR-Objekterkennung zu trainieren und zu evaluieren, wobei wir unsere Methode mit anderen starken Baselines vergleichen. Dies stellt denersten wesentlichen Beitrag dieser Arbeit dar. Eine der größten Herausforderungen in der Simulation besteht darin, ein Maß an Realismus zu erreichen, das sicherstellt, dass Methoden sowohl in simulierten als auch inrealen Umgebungen konsistent funktionieren, sodass Erkenntnisse aus der Simulation in die reale Welt übertragen werden können. Ein alternativer, ebenso kosteneffizienter Ansatz zur Gewinnung großer Mengen annotierter Daten besteht darin, selbstüberwachtes Lernendirekt auf Daten aus der Zielumgebung anzuwenden, wodurch das Risiko unrealistischerDaten (zum Beispiel durch Simulationsartefakte) verhindert wird. Selbstüberwachtes Lernen nutzt die inhärente Struktur der Daten, um Trainingssignale zu erzeugen, ohne dass menschliche Annotationen erforderlich sind. Daher schlagen wir in dieser Arbeiteine neuartige Methode des selbstüberwachten Lernens vor, die die Bewegungsschätzung pro Punkt nur aus Roh-LiDAR-Datensequenzen lernt. Zusätzlich zeigen wir, dass unsere Methode in der Lage ist, sich bewegende Objekte in der Szene zu segmentieren und diese Informationen zu nutzen, um die Bewegungsschätzung zu verbessern. Unsere Methode wird auf drei verschiedenen Datensätzen evaluiert und übertrifft unsere starken Baselines. Diese neuartige Methode stellt den zweiten wesentlichen Beitrag dieser Arbeit dar. Bewegungsinformationen sind eine mächtige Informationsquelle für AD-Systeme. Im Wesentlichen sind alle sich bewegenden Objekte in der Szene für das AD-System relevant, da sie das Potenzial haben, die Trajektorie des Fahrzeugs direkt zu beeinflussen. Dieses Potenzial erstreckt sich jedoch über bewegte Objekte hinaus und umfasst auch solche, die die Fähigkeit zur Bewegung haben, d.h. alle beweglichen Objekte. Unter Verwendung der oben genannten selbstüberwachten punktweisen Bewegungsschätzung schlagen wir eineneuartige Methode vor, die iterativ alle beweglichen Objekte in der Szene entdeckt. Dies ermöglicht es uns, LiDAR-Objektdetektoren ohne menschliche Annotationen zu trainieren, was besonders im AD Bereich nützlich ist, wo die Gewinnung von gelabelten Daten teuer und zeitaufwendig ist. Wir vergleichen unsere Methode mit mehreren anderen starken Baselines und zeigen, dass unsere Methode mit identischen Hyperparamtern den Standder Technik auf vier verschiedenen Datensätzen für zwei verschiedene Objektdetektoren verbessert. Dies stellt den letzten wesentlichen Beitrag dieser Dissertation dar.

Abstract:

The emergence of Deep Learning (DL) has revolutionized the field of computer vision, by allowing machines to outperform humans across a wide range of tasks. In particular in the domain of Autonomous Driving (AD) and Advanced Driver Assistance Systems(ADAS), DL has been successfully applied to a multitude of tasks, such as object detection,segmentation, tracking, prediction, trajectory planning and various others. To guarantee optimal performance, safety and reliability of AD systems, DL methods have to be trained and tested rigorously on large and diverse datasets. This presents a challenge, due to the complexity and variability of real-world environments, as well as the costs associated with acquiring sufficient data of rare but critical events. One way to address this issue lies in simulation, which can generate large volume sof synthetic data at a fraction of the cost of real-world data acquisition. Furthermore, simulation provides the benefit of allowing complete and independent control over all influences on the system, allowing for in-depth analysis of the system’s behavior w.r.t. to changes in the environment, without endangering human lives or expensive equipment. In the past, simulation of realistic Light Detection and Ranging (LiDAR) data has not received as much attention as simulation of photorealistic images. Therefore, we present a physically-based LiDAR simulation model that is capable of generating realistic LiDAR data, and use it to train and evaluate various DL models for LiDAR object detection, comparing our method against other strong baselines. This represents the first major contribution of this thesis. One of the most significant challenges in simulation is attaining a level of realism that ensures that methods perform consistently in both simulated and real-world environments, allowing for transfer of insights from simulation to the real world. An alternative, equally cost-efficient approach to obtain large amounts of annotated data is to employ self-supervised learning on data from the target domain directly, eliminating the risk of unrealistic data such as simulation artifacts. Self-supervised learning exploits the inherent structure of the data to produce supervision signals for training, without the need for any human annotation. Therefore, in this thesis we propose a novel self-supervised learning method that learns per-point motion estimation from raw LiDAR data sequences only. Additionally, we demonstrate that our method is able to segment moving objects in the scene and use this information to improve the motion estimation task. Our method is evaluated on three different datasets and outperforms our strong baselines. This novel method marks the second major contribution of this thesis. Motion cues are a powerful source of information for AD systems. Essentially, all moving objects in the scene are of interest to the AD system, as they have the potential to directly influence the vehicle’s trajectory. However, this potential extends beyond moving objects, and includes those that have the capability to move, i.e. all movable objects. Using the self-supervised per-point motion estimation mentioned above, we propose a novel method that iteratively discovers all movable objects in the scene. This enables us to train state-of-the-art LiDAR object detectors without the need for any human annotation, which is especially useful in AD, where obtaining labeled data is expensive and time-consuming. We compare our method against several other strong baselines and demonstrate that our method improves over the state-of-the-art on four different datasets, using two different object detectors and identical hyperparameters for all settings, which represents the final major contribution of this thesis.

Das Dokument erscheint in: