Learning Data-Driven Representations for Robust Monocular Computer Vision Applications

Herdtweck, Christian

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Bülthoff, Heinrich (Prof. Dr.)	de_DE
dc.contributor.author	Herdtweck, Christian	de_DE
dc.date.accessioned	2014-01-30	de_DE
dc.date.accessioned	2014-03-18T10:28:41Z
dc.date.available	2014-01-30	de_DE
dc.date.available	2014-03-18T10:28:41Z
dc.date.issued	2013	de_DE
dc.identifier.other	400304198	de_DE
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-72121	de_DE
dc.identifier.uri	http://hdl.handle.net/10900/50017
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-500174	de_DE
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-500177	de_DE
dc.description.abstract	For computer vision applications, one crucial step is the choice of a suitable representation of image data. Learning such representations from observed data using machine learning methods has allowed computer vision applications to be applied in a wider range of every-day scenarios. Three new representations for applications using data from a single camera are presented in this work together with algorithms for learning these from training data. The first two representations are applied to image sequences taken by a single camera located in a moving vehicle. By calculating optical flow and representing the resulting vector field as point in a learned linear subspace greatly simplifies the interpretation of the flow. It allows not only to estimate the vehicle's self-motion by means of a learned linear mapping, but also to identify independently moving objects, wrong flow vectors, and cope with missing vectors in homogeneous image regions. The second representation uses work in object detection and circular statistics to estimate the orientation of observed objects. Orientation knowledge is represented as a multi-modal probability distribution in a circular space, which allows to capture ambiguities in the mapping from appearance to orientation. This ambiguity can be resolved in further processing steps, the use of a particle filter for temporal integration and consistent orientation tracking is presented. Extending the filtering framework to include object position, orientation, speed and front wheel angle, results show improved tracking of other vehicles observed by a moving camera. The third new representation aims at capturing the gist of an image, mimicking the first stages of human visual processing. Having formed after only a few hundred milliseconds, this gist forms the basis for further visual processing. By combining algorithms for surface orientation estimation, object detection, scene type classification and viewpoint estimation with general knowledge in an iterative fashion, the proposed algorithm tries to form a consistent, general-purpose representation of a single image. In several psychophysical experiments, it is shown that the horizon is part of this visual gist in humans and that several queues are important for its estimation by human and machine.	en
dc.description.abstract	Die vorliegende Arbeit stellt drei neue datengetriebene Darstellungen von Bildern und Bildsequenzen für Anwendungen im Bereich des maschinellen Bildverstehens vor. Die ersten beiden Darstellungen finden ihre Anwendungen in der Interpretation von Bildsequenzen, die von einem bewegten Fahrzeug mit einer einzelnen Kamera aufgenommen werden. Durch Projektion des optischen Flusses zwischen aufeinanderfolgenden Bildern in einen erlernten Subraum von Flussvektoren wird die Behandlung von fehlenden Beobachtungen, Fehlern in der Flussberechnung, Fluss von bewegten Objekten und anderen Verletzungen des Interpretationsmodells auf natürliche Weise ermöglicht. Der Anteil des optischen Flusses, der durch die Eigenbewegung der Kamera erzeugt wurde, kann durch eine erlernte lineare Abbildung auf Rotation und Vorwärtsbewegung des Fahrzeugs abgebildet werden. Die zweite Repräsentation nutzt Ergebnisse der Objekterkennung und Statistik auf zirkulären Variablen um den Ansichtswinkel auf Objekte zu schätzen und in Form einer multimodalen Verteilung darzustellen. Dies erlaubt, die Mehrdeutigkeiten im Zusammenhang zwischen Aussehen und Orientierung eines Objekts korrekt der weitern Verarbeitung zuzuführen. Eine zeitliche Integration solcher Verteilungen durch einen Partikelfilter wird vorgestellt, die eine konsistente Zustandsverfolgung von Ansichtswinkeln ermöglicht. Es wird weiter gezeigt, dass die Verfolgung von Position, Orientierung, Geschwindigkeit und Radeinschlag eines Fahzeugs von einer bewegten Kamera aus verbessert werden kann, indem man mehrdeutige Ansichtswinkelschätzungen hinzufügt. Um die Erzeugung einer ganzheitlichen ’Quintessenz’ (engl.: ’gist’) eines Bildes geht es im letzten Teil der Arbeit. Laut Forschungsergebnissen zur menschlichen Wahrnehmung entsteht diese Darstellung im menschlichen Gehirn innerhalb weniger hundert Millisekunden und bildet die Basis für die weitere Verarbeitung des Gesehenen. Dies wird durch einen Algorithmus nachgebildet, der Ergebnisse von Oberflächenorientierungsschätzung, Objekterkennern, Szenentypklassifikatoren, und Schätzungen von Kamerahöhe und -Neigung mit erlerntem Vorwissen kombiniert, indem er iterativ eine Auswahl von Teilergebnissen zusammenstellt, die konsistent zueinander sind. In mehreren Experimenten wird gezeigt, dass der Horizont im Bild Teil dieser Darstellung ist und untersucht welche Informationsquellen zu seiner Schätzung in Mensch und Computer benutzt werden.	de_DE
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Maschinelles Sehen , Bildverstehen , Wegmessung , Psychophysik , Objektverfolgung , Visuelle Orientierung , Maschinelles Lernen , Objekterkennung	de_DE
dc.subject.ddc	004	de_DE
dc.subject.other	Visuelle Odometrie , Eigenbewegungsschätzung , Orientierungsschätzung , Fluchtpunktschätzung	de_DE
dc.subject.other	Computer Vision , Machine Learning , Self-Motion Estimation , Horizon Estimation , Object Orientation Estimation	en
dc.title	Learning Data-Driven Representations for Robust Monocular Computer Vision Applications	en
dc.title	Erlernen von datengetriebenen Repräsentationen für Anwendungen des monokularen Bildverstehens	de_DE
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2013-08-26	de_DE
utue.publikation.fachbereich	Informatik	de_DE
utue.publikation.fakultaet	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE
dcterms.DCMIType	Text	de_DE
utue.publikation.typ	doctoralThesis	de_DE
utue.opus.id	7212	de_DE
thesis.grantor	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE

Dateien:	thesis_korrigiert.pdf 41.0 MB PDF

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [5109]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Learning Data-Driven Representations for Robust Monocular Computer Vision Applications

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto