Inhaltszusammenfassung:
Die vorliegende Arbeit beschäftigt sich mit der Verwendung von Landmarken für Navigationsaufgaben. Hierbei wird vor allem das Wiederfinden bekannter Orte anhand visueller Information untersucht, das als "visuelles Heimfinden" (engl. "visual homing") oder "visuelle Zielanfahrt" bezeichnet wird und eine wichtige Fähigkeit sowohl für Tiere als auch für mobile Roboter darstellt. Abweichend vom alltäglichen Sprachgebrauch werden in dieser Arbeit als Landmarken nicht einzelne Objekte verwendet wie z.B. ein weithin sichtbarer Kirchturm, sondern so genannte "Ortssignaturen". Diese werden aus der lokal verfügbaren Sensorinformation mit Hilfe weniger Verarbeitungsschritte extrahiert.
Das so genannte "Schnappschuss-Modell" von Cartwright und Collett geht davon aus, dass Honigbienen ein nur geringfügig verarbeitetes panoramisches Bild als Repräsentation von wichtigen Orten wie z.B. den Bienenstock oder eine Futterquelle verwenden. Nagetiere hingegen vertrauen hauptsächlich auf geometrische Merkmale, um Orte wieder zu erkennen. Die Analyse und der Vergleich von Bild- und geometrischer Landmarkeninformation bezüglich ihrer Verwendung für das visuelle Heimfinden mit Hilfe mobiler Roboter ist ein zentraler Bestandteil dieser Arbeit. Hierfür wurden geeignete Sensoren und Algorithmen entwickelt:
In Kapitel 1 wird zunächst ein Sensor für einen kleinen Tischroboter vorgestellt, der mit Hilfe kegelförmiger Spiegelflächen und nur einer Videokamera die Aufnahme panoramischer Stereobilder ermöglicht. Durch Auswertung der Stereobilder können "Disparitätssignaturen" extrahiert werden, die - da Disparitäten (als Disparitäten werden Verschiebung zwischen korrespondierenden Bereichen des Stereobildes bezeichnet) leicht in Distanzen zu umgebenden Objekten umgerechnet werden können - unmittelbar mit der Geometrie der Aufnahmeorte verknüpft sind. Anschließend wird ein Algorithmus zum Heimfinden anhand von Disparitätssignaturen vorgestellt. Im Vergleich zu einem bereits bestehenden Bild-basierten Ansatz besitzt das Verfahren eine wesentlich größere Invarianz gegenüber Beleuchtungsveränderungen, jedoch kleinere "Fangbereiche" (der Fangbereich einer Ortssignatur ist der Teil der Umgebung, innerhalb dessen eine Rückkehr zum Zielort möglich ist) in der verwendeten Umgebung. Die anschließenden Untersuchungen zur Genauigkeit von Bild- und Disparitäts-basiertem Heimfinden unter Berücksichtigung von Bildstörungen lassen u.a. Aussagen darüber zu, an welchen Positionen Ortsignaturen gespeichert werden sollten, um ein Wiederfinden mit großer Präzision zu erreichen. Das Kapitel wird abgeschlossen durch die Beschreibung eines neuronalen Netzes, das ein durch die Bewegung des Roboters induziertes mittleres Flussfeld bestimmt.
Die Verwendung der Fouriertransformation für den Vergleich panoramischer Bilder wird in Kapitel 2 untersucht. Es wird ein Algorithmus zur effizienten Bestimmung der Relativorientierung in Sub-Pixel-Auflösung beschrieben, dessen Komplexität linear von der Zahl der Fourierkoeffizienten abhängt. Darauf aufbauend wird eine Methode für visuelles Heimfinden entwickelt und mit einem bekannten Bild-basierten Verfahren verglichen. Das Fourier-basierte Heimfinden zeichnet sich durch geringen Speicherbedarf und Rechenaufwand aus, besitzt jedoch kleinere Fangbereiche.
Kapitel 3 gibt eine mathematische Beschreibung panoramischer Stereosensoren mit nur einer Kamera für axialsymmetrische Spiegelflächen. Dabei werden sowohl die Auswirkungen von Kamerafehlstellungen als auch die Abhängigkeit der Abbildungsqualität von der verwendeten Spiegelgeometrie untersucht. Hierfür wird die Lage der virtuellen Bild- und Kameraknotenpunkte berechnet. Als Spezialfall wird ein Stereosensor für einen autonomen mobilen Roboter vorgestellt, der im Vergleich zu dem kleineren, in Kapitel 1 beschriebenen Sensor eine deutlich größere Stereobasis und bessere Bildqualität besitzt.
In Kapitel 4 wird ein biologisch motiviertes aktives Stereokamerasystem vorgestellt, das mit Hilfe von Vergenzbewegungen die globale Bildkorrelation maximiert und anschließend lokale Disparitäten bestimmt. Im Vergleich zu panoramischen Stereosensoren wird infolge des begrenzten Sichtfeldes und der verbesserten Auflösung eine deutlich realistischere Modellierung des Stereosehens bei Säugetieren möglich. Dem System liegt eine Erweiterung des binokularen Energiemodells zugrunde, das wesentliche neurophysiologische Befunde zu Disparitäts-selektiven Zellen im visuellen Kortex von Katzen und Affen erklären kann. Die Auswirkung der verwendeten zusätzlichen Normalisierung wird durch Berechnung von Wahrscheinlichkeitsdichten der neuronalen Aktivität für "Random-Dot"-Stereo-Stimuli untersucht. Es wird u.a. gezeigt, dass die normalisierten Neurone vergleichbare Tuningkurven (bezüglich der Stimulusdisparität) besitzen wie nicht-normalisierte Komplexzellen, die Varianz der Zellaktivität jedoch deutlich geringer ausfällt.
Abstract:
This thesis deals with the use of landmarks for navigation tasks. The main focus is on "visual homing", i.e. the ability to return to known places by means of visual information, which is important for both animals and mobile robots. In contrast to everyday use, not single objects - like e.g. a church tower easily visible from a distance - but locally available "place signatures" are used as landmarks. Place signatures are values that are extracted from the current sensor readings using low level processing.
The snapshot model of Cartwright and Collett assumes that honeybees use only slightly processed panoramic images as representations of important places like the hive or the location of a food source. Rodents, however, mainly use geometric cues to recognize places. Investigation and comparison of the use of images and geometric information for visual homing with mobile robots are central points of this thesis. Special sensors and algorithms have been developed for this purpose:
In chapter 1 a vision sensor for a small robot is presented. Using conical mirrors, this sensor allows to capture panoramic stereo images with a single camera. From the stereo images "disparity signatures" can be extracted. Since disparities (disparities are shifts between corresponding regions in the stereo image) can be easily converted into distances, disparity signatures are directly related to the geometry of a place. An algorithm for visual homing with disparity signatures is presented. In comparison to an already existing image-based approach, disparity-based homing is significantly more robust with respect to illumination changes. However, it exhibits smaller "catchment areas" (the catchment area is the region of the environment in which visual homing succeeds) in the environment used for the experiments. Considering sensor noise, the accuracy of visual homing with both image and disparity signatures is investigated. The results can be used to select places where an accurate return is possible. Finally a simple neural network is presented that learns the mean optical flow field induced by straight robot movements.
The use of the Fourier transform for the comparison of panoramic images is discussed in chapter 2. An algorithm for fast orientation estimation with sub-pixel resolution is presented. Its complexity depends linearly on the number of Fourier coefficients. Based on the fast orientation estimation an efficient visual homing procedure is described. Fourier-based homing requires clearly less memory and computational resources but has smaller catchment areas than an already existing image-based approach.
Chapter 3 introduces a mathematical description of panoramic stereo sensors with a single camera and axially symmetrical reflective surfaces. Effects of camera misalignments on image distortions are discussed. By calculation of virtual image points and effective viewpoints it is investigated how the shape of the reflective surface influences the imaging quality of a sensor. As an example a panoramic stereo sensor for a mid-size mobile robot is presented. It possesses a much bigger stereo base line and better imaging quality than the smaller stereo sensor described in chapter 1.
A biologically motivated active stereo camera system is presented in chapter 4. The system carries out vergence movements in order to maximize global image correlation. Afterwards local disparities are calculated. In comparison to panoramic stereo sensors the stereo camera system has limited field of view but higher resolution and allows more realistic modeling of stereo vision in mammals. It is based on an extension of the binocular energy model, which can explain most of the neurophysiological findings on disparity tuned neurons in the visual cortex of cats and monkeys. In order to investigate the effect of the suggested normalization in more detail, probability density functions of complex cell activity for random-dot stereo stimuli are calculated. It is shown that the normalization permits a significantly better disparity estimation since the complex cell activity is considerably less contrast-dependent. Normalized complex cells have similar tuning curves (with respect to stimulus disparity) as non-normalized complex cells
but much smaller variance of their activity.