Beyond the tracked line of sight: Gaze-driven user models

DSpace Repository


Dateien:

URI: http://hdl.handle.net/10900/112228
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1122280
http://dx.doi.org/10.15496/publikation-53604
Dokumentart: Dissertation
Date: 2021-01-29
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Kasneci, Enkelejda (Prof. Dr.)
Day of Oral Examination: 2020-12-22
DDC Classifikation: 500 - Natural sciences and mathematics
004 - Data processing and computer science
Keywords: Mensch-Maschine-Kommunikation , Bildverarbeitung , Maschinelles Lernen , Biometrie
Other Keywords: Fahrerbeobachtung
Fahrerassistenzsysteme
Advanced Driver Assistance Systems
Driver Monitoring
Eye-Tracking
License: Publishing license including print on demand
Order a printed copy: Print-on-Demand
Show full item record

Inhaltszusammenfassung:

Die visuelle Wahrnehmung des Menschen ist einer der bedeutendsten, aber dennoch begrenzten sensorischen Inputs. Ein kleines Nervengewebe - die Netzhaut - auf der Rückseite eines optischen Apparates - des Augapfels - sorgt für einen kontinuierlichen Fluss visueller Informationen über unsere Umwelt. Die visuellen Wahrnehmungsfähigkeiten der Netzhaut unterscheiden sich jedoch je nach betroffener Region erheblich. Kurz gesagt, eine kleine Region in der Mitte der Netzhaut - die Fovea - sorgt für hohe Sehschärfe und das maximal wahrnehmbare Farbspektrum. Mit zunehmender Exzentrizität wird die visuelle Wahrnehmung der Netzhaut jedoch sukzessive unempfindlicher gegenüber räumlichen und spektralen Kontrasten. Dies ermöglicht dem Menschen eine hochentwickelte foveale Wahrnehmung, die jedoch auf einen kleinen Bereich im Gesichtsfeld beschränkt ist. Um diese Beschränkung zu überwinden, bewegt der Mensch jedoch seine Augen und kann so seine visuelle Aufmerksamkeit schnell und sequentiell auf bedeutende Szenenbereiche verlagern. Die sich daraus ergebenden Augenbewegungen können mit modernsten videobasierten Blickverfolgungssystemen aufgezeichnet und ausgewertet werden. In dieser Arbeit wird ein vollständiger Hard- und Softwarestapel vorgestellt, um die Pupillenposition des Benutzers aufzuzeichnen und die Sichtlinie des Benutzers - die imaginäre Linie zwischen fokussiertem Szenenpunkt und Fovea - in 3D vorherzusagen. Die getrackte Sichtlinie liefert jedoch lediglich die Ausrichtung der fovealen Aufmerksamkeit des Benutzers. Die visuelle Wahrnehmung des Menschen bleibt jedoch weit hinter einer geraden Linie zurück. Obwohl die Fovea die höchste visuelle Kapazität bietet und im Allgemeinen mit dem Zentrum der visuellen Aufmerksamkeit zusammenfällt, ist die foveale Wahrnehmung weder räumlich ausreichend durch eine Sichtlinie charakterisiert, noch ist die visuelle Wahrnehmung auf die Fovea beschränkt. Vielmehr wird das gesamte Gesichtsfeld kontinuierlich unterschwellig abgetastet und mit einem imaginären Bild der Szene in Einklang gebracht. So gleichen hochentwickelte und anspruchsvolle kognitive Prozesse den empfangenen visuellen Reiz mit dem erwarteten Szenenbild aus. Abhängig von der ausgeführten Aufgabe, der Absicht, der Erfahrung, der Müdigkeit und vielen anderen Faktoren werden verschiedene retinal extrahierte visuelle Merkmale betont, unterdrückt, neu kombiniert und abstrahiert. Dieser reziproke Prozess der Extraktion retinaler visueller Merkmale (bottom-up) und der Auswahl und Interpretation höherer kognitiver Prozesse (top-down) ist das Prinzip der Fixationszielidentifikation und des bewusst wahrgenommenen Szeneninhalts. Um die visuelle Wahrnehmung des Benutzers zu beurteilen, ist es daher entscheidend, das gesamte Gesichtsfeld des Benutzers zu bewerten und den visuellen Stimulus, die retinale Fähigkeit und die kognitive Situation einzubeziehen. Diese Arbeit stellt neuartige blickgesteuerte Benutzermodelle zur Verfügung, um die von der Netzhaut extrahierten visuellen Stimuli über das gesamte Gesichtsfeld und die kognitive Situation des Benutzers vorherzusagen. Diese umfassende Evaluierung der visuellen Wahrnehmung des Benutzers über die bloße verfolgte Blickrichtung hinaus ermöglicht anspruchsvolle HCI- und HRI-Anwendungen, die die visuelle Wahrnehmung des Benutzers und sein Situationsbewusstsein in ihre Schnittstellen integrieren, um natürliche, benutzerzentrierte und intelligente Kollaborationssysteme zu ermöglichen.

Abstract:

The human visual perception is one of the most significant but limited sensory input. A small nerve tissue -- the retina -- on the back on an optical apparatus -- the eyeball -- provides a continuous flow of visual information of our environment. Yet, the retinal visual perception capabilities differ significantly depending on the affected region. In a nutshell, a small region in the center of the retina -- the fovea -- provides high acuity and the maximal perceivable color spectrum. However, with increasing eccentricity, the retinal visual perception becomes successively less sensitive to spatial and spectral contrasts. This provides humans with a highly developed foveal perception, yet limited to a small area in the field of view. To overcome this limitation, humans move their eyes, rapidly shifting their visual attention towards significant scene areas. The ensuing eye movements can be recorded and evaluated by state-of-the-art video-based eye-tracking systems. This thesis presents a full hardware and software stack to record the user's pupil position and to predict the user's line of sight -- the imaginary line between focused scene point and fovea -- in 3D. However, the tracked line of sight merely provides the alignment of the user's foveal attention. Yet, human visual perception goes far behind a straight line. Although the fovea offers the highest visual capacity and generally coincides with the center of visual attention, foveal perception is neither sufficiently spatially characterized by a line of sight nor is visual perception limited to the fovea. Rather, the entire visual field is continuously and subliminally scanned and reconciled with a mental image of the scene. Thus, highly developed and sophisticated cognitive processes equalize the received visual stimulus with the anticipated scene image. Hence, retinal extracted visual features are differently emphasized, suppressed, recombined, and abstracted, depending on the performed task, intention, experience, fatigue, and many other factors. This reciprocal process of retinal visual feature extraction (bottom-up) and the selection and interpretation of higher cognitive processes (top-down) is the principle of fixation target identification and consciously perceived scene content. Thus, to assess the user's visual perception, it is crucial to evaluate the user's whole field of view and to incorporate the visual stimulus, retinal capability, and cognitive state. This thesis provides novel gaze-driven user models to predict the retinal extracted visual stimuli over the entire field of view and the user's cognitive situation. This comprehensive evaluation of the user's visual perception beyond the mere tracked line of sight enables sophisticated Human–computer interaction (HCI) and Human–robot interaction (HRI) applications that integrate the user's visual perception and situation awareness into their interfaces, to enable natural, user-centric, and intelligent collaboration systems.

This item appears in the following Collection(s)