Beyond the tracked line of sight: Gaze-driven user models

Geisler, David

Publikationsdienste
→
TOBIAS-lib - Publikationen und Dissertationen
→
7 Mathematisch-Naturwissenschaftliche Fakultät
→
Dokumentanzeige

dc.contributor.advisor	Kasneci, Enkelejda (Prof. Dr.)
dc.contributor.author	Geisler, David
dc.date.accessioned	2021-01-29T10:30:23Z
dc.date.available	2021-01-29T10:30:23Z
dc.date.issued	2021-01-29
dc.identifier.other	1746018496	de_DE
dc.identifier.uri	http://hdl.handle.net/10900/112228
dc.identifier.uri	http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1122280	de_DE
dc.identifier.uri	http://dx.doi.org/10.15496/publikation-53604
dc.identifier.uri	http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1122282	de_DE
dc.description.abstract	Die visuelle Wahrnehmung des Menschen ist einer der bedeutendsten, aber dennoch begrenzten sensorischen Inputs. Ein kleines Nervengewebe - die Netzhaut - auf der Rückseite eines optischen Apparates - des Augapfels - sorgt für einen kontinuierlichen Fluss visueller Informationen über unsere Umwelt. Die visuellen Wahrnehmungsfähigkeiten der Netzhaut unterscheiden sich jedoch je nach betroffener Region erheblich. Kurz gesagt, eine kleine Region in der Mitte der Netzhaut - die Fovea - sorgt für hohe Sehschärfe und das maximal wahrnehmbare Farbspektrum. Mit zunehmender Exzentrizität wird die visuelle Wahrnehmung der Netzhaut jedoch sukzessive unempfindlicher gegenüber räumlichen und spektralen Kontrasten. Dies ermöglicht dem Menschen eine hochentwickelte foveale Wahrnehmung, die jedoch auf einen kleinen Bereich im Gesichtsfeld beschränkt ist. Um diese Beschränkung zu überwinden, bewegt der Mensch jedoch seine Augen und kann so seine visuelle Aufmerksamkeit schnell und sequentiell auf bedeutende Szenenbereiche verlagern. Die sich daraus ergebenden Augenbewegungen können mit modernsten videobasierten Blickverfolgungssystemen aufgezeichnet und ausgewertet werden. In dieser Arbeit wird ein vollständiger Hard- und Softwarestapel vorgestellt, um die Pupillenposition des Benutzers aufzuzeichnen und die Sichtlinie des Benutzers - die imaginäre Linie zwischen fokussiertem Szenenpunkt und Fovea - in 3D vorherzusagen. Die getrackte Sichtlinie liefert jedoch lediglich die Ausrichtung der fovealen Aufmerksamkeit des Benutzers. Die visuelle Wahrnehmung des Menschen bleibt jedoch weit hinter einer geraden Linie zurück. Obwohl die Fovea die höchste visuelle Kapazität bietet und im Allgemeinen mit dem Zentrum der visuellen Aufmerksamkeit zusammenfällt, ist die foveale Wahrnehmung weder räumlich ausreichend durch eine Sichtlinie charakterisiert, noch ist die visuelle Wahrnehmung auf die Fovea beschränkt. Vielmehr wird das gesamte Gesichtsfeld kontinuierlich unterschwellig abgetastet und mit einem imaginären Bild der Szene in Einklang gebracht. So gleichen hochentwickelte und anspruchsvolle kognitive Prozesse den empfangenen visuellen Reiz mit dem erwarteten Szenenbild aus. Abhängig von der ausgeführten Aufgabe, der Absicht, der Erfahrung, der Müdigkeit und vielen anderen Faktoren werden verschiedene retinal extrahierte visuelle Merkmale betont, unterdrückt, neu kombiniert und abstrahiert. Dieser reziproke Prozess der Extraktion retinaler visueller Merkmale (bottom-up) und der Auswahl und Interpretation höherer kognitiver Prozesse (top-down) ist das Prinzip der Fixationszielidentifikation und des bewusst wahrgenommenen Szeneninhalts. Um die visuelle Wahrnehmung des Benutzers zu beurteilen, ist es daher entscheidend, das gesamte Gesichtsfeld des Benutzers zu bewerten und den visuellen Stimulus, die retinale Fähigkeit und die kognitive Situation einzubeziehen. Diese Arbeit stellt neuartige blickgesteuerte Benutzermodelle zur Verfügung, um die von der Netzhaut extrahierten visuellen Stimuli über das gesamte Gesichtsfeld und die kognitive Situation des Benutzers vorherzusagen. Diese umfassende Evaluierung der visuellen Wahrnehmung des Benutzers über die bloße verfolgte Blickrichtung hinaus ermöglicht anspruchsvolle HCI- und HRI-Anwendungen, die die visuelle Wahrnehmung des Benutzers und sein Situationsbewusstsein in ihre Schnittstellen integrieren, um natürliche, benutzerzentrierte und intelligente Kollaborationssysteme zu ermöglichen.	de_DE
dc.description.abstract	The human visual perception is one of the most significant but limited sensory input. A small nerve tissue -- the retina -- on the back on an optical apparatus -- the eyeball -- provides a continuous flow of visual information of our environment. Yet, the retinal visual perception capabilities differ significantly depending on the affected region. In a nutshell, a small region in the center of the retina -- the fovea -- provides high acuity and the maximal perceivable color spectrum. However, with increasing eccentricity, the retinal visual perception becomes successively less sensitive to spatial and spectral contrasts. This provides humans with a highly developed foveal perception, yet limited to a small area in the field of view. To overcome this limitation, humans move their eyes, rapidly shifting their visual attention towards significant scene areas. The ensuing eye movements can be recorded and evaluated by state-of-the-art video-based eye-tracking systems. This thesis presents a full hardware and software stack to record the user's pupil position and to predict the user's line of sight -- the imaginary line between focused scene point and fovea -- in 3D. However, the tracked line of sight merely provides the alignment of the user's foveal attention. Yet, human visual perception goes far behind a straight line. Although the fovea offers the highest visual capacity and generally coincides with the center of visual attention, foveal perception is neither sufficiently spatially characterized by a line of sight nor is visual perception limited to the fovea. Rather, the entire visual field is continuously and subliminally scanned and reconciled with a mental image of the scene. Thus, highly developed and sophisticated cognitive processes equalize the received visual stimulus with the anticipated scene image. Hence, retinal extracted visual features are differently emphasized, suppressed, recombined, and abstracted, depending on the performed task, intention, experience, fatigue, and many other factors. This reciprocal process of retinal visual feature extraction (bottom-up) and the selection and interpretation of higher cognitive processes (top-down) is the principle of fixation target identification and consciously perceived scene content. Thus, to assess the user's visual perception, it is crucial to evaluate the user's whole field of view and to incorporate the visual stimulus, retinal capability, and cognitive state. This thesis provides novel gaze-driven user models to predict the retinal extracted visual stimuli over the entire field of view and the user's cognitive situation. This comprehensive evaluation of the user's visual perception beyond the mere tracked line of sight enables sophisticated Human–computer interaction (HCI) and Human–robot interaction (HRI) applications that integrate the user's visual perception and situation awareness into their interfaces, to enable natural, user-centric, and intelligent collaboration systems.	en
dc.language.iso	en	de_DE
dc.publisher	Universität Tübingen	de_DE
dc.rights	ubt-podok	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de	de_DE
dc.rights.uri	http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en	en
dc.subject.classification	Mensch-Maschine-Kommunikation , Bildverarbeitung , Maschinelles Lernen , Biometrie	de_DE
dc.subject.ddc	500	de_DE
dc.subject.ddc	004
dc.subject.other	Fahrerbeobachtung	de_DE
dc.subject.other	Fahrerassistenzsysteme	de_DE
dc.subject.other	Advanced Driver Assistance Systems	en
dc.subject.other	Driver Monitoring	en
dc.subject.other	Eye-Tracking	en
dc.title	Beyond the tracked line of sight: Gaze-driven user models	de_DE
dc.type	PhDThesis	de_DE
dcterms.dateAccepted	2020-12-22
utue.publikation.fachbereich	Informatik	de_DE
utue.publikation.fakultaet	7 Mathematisch-Naturwissenschaftliche Fakultät	de_DE

Dateien:	main_print.pdf 466. MB PDF Beschreibung: PDF as printed

Das Dokument erscheint in:

7 Mathematisch-Naturwissenschaftliche Fakultät [5035]

Zur Kurzanzeige

Veröffentlichen

Stöbern

Gesamter Bestand
Diese Sammlung

Mein Benutzerkonto

Einloggen

Beyond the tracked line of sight: Gaze-driven user models

DSpace Repositorium (Manakin basiert)

Das Dokument erscheint in:

Stöbern

Gesamter Bestand

Diese Sammlung

Mein Benutzerkonto