Language Grounding in Vision

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/162512
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1625121
http://dx.doi.org/10.15496/publikation-103844
Dokumentart: Dissertation
Erscheinungsdatum: 2025-02-25
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Lensch, Hendrik P. A. (Prof. Dr.)
Tag der mündl. Prüfung: 2024-10-29
DDC-Klassifikation: 004 - Informatik
Freie Schlagwörter:
word embeddings
visual grounding
language and vision
generative AI
figurative langauge visualization
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en
Zur Langanzeige

Inhaltszusammenfassung:

Das Forschungsgebiet “Visuelle Verankerung von Sprache“ befasst sich mit der Konstruktion kognitiv plausibler textueller Sprachrepräsentation unter Berücksichtigung und mit Hilfe der visuellen Perzeption. Trotz zahlreicher früherer Versuche, Sprache visuell zu verankern, bleiben noch viele Forschungsfragen offen. Erstens: Bei der Darstellung ihres semantischen Beziehungsnetzes profitieren Konkreta ganz natürlicherweise von Visueller Verankerung, inwieweit dies jedoch auf Abstrakta übertragbar ist, muss dringend weiter untersucht werden. Die vorliegende Arbeit postuliert den großen Mehrwert Visueller Verankerung für sowohl Konkreta als auch Abstrakta. Wir erörtern einen neuartigen Ansatz, der eine vollständige Fusion der Modalitäten vermeidet und sich stattdessen auf implizite Verankerung fokussiert. Dies erreichen wir durch das Erlernen einer umkehrbaren Abbildung zwischen rein textbasierten und visuell verankerten Repräsentationen mittels Multi-task-Learning. Dieser Prozess gleicht die textuellen Einbettungen mit visuellen Informationen ab, unter Beibehaltung der charakteristischen Verteilung von Wörtern in Textkorpora. Schließlich kann die gelernte Abbildung auch für die Visuelle Verankerung ungesehener Wörter übertragen werden. Dieses schließt sowohl konkrete als auch abstrakte Wörter ein. Zweitens: Der erste Ansatz zur Visuellen Verankerung wird erweitert und vereinfacht, um eine effektivere Darstellung und bessere Interpretierbarkeit zu erreichen. Mit diesem Ansatz können bestehende Denkmodelle zur Interaktion von Sprache und visueller Wahrnehmung genauer beleuchtet werden. Dies beinhaltet unter anderem (1) Wie kann die Lücke zwischen Sprache und visueller Wahrnehmung optimal überbrückt werden? (2) Inwieweit ist wahrnehmungsbasiertes Wissen, extrahiert aus Bildern, für eine kontextualisierte Einbettung moderner Sprachmodelle hilfreich? In neuen Experimenten werden der Einfluss von Konkretheit und Abstraktheit auf die Funktionstüchtigkeit der Modelle als auch das Zusammenspiel struktureller Ähnlichkeiten und semantischer Beziehungen in den visuell verankerten Einbettungen untersucht. Auch hinsichtlich kontextualisierter Einbettungen ganzer Sätze bringt die Visuelle Verankerung Vorteile, die besonders deutlich hervortreten, wenn die Trainings-Korpora beschränkt werden und im Umfang vergleichbar sind zu der Menge, denen Menschen während des Spracherwerbs ausgesetzt sind. Drittens: Die vorgeschlagenen Modelle lassen sich auch auf andere Sprachen und sogar die gleichzeitige Betrachtung mehrerer Sprachen, z.B. Deutsch und Arabisch, ausweiten. Hier wird die Visuelle Verankerung als ein Informationsflaschenhals zwischen den Sprachen eingeführt. Die Ergebnisse deuten darauf hin, dass die Repräsentationen ähnlicher Sprachen wie Englisch und Deutsch durch den Informationsaustausch mittels Visueller Verankerung profitieren, was durch Wortähnlichkeitsmaße und Kategorisierungsgenauigkeit belegt werden kann. Im Anschluss an umfangreiche Studien zu multimodalen Einbettungen widmet sich die Arbeit anderen Anwendungen an der Schnittstelle zwischen Sprache und visueller Repräsentation. Insbesondere zielen wir auf die Visualisierung metaphorischer Sprache ab, die eine entscheidende Rolle bei der Vermittlung abstrakter Konzepte durch konkrete Erfahrungen und Emotionen spielt. Moderne Text-Bild-Modelle haben Schwierigkeiten, aussagekräftige Bilder für abstrakte und bildhafte Ausdrücke zu synthetisieren. Um diese Herausforderung zu meistern, stellen wir ViPE vor: Visualize Pretty-much Everything. ViPE unterstützt Text-Bild-Modelle effektiv bei der Visualisierung beliebiger figurativer und abstrakter Ausdrücke durch eine Übertragung in konkrete Textbausteine. Der Ansatz übersetzt die impliziten Bedeutungen von figurativer Sprache durch eine neue visualisierbare Textbeschreibung und erleichtert so die Visualisierung von figurativer Sprache. Die Entwicklung von ViPE umfasst drei Hauptphasen: (1) Kompilieren eines großen Datensatzes mit ca. 10 Millionen Textzeilen aus Liedtexten, der als reichhaltige Quelle figurativer Sprache dient; (2) Erstellen eines Datensatzes, LyricCanvas, durch Generieren verrauschter visueller Elaborationen für alle Liedtexte unter Verwendung eines Large Language Model (LLM); und (3) Nachtrainieren eines mittelgroßen Sprachmodells auf LyricCanvas zur Gewinnung eines robusten Modells mittels Wissensdestillation. Die leistungsstarke Zero-Shot-Fähigkeit von ViPE ermöglicht den Einsatz in nachgelagerten Anwendungen wie der Generierung von Visualisierungen aus abstrakten Schlüsselwörtern oder der Erstellung von Musikvideos.

Abstract:

Grounding language in vision is an active field of research aiming to construct cognitively plausible language representations by incorporating perceptual knowledge from vision into textual language representations. Despite numerous attempts at language grounding, many research questions remain open. First, although visual grounding proves beneficial in modeling the semantic relationship of concrete words, its impact on abstract words remains uncertain. This thesis argues that visual grounding significantly benefits both concrete and abstract words. For this aim, we propose a novel approach that avoids complete modality fusion and focuses on implicit grounding. We achieve this by learning a reversible mapping between textual and grounded spaces through multi-task learning. This mapping transforms pre-trained textual representations into the grounded space, where they are implicitly aligned with visual information through different language-vision tasks. This process aligns the textual embeddings with visual information while simultaneously preserving the distributional statistics that characterize word usage in text corpora. Finally, the learned mapping is used to construct grounded embeddings for unseen words, both abstract and concrete. Secondly, we enhance our grounding approach to be simpler and more effective, providing greater interpretability. Levering this framework, we shed light on some common concerns at the interplay of language and vision. These concerns include but are not limited to (1) What is the optimal way of bridging the gap between text and vision? (2) To what extent is perceptual knowledge from images advantageous for contextualized embeddings from modern language models? Through novel experiments, We will uncover performance trade-offs between concreteness and abstractness, as well as between similarities and relatedness, arising from the interplay of visual and textual dominance in the grounded embeddings. Moreover, our approach brings forth benefits for contextualized embeddings, particularly evident when trained on corpora of modest, cognitively plausible sizes.Thirdly, we will extend our grounding framework to encompass other languages, demonstrating successful generalization to languages such as German and Arabic. Furthermore, we will establish inter-lingual visual grounding by guiding information flow from textual embeddings into a shared bottleneck, promoting exchange across languages. Our findings indicate that similar languages, such as English and German, benefit from information exchange within the visual grounding context, as evidenced by word similarity and categorization benchmarks. Finally, following our extensive studies on multimodal embeddings, our focus will shift to addressing the limitations of modern networks at the intersection of language and vision. Specifically, we target the visualization of metaphorical language, which plays a crucial role in conveying abstract concepts through concrete experiences and emotions. State-of-the-art text-to-image models struggle to synthesize meaningful images for such abstract and figurative expressions. To tackle this challenge, we introduce ViPE: Visualize Pretty-much Everything. ViPE eliminates the need for human annotations or images with metaphorical content and effectively assists text-to-image models in visualizing figurative and abstract phrases, as well as arbitrary textual input. Our approach unfolds implicit meanings of figurative language through a new visualizable textual description, thereby facilitating the visualization of figurative language. ViPE's development involves three main stages: (1) Compiling a Large Scale Lyric dataset comprising approximately 10 million lines of lyrics, serving as a rich source of figurative language; (2) Constructing a supervised dataset, LyricCanvas, by generating noisy visual elaborations for all lyrics using a Large Language Model (LLM); and (3) Conducting knowledge distillation to build a robust model by fine-tuning lightweight language models on LyricCanvas. ViPE's powerful zero-shot capability enables its use in downstream applications such as synthetic caption generation from keywords, abstract visualizations, and music video generation.

Das Dokument erscheint in: