dc.contributor.advisor |
Papies, Dominik (Prof. Dr.) |
|
dc.contributor.author |
Fuhr, Jonathan Bernhard |
|
dc.date.accessioned |
2025-06-11T11:50:36Z |
|
dc.date.available |
2025-06-11T11:50:36Z |
|
dc.date.issued |
2025-06-11 |
|
dc.identifier.uri |
http://hdl.handle.net/10900/166492 |
|
dc.identifier.uri |
http://nbn-resolving.org/urn:nbn:de:bsz:21-dspace-1664926 |
de_DE |
dc.identifier.uri |
http://dx.doi.org/10.15496/publikation-107819 |
|
dc.description.abstract |
Die Verfügbarkeit enormer Datenmengen und die Entwicklung leistungsfähiger Algorithmen für maschinelles Lernen (ML) haben viele wissenschaftliche Disziplinen erheblich verändert. Die primär datengetriebenen Methoden des maschinellen Lernens sind jedoch nur begrenzt dazu geeignet, kausale Fragen anhand von Beobachtungsdaten zu beantworten, da hierfür üblicherweise Annahmen erforderlich sind, die durch wissenschaftliche Theorien gestützt werden. Dennoch haben Forscher in den vergangenen Jahren mehrere Ansätze vorgeschlagen, die ML einsetzen, um einige der gängigen Annahmen für kausale Inferenz abzuschwächen. Die grundlegende statistische Theorie für viele dieser Ansätze wurde zwar entwickelt, aber für anwendungsorientierte Forscher ist oft nicht unmittelbar ersichtlich, wie gut diese Methoden in realistischen Situationen funktionieren, unter welchen Umständen sie scheitern könnten und wie plausibel die zugrundeliegenden Annahmen sind.
Um diese Lücke zu schließen, arbeitet diese Dissertation einige dieser neuen Entwicklungen aus einer sozialwissenschaftlichen Perspektive auf, untersucht sie empirisch, erweitert sie für komplexere Situationen und wendet sie an.
Der erste Aufsatz (Kapitel 2) evaluiert, wie die populäre Methode des Double/Debiased Machine Learning (DML) es ermöglicht, bei der Schätzung von kausalen Effekten flexibel für andere Einflussgrößen zu kontrollieren. Gleichzeitig zeigt dieses Kapitel die Auswirkungen verschiedener Forscherentscheidungen bei Anwendung der Methode auf und liefert konkrete Empfehlungen für die bestmögliche Umsetzung in der Praxis.
Der zweite Aufsatz (Kapitel 3) erörtert und analysiert die Herausforderungen bei der Anpassung von DML für Situationen, in denen Paneldaten verfügbar sind und unbeobachtete Heterogenität vorliegen könnte. Letztendlich schlägt dieser Beitrag einen Ansatz basierend auf Correlated Random Effects vor, der sowohl mit unbeobachteter Heterogenität als auch mit nichtlinearen beobachtbaren Störeinflüssen umgehen kann.
Nach einem Überblick über die grundlegenden Konzepte auf dem Forschungsgebiet Causal Discovery wird im dritten Beitrag (Kapitel 4) anhand von Simulationen und Anwendungen gezeigt, dass das Erlernen von kausaler Struktur aus Beobachtungsdaten in den Sozialwissenschaften eine große Herausforderung darstellt und starke Annahmen erfordert, die schwer zu überprüfen sind.
Zusammenfassend zeigt diese Dissertation, wie sich kausale Inferenz und datengetriebene ML-Ansätze in den Sozialwissenschaften ergänzen können, wenn man sie angemessen einsetzt, die zugrundeliegenden und nicht überprüfbaren Annahmen transparent darlegt, und diese anhand von Theorie und Fachkenntnissen für konkrete Anwendungen begründet. Damit bietet diese Arbeit anwendungsorientierten Forschern einen Leitfaden für die Einschätzung und Anwendung neuartiger Methoden, die maschinelles Lernen für kausale Fragen nutzen. |
de_DE |
dc.description.abstract |
The availability of vast amounts of data and the development of powerful machine learning (ML) algorithms have had a major impact on many scientific disciplines. However, mainly data-driven ML methods are limited in their ability to answer causal questions from observational data, for which researchers traditionally rely on assumptions substantiated by scientific theory. Neverthe-less, researchers have recently suggested several approaches that utilize ML to relax some of the conventional assumptions in causal inference. While the general statistical theory for many of these approaches is established, it is not immediately apparent to applied researchers how these methods perform in realistic settings, under which conditions they might fail, and how plausible the underlying assumptions are. To address this gap, this thesis reviews, empirically evaluates, extends, and applies some of these new developments from a social science perspective.
The first paper (Chapter 2) evaluates how the popular double/debiased machine learning (DML) approach enables flexible covariate adjustment when estimating causal effects, demonstrates the impact of various researcher decisions in the implementation process, and provides actionable best practice recommendations for the application of the method.
The second paper (Chapter 3) discusses and assesses the challenges of extending DML to set-tings with panel data and unobserved heterogeneity, finally suggesting that a strategy with predic-tors based on the correlated random effects approach can handle both the unobserved heteroge-neity and nonlinear observed confounding.
After reviewing the basic concepts of the causal discovery field, the third paper (Chapter 4) through simulation and application finds that learning causal structure from observational data in social science is very challenging and requires strong assumptions that are difficult to assess.
In sum, this dissertation demonstrates how causal inference and data-driven ML approaches can complement each other in social science, provided that researchers use them within appropriate frameworks, clarify the underlying untestable assumptions, and justify these from theory and do-main knowledge for specific applications. In doing so, this thesis offers guidance to applied re-searchers for how to evaluate and apply novel methods that use machine learning for causal questions. |
en |
dc.language.iso |
en |
de_DE |
dc.publisher |
Universität Tübingen |
de_DE |
dc.rights |
ubt-podno |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de |
de_DE |
dc.rights.uri |
http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en |
en |
dc.subject.classification |
Maschinelles Lernen , Sozialwissenschaften , Kausales Denken , Ökonometrie |
de_DE |
dc.subject.ddc |
300 |
de_DE |
dc.subject.ddc |
330 |
de_DE |
dc.subject.other |
Kausale Inferenz |
de_DE |
dc.title |
Essays on Using Machine Learning for Causal Inference in Social Science |
en |
dc.type |
PhDThesis |
de_DE |
dcterms.dateAccepted |
2025-05-05 |
|
utue.publikation.fachbereich |
Wirtschaftswissenschaften |
de_DE |
utue.publikation.fakultaet |
6 Wirtschafts- und Sozialwissenschaftliche Fakultät |
de_DE |
utue.publikation.noppn |
yes |
de_DE |