Towards Robust Machine Learning for Health Applications

DSpace Repositorium (Manakin basiert)


Dateien:

Zitierfähiger Link (URI): http://hdl.handle.net/10900/135158
http://nbn-resolving.de/urn:nbn:de:bsz:21-dspace-1351580
http://dx.doi.org/10.15496/publikation-76509
Dokumentart: Dissertation
Erscheinungsdatum: 2023-01-11
Sprache: Englisch
Fakultät: 7 Mathematisch-Naturwissenschaftliche Fakultät
Fachbereich: Informatik
Gutachter: Pfeifer, Nico (Prof. Dr.)
Tag der mündl. Prüfung: 2022-11-18
DDC-Klassifikation: 004 - Informatik
610 - Medizin, Gesundheit
Schlagworte: Maschinelles Lernen , Gesundheit , Robustheit , Statistik
Freie Schlagwörter:
domain adaptation
age prediction
survival prediction
Lizenz: http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=de http://tobias-lib.uni-tuebingen.de/doku/lic_mit_pod.php?la=en
Gedruckte Kopie bestellen: Print-on-Demand
Zur Langanzeige

Inhaltszusammenfassung:

Methoden des maschinellen Lernens haben über die letzten Jahrzehnte beeindruckende technologische Fortschritte ermöglicht und haben das Potenzial, viele Aspekte unseres Lebens nachhaltig zu verändern. Besonders vielversprechend ist maschinelles Lernen im Gesundheitsbereich. Hier kann es unser Verständnis immer komplexerer Gesundheitsdaten vertiefen, Prozesse wie Diagnostik und Risikoeinschätzung beschleunigen sowie deren Objektivität erhöhen, und eine personalisiertere medizinische Versorgung ermöglichen. Zugleich steht maschinelles Lernen im Gesundheitsbereich vor besonderen Herausforderungen. Gesundheitsdaten sind häufig zeitabhängig und heterogen, über mehrere Institutionen verteilt und nur in begrenztem Umfang für spezifische Modellierungsanwendungen zugänglich. Infolgedessen erfordert das maschinelle Lernen für den Gesundheitsbereich grundsätzlich robuste Methoden, die für heterogene und im Umfang begrenzte Daten geeignet sind, sowie besonders auf die jeweilige Anwendung zugeschnittene Modelle. Diese Dissertation umfasst Beiträge zu beiden dieser Aspekte. Sie enthält neue Methoden zur unüberwachten Domänenadaptation, die speziell für hochdimensionale molekulare Gesundheitsdaten entwickelt wurden und eine genauere Vorhersage über heterogene Datensätze hinweg ermöglichen. Als konkretes Anwendungsbeispiel wurden diese Methoden auf das Problem der Altersvorhersage basierend auf DNA-Methylierungsdaten über Gewebe hinweg angewandt. Im Vergleich zu einem nicht-adaptiven Referenzmodell verbesserten sie hierbei die Vorhersage auf einem Gewebe, das nicht zum Trainieren der Modelle verwendet wurde. Zusätzlich enthält diese Dissertation robuste Modelle zur Analyse von Daten einer frühen klinischen Studie, die die Verwendung von breitneutralisierenden Antikörpern zur Behandlung von HIV untersuchte. Hier wurden Modelle und Methoden gewählt, die trotz des begrenzten Stichprobenumfangs Heterogenität zwischen Patientengruppen berücksichtigen konnten. Ein weiterer anwendungsspezifischer Beitrag war die Entwicklung robuster Modelle zur zeitabhängigen Vorhersage der Mortalität sowie einer Cytomegalievirus-Reaktivierung nach hämatopoetischer Stammzelltransplantation. Diese Modelle wurden in einer prospektiven, nicht-interventionellen klinischen Studie validiert und generierten in einem Pilot-Vergleich eine ähnliche genaue Vorhersage wie die Einschätzung erfahrener Kliniker. Zusätzlich unterstützte diese Dissertation die Entwicklung der XplOit-Plattform, einer Software-Plattform, die robustes maschinelles Lernen für den Gesundheitsbereich durch die semantische Integration heterogener Daten erleichtert.

Abstract:

Machine learning has enabled striking technological advances over the last decades and has the potential to transform many aspects of our lives. Its application is especially promising in the health domain, where it can improve our understanding of increasingly complex health data, accelerate processes such as diagnosis or risk assessment while also making them more objective, and enable a more personalized approach to medicine. At the same time, machine learning for health faces particular challenges. Health data is often temporal and heterogeneous, distributed across many institutions, and accessible only in modest amounts for a specific machine learning application. Consequently, machine learning for health requires generally robust methods capable of handling heterogeneous and limited data and models that are well-tailored to the task at hand. This thesis contributes to both of these aspects. It includes new methods for unsupervised domain adaptation, which were designed for high-dimensional molecular health data and improved prediction across heterogeneous datasets. As a concrete application example, these methods were applied to the problem of age prediction from DNA methylation data across tissues, where they improved age prediction on a tissue not used for model training compared to a non-adaptive reference model. In addition, this thesis includes robust models for the analysis of data from an early clinical trial evaluating the use of broadly neutralizing antibodies for the treatment of HIV, which were suitable to account for heterogeneity between patient groups despite a limited sample size. Another application-specific contribution was the development of robust models for the time-dependent prediction of mortality and early cytomegalovirus reactivation after hematopoietic cell transplantation. These models were validated in a prospective non-interventional clinical trial and demonstrated similar performance as experienced physicians in a pilot comparison. Finally, this thesis supported the development of the XplOit platform, a software platform that facilitates robust machine learning for health by semantically integrating heterogeneous datasets.

Das Dokument erscheint in: