Inhaltszusammenfassung:
Die vorliegende Arbeit befasst sich mit verschiedenen Methoden der Auswertung von Microarraydaten für die Genexpressionsanalyse. Das Gebiet der Array-basierten Genexpressionsanalyse ist ein sehr umfangreiches und sich schnell entwickelndes Feld. Es handelt sich hierbei um ein Hochdurchsatzverfahren bei dem sehr große Datenmengen erzeugt werden. Die Art der Daten und ihre Menge erfordern die Verknüpfung zahlreicher Methoden aus Informatik, Mathematik und Biologie, um das Ziel einer anspruchsvollen Auswertung erreichen zu können.
Der Schwerpunkt dieser Arbeit liegt dabei auf einer geeigneten Verknüpfung informatischer, graphischer und mathematisch-statistischer Methoden.
Sie untergliedert sich in drei Teile:
Teil I gibt einen Einblick in verschiedenste Arraytechnologien, sowohl zum derzeitigen Stand der Genexpressionsanalyse mit Arrays (Kapitel 1), wie auch zu anderweitig eingesetzten und zukünftigen Arrayanwendungen (Kapitel 2). Ziel dieses Teils ist die Darstellung der Grundlage, auf der die auszuwertenden Daten entstehen und ein Überblick der vorhandenen technologischen Vielfalt und Breite der Arraytechnologie in den Lebenswissenschaften.
Teil II entwickelt zwei grundlegende Leitlinien, die sich aus den Anforderungen an die Auswertung derart großer und komplexer Datensätze ergeben. Folgerichtig entsprechen diesen Leitlinien zwei umfangreiche Projekte, die in Rahmen dieser Arbeit entstanden sind: Mayday ist eine große, allgemeine Anwendungsplattform, die eine Vielzahl von Verfahren unterschiedlicher Bereiche integriert (Kapitel 3 und 4). Sie entspricht der einen Linie.
Die komplexe Natur der Daten erfordert den Zugriff auf zahlreiche Auswertungsverfahren innerhalb einer gemeinsamen Plattform und über eine einheitliche Nutzerschnittstelle. Kapitel 5 beschreibt dies beispielhaft für die Integration statistischer Verfahren, sowie die gegebenen Randbedingungen innerhalb von Mayday im spezielleren und Java im allgemeineren.
SpRay steht als Vertreter für die zweite Linie: spezialisiertere, kleinere Anwendungen, die auf hohe Leistung und effizienten Umgang mit Speicherplatz hin optimiert sind. Avisierter Anwendungsbereich von SpRay ist die explorative, stark graphisch gestützte Analyse von Daten. Dabei stellt es eine prototypische
Anwendung des neuen Gebiets der Visual Analytics dar, die durch eine sehr enge Verzahnung von Visualisierung, Statistik und Datenorganisation
gekennzeichnet ist.
In beiden Projekten wurde sehr hoher Stellenwert auf eine geeignete graphische und interaktive Aufbereitung und Darstellung der Daten und ihrer Analyseresultate gelegt. Für eine weitergehende Zusammenfassung sei hier auf
die Kurzübersicht zu Teil II auf Seite 29 verwiesen.
Teil III stellt die Anwendung der Arraytechnologie innerhalb der medizinischen Forschung in den Vordergrund. Anhand der Entwicklung einer kompletten Microarray-Plattform für die Genexpressionsanalyse von inflammatorischen und mit der Stressantwort assoziierten Genen werden Anforderungen und Lösungen erläutert. Dieses Projekt erfolgte in Kooperation mit dem Zentrum für Klinische Transfusionsmedizin Tübingen (ZKT). Ziel war, eine vollständige Pipeline vom Entwurf des Arrays, über die Durchführung des Experiments, bis hin zur Auswertung und deren Validierung zu etablieren. Dabei lag die statistische Versuchsplanung, die Datenorganisation und -verwaltung, sowie die Entwicklung, die Anwendung und Etablierung passender Auswertungsverfahren
im Verantwortungsbereich des Autors dieser Arbeit.
Neben den Vorversuchen und deren Validierung (Kapitel 7) erfolgt auch eine Darstellung des erfolgreichen Einsatzes dieser Pipeline im Rahmen von zwei Studien aus der Sportmedizin (Kapitel 8) und der Psychiatrie (Kapitel 9). Dabei konnte die Funktionsfähigkeit und Brauchbarkeit der entwickelten Array-Plattform und ihrer Anwendungspipeline sehr gut untermauert werden. Auch hier sei für eine Zusammenfassung auf die Kurzübersicht zu Teil III auf Seite 153 verwiesen.
Erfahrungen, die während der praktischen Arbeit mit der Array-Plattform gemacht wurden, flossen auch in die Entwicklung von Verfahren, Anwendungen und Modulen ein, die in Teil II erwähnt sind. Insgesamt ergaben sich zwischen allen Teilen enge Wechselbeziehungen, bei denen Erkenntnisse in abgewandelter oder angepasster Form in den anderen Projekten ihren Widerhall fanden.
Abschließend betrachtet sind die zentralen Projekte der Teile II und III gute Ausgangspunkte für weitergehende Anstrengungen. Es konnte jeweils ihre Nützlichkeit, ihre Funktionsfähigkeit und ihr Potential demonstriert werden.
Abstract:
The present work deals with different methods of gene expression analysis for Microarray data. The field of array-based gene expression analysis is vast and rapidly evolving. As a complex high-throughput method it generates large data sets of different data types. This and the ambitious goal of their analysis demands the integration of a variety of methods from computer science, mathematics and biology. Consequently the focus of this work is on the appropriate combination of methods of informatics, graphics, mathematics and statistics.
The work is divided into three parts:
Part I gives an overview and insight into the diversity of array technologies, both for the current state of array-based gene expression analysis (Chapter 1) as well as otherwise established and future array applications (Chapter 2). The aim of this part is the presentation of the width and diversity of array technology in life sciences and their implications for the following parts of the work.
Part II develops two basic guidelines, which result from the requirements for the analysis of such large and complex data sets. Consequently, these guidelines are related to two major projects that are presented in this work. Mayday as a general and large application platform that integrates diverse methods and procedures of different fields corresponds to one line (Chapter 3 and 4). The complex nature of the data requires access to many different analysis methods under a common platform and a consistent, uniform user interface. Chapter 5 describes the integration of different statistical methods in Mayday as an example.
SpRay represents the second line - as an example of specialized, smaller applications, optimized to high performance and efficient use of memory. The aimed scope of SpRay is the graphical exploration of data. It also represents a prototypical application of the recently emerged area of Visual Analytics which closely interconnect visualization, statistics and data organization.
Overall, in both projects, priority was put on a suitable graphical and interactive presentation of the raw data and their derived results. A more detailed summary is given in the overview to Part II on page 29.
Part III presents the application of array technology in the field of medical research and emphasizes the practical benefit of the methods shown in the other parts. In close cooperation with the Institute of Clinical and Experimental Transfusion Medicine University Hospital Tübingen a complete Microarray platform for the gene expression analysis of inflammatory and stress response associated genes was developed and serves as an example for commonly occurring difficulties associated with the application of such methods. The aim was to establish a complete pipeline beginning with the design of the array, on the implementation of the experiment, up to the evaluation and validation of the results. The statistical experimental design, the data organization and management, as well as the development, implementation and establishment of suitable evaluation procedures were in the responsibility of the author of this work. Besides the description of the preliminary tests and their validation (Chapter 7) the successful application in the context of two studies in the field of sports medicine (Chapter 8) and psychiatry (Chapter 9) is demonstrated. Thus the functionality and usability of the developed array platform and its analysis procedure were successfully shown. A further summary to part III can be found on page 153.
Lessons learned during the practical work with the array platform were included in the development of procedures mentioned in Part II and implemented inside different software modules. Overall, emphasis was laid on all interactions between all topics of the work.
As a final overall perspective, the central projects shown in part II and III are a good starting point for further efforts. For each approach its benefit, functionality and great potential could be demonstrated.