Analysis and Visualization of Gene Expression Data

DSpace Repository


Dateien:
Aufrufstatistik

URI: http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-60819
http://hdl.handle.net/10900/49643
Dokumentart: Dissertation
Date: 2011
Language: English
Faculty: 7 Mathematisch-Naturwissenschaftliche Fakultät
Department: Informatik
Advisor: Nieselt, Kay (Dr.)
Day of Oral Examination: 2011-11-30
DDC Classifikation: 004 - Data processing and computer science
Keywords: Bioinformatik , Visualisierung , Genexpression
Other Keywords: Visuelle Analytik , Biologische Netzwerke
Bioinformatics , Gene Expression Analysis , Visualization , Biological Networks , Visual Analytics
License: Publishing license excluding print on demand
Show full item record

Inhaltszusammenfassung:

Die heutigen Methoden der Genexpressionsanalyse erlauben die Datenerfassung mit zunehmender Geschwindigkeit und Qualität. Hochdurchsatzverfahren wie DNA-Microarrays und Sequenzierungsverfahren der zweiten Generation haben zahlreiche neue Entdeckungen ermöglicht. Zusammen mit Ergebnissen aus Verfahren der Proteom- und Metabolomanalyse stehen große Datenmengen zur Verfügung, zusätzlich ergänzt durch viele Annotationen und Metadaten. Im Rahmen von Genexpressionsstudien müssen diese Daten oft mit visuellen Methoden untersucht und analysiert werden. In dieser Arbeit werden dazu neue Methoden und Konzepte für die Visualisierung von Genexpressionsdaten im Kontext von Metainformationen und Ergebnissen anderer Technologien vorgestellt. Zunächst werden Standardvisualisierungsmethoden für Resequenzierungs-Microarrays diskutiert. Zum Zwecke der Anwendung von generischen und angepassten Visualisierungsmethoden auf entsprechende Daten wird das Programm ResqMi ("Resequencing using Microarrays") vorgestellt. ResqMi bietet neue Möglichkeiten für die Qualitätskontrolle, Analyse und Nachbearbeitung der Daten. Der Fokus dieser Arbeit liegt auf der Visualisierung von Genexpressionsdaten. Zunächst werden einige Visualisierungsmethoden für Genexpressionsdaten im Kontext von Metainformationen aus Prozessierungsergebnissen und externen Quellen - etwa Funktionsannotationen - vorgestellt. Zur Darstellung von geclusterten Genexpressionsprofilen werden Profillogos verwendet, die das Konzept der Sequenzlogos für die Darstellung von Expressionsdaten erweitern. Chromogramme und Tag Clouds, Visualisierungstools für verschiedene Aspekte von nominalen Daten, werden hier kombiniert genutzt, um Muster in Annotationen von Genexpressionsdaten zu finden. Außerdem werden zur Visualisierung von nominalen und ordinalen Metainformationen geeignete erweiterte tabellenartige Ansichten verwendet: die Term Pyramid bzw. Probe Rank Plots. Die graphenbasierte Visualisierung von Genexpressionsdaten ist generischer und bietet viele zusätzliche Möglichkeiten und wird im Weiteren näher verfolgt. Viele Anwendungen für die Visualisierung biologischer Pathways nutzen nicht alle Möglichkeiten für die Darstellung von Genexpressions- und Metadaten. Hier werden verschiedene Möglichkeiten zur Einbeziehung von Genexpressionsdaten in die Darstellung biologischer Daten untersucht. Sowohl spezielle Anwendungen für die Darstellung biologischer Pathways (in KEGG- und BioPax-Format) als auch MGV ("Mayday Graph Viewer") werden vorgestellt. MGV ist ein generisches Tool, das die Visualisierung vieler verschiedener biologischer Netzwerke mit vielen Optionen innerhalb einer mächtigen Oberfläche ermöglicht. Verschiedene Strategien für die Erzeugung, Strukturierung und Analyse innerhalb dieses Programmes werden vorgestellt. Außerdem wird die Integration von Daten aus unterschiedlichen Studien und Technologien in MGV untersucht. Dynamische Gruppen von Knoten, die mit Daten aus verschiedenen Quellen angereichert sind, sind die Ausgangsbasis für datensatzübergreifende Analysen. Weitere Anwendungen umfassen unter anderem die Analyse von Metabolomik-Daten, der Vergleich von Clusterings und die Visualisierung von Genmodellen.

Abstract:

Today, gene expression data is acquired with increasing speed with increasing quality and depth. High throughput technologies like DNA microarrays and next generation sequencing technologies have led to a rising pace of new discoveries in the biomedical field. These technologies are complemented by high throughput pipelines for proteomics and metabolomics profiling. Altogether, vast amounts of primary measured data, complementary data from other omics and meta information from many sources is available for researchers. This data needs to be jointly analyzed and visualized in context of external data and meta information. In this thesis, new tools and concepts are introduced for the purpose of visualizing gene expression data in the context of meta information and complementary data from other "omics" experiments. First, the application of generic visualization tools to resequencing microarrays, which are used for finding mutations in single genes is discussed. For this final step of gene expression analysis, an application called ResqMi, ("Resequencing using Microarrays") is presented that allows to use generic and adapted visualization tools on resequencing microarrays, in order to improve quality control, data analysis and revision of problematic base calls. The focus of this work is on the visualization of gene expression data. Here, new tools for the visualization of gene expression data in the context of meta information from processing results and external sources, like functional annotations are introduced. For the visualization of clustered gene expression data, profile logos extend the concept of sequence logos to expression data. Chromograms and tag clouds, tools for visualizing different properties of collections of nominal data are applied in combination in order to explore temporal, spatial and other patters in annotations of gene expression data. Furthermore, enhanced tabular views of summarized gene annotations and genes ranked by statistical values are discussed for comparative visualization of textual and numeric meta data. Graph based visualizations of gene expression and meta data are more generic and investigated in greater detail. Most tools for visualizing biological pathways do not make full use of gene expression or meta information data. Here, a variety of ways to include gene expression data into biological network visualizations is investigated and implemented, based both on the node rendering and the layout of the graph. This allows dense, high dimensional visualizations. Specialized tools that are optimized for working with pathways in KEGG and BioPax formats, are presented as well as MGV (the Mayday Graph Viewer), a general tool for visualizing a wide range of biological networks that offers a full range of options within a rich, extensible user interface. Options for integration and creation of network data, data organization and analysis within the graph framework are investigated. MGV furthermore incorporates tools for integrating data from several datasets, which allows to combine multiple "omics" data in one visualization. With dynamic groups that can contain nodes with data from all sources, cross dataset analyses can be performed. Further applications include the integration of metabolomics data, clustering comparisons and the visualization of gene models.

This item appears in the following Collection(s)