Inhaltszusammenfassung:
Diese Disseration befasst sich mit dem Problem, robuste, schnelle und präzise Lernmethoden für verrauschte und unvollständige hochdimensionale biologische
Daten durch Kernmethoden (engl. kernel methods) zu finden. Die intuitive Idee hinter diesen Verfahren ist, dass die Daten mithilfe nicht-linearer Kernoperatoren in einen höherdimensionalen Merkmalsraum eingebettet werden. Ein Kernoperator stellt einen rechnerischen Trick dar, der es ermöglicht, lineare Muster wirkungsvoll in hochdimensionalen Räumen abzubilden.
Zu Beginn soll ein kurzer Überblick über die grundlegenden theoretischen Konzepte der kernbasierten Algorithmen gegeben werden, die in dieser Arbeit zur Anwendung kommen. Darin werden auch einige Elemente des statistischen Lernens und der Regularisierungstheorie sowie das Konzept der Kernoperatoren vorgestellt. Anschließend wird die Support-Vektor-Maschine, d. h., der SVM-Algorithmus, aus der Tikhonov-Regulasierung und geometrischen Perspektiven hergeleitet.
Nach dieser Einführung liegt das Augenmerk auf Anwendungen von Kernmethoden für einige Probleme mit hochdimensionalen biologischen Daten: Es wird eine genaue Methode für die Klassifizierung von G-Protein-gekoppelten Rezeptor Familien, (eng. G-Protein Coupled Receptor ,GPCR), entwickelt, insbesondere für die Unterunterfamilie, in der nur eine geringe Anzahl von Proteinsequenzen zur Verfügung steht. Dazu wird ein neuer Ansatz zur Überabtastung der Stichprobe vorgestellt, die Überabtastung synthetischer Proteinsequenzen (engl. Synthetic Protein Sequence Oversampling, SPSO). Die Minderheitenklasse im Datenraum wird dabei unter Berücksichtigung der Verteilung der Mehr- und Minderheitenklassen übermäßig abgetastet, indem SPSO künstliche Proteinsequenzen erzeugt. SPSO kann für Proteinklassifikationsprobleme und zur Erkennung entfernter Verwandtschaften (engl. remote homology) genutzt werden, wobei Klassifikatoren eine entfernte Homologie zwischen einer unbekannten Sequenz und Trainingsdaten in ungleich verteilten Stichproben erkennen müssen.
Eine weitere Fragestellung, die in dieser Arbeit untersucht wird, stellt die Anwendung von Kernmethoden zur Mustererkennung und Klassifikation von Biosonarsignalen, die in der Neurobiologie der Fledermäuse bedeutsam sind, dar. Die Klassifikation der Biosonarsignale wird als Beispiel für zufällige Prozesssignale, die lokale Ähnlichkeit aufweisen, angeführt.
Inspiriert durch die Ergebnisse für die Detektion entfernter Homologien in Proteinfamilien empfiehlt sich ein den Kernoperatoren für Zeichenketten ähnlicher Kernoperator, der die Ähnlichkeit zweier Zeitreihen misst. Zwei Zeitreihen ähneln sich umso mehr, je mehr ähnliche Teilsequenzen sie aufweisen. Weiterhin wird ein allgemeinerer Kernoperator implementiert, der Verzerrungen der Teilsequenzen berücksichtigt. Dieser misst die gesamte Ähnlichkeit aller verzerrten, nicht zusammenhängenden Teilsequenzen der beiden Zeitreihen unabhängig von ihren Positionen. Darüber hinaus lässt sich die optimale Linearkombination von Kernoperatoren identifizieren, wenn eine Menge von Kernoperatoren zur Ähnlichkeitsextraktion in Zeitreihen verschiedener Größen von Teilsequenzen zur Verfügung steht.
Diese Kernoperatoren werden dann direkt in einem SVM-basierten Klassifikator verwendet. Die Ergebnisse zeigen, dass diese Kernel eine sehr zuverlässige Unterscheidung reflektierter Sonarechos verschiedener Objekte erlauben. Zur Klassifikation von Biosonardaten wird ein auf Gradientverstärkung (engl. gradient boosting) basierender Klassifikationsalgorithmus vorgestellt. Zwei Arten von Basislernverfahren für die Gradientverstärkung werden angewendet: Die Methode der gewöhnlichen kleinsten Quadrate (engl. Ordinary Least Squares, OLS) und kernbasierte Lernverfahren. Der Schwerpunkt der hier dargelegten Methode zur Signalvorverarbeitung zum Zwecke der Biosonarklassifikation besteht in der Anwendung einer Filterbank in Analogie zum Hörsystem der Fledermäuse.
Mit dieser Filterbank werden die eindimensionalen Sonarechos in ihrer Dauer verkürzt, aber in informativere multidimensionale Signale konvertiert. So lassen sich effizient genaue Ergebnisse mit dem neu vorgeschlagenen Kernoperator, der auf der Verstärkungsmethode (engl. boosting method) basiert, gewinnen.
Abschließend werden die Kernmethoden zur Klassifikation biologischer Daten eingesetzt, die ein unbekanntes additives Rauschen aufweisen. Ein Beispiel solcher Signale sind Aktivitätsprofile im erzwungenen Schwimmtest (engl. Forced Swimming Test, FST) für die Klassifikation des Tierverhaltens. Auf beschränkten Impulsantworten (engl. Finite Impulse Response, FIR) basierend, werden in dieser Arbeit Klassifikatoren für das Tierverhalten implementiert, in denen das additive Rauschen durch einen Filter für beschränkte Impulsantworten (FIR-Filter) von den Aktivitätsprofilen entfernt wird. Die Parameter der FIR-Filter werden ermittelt, indem die Genauigkeit maximiert wird, mit der ein
Klassifikator zwei Klassen des Aktivitätsprofiles zu separieren versucht. Die hier vorgestellte Methode zur Klassifikation von Verhaltensmustern führt zu einer zuverlässigen Unterscheidung verschiedener Klassen von Antidepressiva (Imipramine und Desipramine).
Abstract:
This thesis addresses the problem of finding robust, fast and precise learning methods for noisy, incomplete high-dimensional biological data by means of so-called kernel methods. Kernel methods are at the heart of many modern machine learning techniques. The intuitive idea behind kernel methods is that the data are nonlinearly mapped into a higher dimensional feature space, related to a nonlinear kernel function. In general, such a procedure has the advantage that inseparable data becomes linearly separable. A kernel function represents a computational trick, which makes it possible to represent linear patterns efficiently in high–dimensional spaces, to ensure adequate representational power.
We begin with a short overview over the basic theoretical concepts, which are necessary to understand the kernel-based algorithms employed in this work. We present some elements of statistical learning and regularization theory and introduce the concept of kernel functions. Then, we derive the Support Vector Machine (SVM) algorithm from Tikhonov regularization and geometric perspectives.
After this we turn our attention to applications of kernel methods for some problems of high-dimensional biological data: To develop an accurate method for the classification of (G-Protein Coupled receptors) GPCRs families, especially at the sub-subfamily level, where we have a low number of protein sequences, we develop a new approach of oversampling, Synthetic Protein Sequence Oversampling (SPSO), in which the minority class in the data space is oversampled by creating synthetic protein sequences, considering the distribution of the minor and major classes. SPSO can be used for protein classification problems and remote homology detection, where classifiers must detect a remote relation between unknown sequence and training data with an imbalance problem.
Another problem from neurobiology of bats, which is surveyed in the content of this thesis, is the pattern recognition and classification of biosonar signals by means of kernel methods. We study the classification of biosonar signals as an example of random process signals which contain local similarities. Inspired by the solutions for remote homology detection in protein families, we suggest a similar kernel to string kernels which measures the similarity of two time series. The more time series share similar subsequences, the more similar they are. We also implement a more general kernel, which considers warping in the subsequences. It measures the whole similarities of all warped non contiguous subsequences of the two time series, independent of their positions. Furthermore, having a set of the kernels for similarity extraction in time-series for different sizes of subsequences, we find the optimal linear combination of kernels. We then use those kernels directly in a SVM-based classifier. The results show that those kernels allow for a very reliable discrimination of reflected sonar echoes from different objects. We also present an algorithm based on gradient boosting for biosonar data classification. We present two kinds of base learners for the gradient boosting: Ordinary Least Squares (OLS) and kernel-based base learners. The main point of the signal preprocessing in our method, for biosonar classification, is using a filter bank like that of the hearing system of bats. With this filter bank, the one-dimensional sonar echoes are converted into shorter length but more informative multi-dimensional signals. We get efficient and accurate results with the newly proposed kernel based boosting method.
As a last application of kernel methods in this thesis, we deal with classification of biological data, having additive unknown noise. Activity profiles in the Forced Swimming Test (FST) for animal behavior classification are examples of those signals. We implement FIR-based classifiers for animal behavior classification in which a Finite Impulse Response (FIR) filter is used to filter out the additive noise from activity profiles. The parameters of the FIR filter are obtained via maximizing the accuracy of a classifier that tries to make a discrimination between two classes of the activity profiles. Our proposed behavior classification method provides a reliable discrimination of different classes of antidepressant drugs (imipramine and desipramine) administered to rats versus a vehicle-treated group.