Inhaltszusammenfassung:
Den meisten psychologischen Modellen zur Kategorisierung liegt der intuitive Begriff der Ähnlichkeit zu Grunde. Stimuli, die ähnlich zueinander sind, werden zusammengruppiert, und Stimuli, die sehr unterschiedlich sind, werden verschiedenen Kategorien zugeordnet. Trotz schwerwiegender theoretischer und experimenteller Probleme mit dem Ähnlichkeitsbegriff verlassen sich sowohl Prototypen-Modelle (Posner & Keele, 1968; Reed, 1972) als auch Exemplar-Modelle (Medin & Schaffer, 1978; Nosofsky, 1986) auf diesen. In dieser Arbeit analysieren wir den Ähnlichkeitsbegriff in psychologischen Kategorisierungsmodellen aus der Perspektive des Maschinellen Lernens.
Kategorierungsmethoden im Maschinellen Lernen modellieren die Ähnlichkeit von Mustern häufig durch einen positiv definiten Kern (Schölkopf & Smola, 2002). Eines der bekanntesten Ähnlichkeitsmaße in der Psychologie, Shepards Gesetz der Generalisierung (Shepard, 1987), ist so ein positiv definiter Kern. Das führt zu zwei Beobachtungen über metrische Ähnlickeitsmodelle.
Erstens: Die ältesten Ähnlichkeitsmodelle repräsentieren Stimuli als Punkte in einem psychologischen Raum, und die Ähnlichkeit der Stimuli ist durch die euklidische Distanz gegeben (Torgerson, 1952; Ekman, 1954). Erst Shepards Arbeiten zur multidimensionalen Skalierung erlaubten es, die Restriktionen des euklidischen Raumes aufzugeben (Shepard, 1962). Später formulierte er sein Generalisierungsgesetz, das den Zusammenhang von Ähnlichkeit und Metrik in einem psychologischen Raum beschreibt (Shepard, 1987). Wir zeigen hier, dass Shepards Gesetz zu einer Einbettung in einen hochdimensionalen euklidischen Raum führt und damit eng mit den ursprünglichen Ähnlichkeitsmodellen verbunden ist.
Zweitens: Ähnlichkeitsmodelle, die auf multidimensionaler Skalierung beruhen, sind scharf kritisiert worden (Beals, Krantz, & Tversky, 1968; Tversky, 1977; Tversky & Gati, 1982). Trotz dieser Kritik waren sie erfolgreich, insbesondere in der Kategorisierungsforschung (Nosofsky, 1986). Tversky und Gati (1982) berichten von Experimenten, die inkonsistent sind mit der geometrischen Standardinterpretation von Ähnlichkeit. Diese Interpretation setzt die Dreiecksungleichung und Segmentadditivität voraus. Wir beschreiben eine Metrik, die auf Shepards Gesetz beruht und ohne Segmentadditivität auskommt. Diese Metrik ist konsistent mit den Daten. Außerdem ist sie nach oben beschränkt und damit passend zu der Intuition, dass Ähnlichkeit am besten lokal definiert wird (Indow, 1994).
Nachdem Shepards Gesetz eine weite Verbreitung in der Kategorisierungliteratur gefunden hat (Nosofsky, 1986; Kruschke, 1992; Love, Medin, & Gureckis, 2004), können auch viele Kategorisierungsmodelle mit positiv definiten Kernen in Verbindung gebracht werden. Wir zeigen zum Beispiel, dass Exemplar-Modelle in der Psychologie eng verwandt sind mit einer Kernmethode, die auf logistischer Regression aufbaut (Hastie, Tibshirani, & Friedman, 2001). Die Verbindung zwischen dieser Kernmethode und Exemplar-Modellen liegt in der Verwendung von neuronalen Netzen mit radialen Basisfunktionen (Poggio & Girosi, 1989; Poggio, 1990).
Ein gewichtiger Einwand gegen Exemplar-Modelle liegt in ihren nicht vorhanden Abstraktionsmechansismen, die auch ihre Generalisierungsfähigkeit in Frage zu stellen scheinen (Smith & Minda, 1998, 2000). Verwandte Kernmethoden werden allerdings mit großem Erfolg im Maschinellen Lernen eingesetzt. Wir zeigen, dass Exemplar-Modelle tatsächlich ein problematisches Generalisierungsverhalten haben können. Wir zeigen aber auch, dass Regularisierungsmethoden, wie sie im Maschinellen Lernen häufig verwendet werden, das Generalisierungsverhalten verbessern können.
Abstract:
Explanations of human categorization behavior often invoke similarity. Stimuli that are similar to each other are grouped together whereas stimuli that are very different are kept separate. Despite serious problems in defining similarity, both conceptually and experimentally, this is the prevailing view of categorization in prototype models (Posner & Keele, 1968; Reed, 1972) and exemplar models (Medin & Schaffer, 1978; Nosofsky, 1986). This is also the prevailing approach in machine learning (Schölkopf & Smola, 2002). In this thesis, we re-examine the notion of similarity as it is used in models for human categorization behavior from a machine learning perspective.
Our current understanding of many machine learning methods has been deepened considerably by the realization that similarity can be modeled as a so-called positive definite kernel. One of the most commonly used similarity measures in psychology, Shepard's universal law of generalization (Shepard, 1987), is shown to be such a positive definite kernel. This leads to two theoretical insights about metric models of psychological similarity.
First, early models of similarity introduced the notion of a psychological space with a Euclidean metric that represents the similarity of stimuli (Torgerson, 1952; Ekman, 1954). Shepard's early work on multidimensional scaling can be understood as an effort to overcome the assumption that the similarity of stimuli is captured by a Euclidean metric (Shepard, 1962). Later, Shepard summarized the relationship between similarity and metrics in many psychological spaces with his universal law of generalization (Shepard, 1987). Ironically, however, this thesis demonstrates that the universal law leads to an embedding of similarity into a high-dimensional Euclidean space and therefore results in a return to those roots of multidimensional scaling that Shepard tried to overcome.
Second, models for similarity that are based on multidimensional scaling have been heavily criticized by Tversky and coworkers (Beals, Krantz, & Tversky, 1968; Tversky, 1977; Tversky & Gati, 1982). Despite this criticism scaling methods have been used with great success, especially in categorization research (Nosofsky, 1986). Tversky and Gati (1982) reported data that are inconsistent with standard geometric interpretations of similarity that assume the triangle inequality and segmental additivity. Here, it is shown that there are metrics induced by Shepard's law of generalization that do not have the property of segmental additivity. These metrics are therefore consistent with the data. These metrics are also bounded from above, thereby implementing the intuition that stimulus similarity is best defined locally (Indow, 1994).
As Shepard's law is used extensively in psychological models of categorization (Nosofsky, 1986; Kruschke, 1992; Love, Medin, & Gureckis, 2004) the insight that similarity can be modeled as a positive definite kernel can also benefit a theoretical analysis of categorization behavior. We show that exemplar models in psychology are closely related to kernel logistic regression (Hastie, Tibshirani, & Friedman, 2001). The link between kernel logistic regression and exemplar theories is their use of radial-basis-function neural networks (Poggio & Girosi, 1989; Poggio, 1990).
A traditional concern against exemplar models is their lack of an abstraction mechanism that seemingly limits their generalization performance (Smith & Minda, 1998, 2000). However, kernel logistic regression is used successfully in many applications in machine learning. We find that exemplar theories in psychology are indeed prone to overfitting, i.e. they show poor generalization performance. However, like their relatives in machine learning exemplar models can be equipped with regularization mechanisms that are known to improve generalization performance under real-world category learning conditions.