Inhaltszusammenfassung:
Im Rahmen des Europäischen Projekts KEI wurde die Universität Tübingen
u.a. mit der Aufgabe betraut, einen mit 42% fehlenden Daten behafteten Datensatz zu rekonstruieren (imputieren), welcher die Grundlage für die Untersuchungen der anderen Partner-Institutionen darstellte.
Angesichts des hohen Anteils fehlender Werte wurde zur Imputation des Datensatzes ein Imputationsmodell ausgewählt, das sich in der Fachliteratur aufgrund seiner hohen Leistungsfähigkeit einer großen Beliebtheit erfreut.
Untersuchungen des Datensatzes haben jedoch ergeben, dass unterschiedliche Verletzungen der in diesem Basis-Modell getroffenen Annahme einer multivariaten Normalverteilung vorlagen, welche die Qualität der Imputationen gefährden konnten. Die Tatsache, dass die Stichproben per Definition von einem geringen Umfang sind, hat die Lage zusätzlich erschwert. Diese Annahmeverletzungen stellen jedoch keine Besonderheit des KEI-Datensatzes dar, sondern werden häufig in realistischen Datenlagen beobachtet.
Diese Arbeit hat sich daher auf sechs beobachtete Probleme konzentriert und versucht, sie weitmöglichst zu beheben:
1) Präsenz von Ausreißern z.B. aufgrund uneinheitlicher Definition der Indikatoren in den untersuchten Ländern.
2) Große Abweichungen der empirischen Verteilungen von der Normalverteiltheit.
3) Variablen meist strikt positiv.
4) Nichtlinearität der Beziehungen zwischen Variablen.
5) Kleine Stichproben.
6) Hoher Anteil an fehlenden Werten (NA's).
Die Vorgeschlagenen Lösungsansätze, welche die Leistungsfähigkeit computerintensiver Methoden wie MCMC-Verfahren und EM-Algorithmus mit modernen ökonometrischen Schätzverfahren kombinieren, versuchen das Basis-Imputationsmodell auf die besonderen Eigenschaften der Daten auszurichten.