Wissensentdeckung in Datenbanken mit Assoziationsregeln

DSpace Repositorium (Manakin basiert)

Zur Kurzanzeige

dc.contributor.advisor Güntzer, Ulrich de_DE
dc.contributor.author Hipp, Jochen de_DE
dc.date.accessioned 2004-03-04 de_DE
dc.date.accessioned 2014-03-18T10:12:21Z
dc.date.available 2004-03-04 de_DE
dc.date.available 2014-03-18T10:12:21Z
dc.date.issued 2003 de_DE
dc.identifier.other 110518772 de_DE
dc.identifier.uri http://nbn-resolving.de/urn:nbn:de:bsz:21-opus-11221 de_DE
dc.identifier.uri http://hdl.handle.net/10900/48559
dc.description.abstract Die Datenanalyse mittels Assoziationsregeln ist eines der am häufigsten eingesetzten Data Mining-Verfahren und geht auf Arbeiten der Forschergruppe um Rakesh Agrawal am Forschungszentrum der IBM in Almaden, Kalifornien, USA, zurück. Dort wurden Anfang der neunziger Jahre Assoziationsregeln als Methode der Abhängigkeitsanalyse eingeführt und erste Algorithmen zur Assoziationsregelgenerierung entwickelt. In der vorliegenden Arbeit werden die etablierten Verfahren zur Generierung von Assoziationsregeln analysiert und systematisiert, wodurch ein besseres Verständnis der in der Literatur bisher nicht im Zusammenhang dargestellten Verfahren möglich wird. In Verbindung mit einer umfassenden Evaluierung der Laufzeiten und des Speicherbedarfs führt dies zu einer Neubewertung der Ansätze. Darauf aufbauend werden neue Verfahren zur Generierung von Assoziationsregeln abgeleitet. Diese beruhen auf einer optimierten Beschneidung des Suchraums, auf einem hybriden Vorgehen und auf der Einbeziehung einer eventuell vorhandenen Taxonomie. Im Rahmen einer Evaluierung erreichen die neu entwickelten Algorithmen in vielen Experimenten wesentlich kürzere Laufzeiten und einen geringeren Speicherbedarf als die bisherigen Algorithmen. Die vorgeschlagenen Verfahren sind insgesamt deutlich effizienter als die bisher bekannten Ansätze, insbesondere falls eine Taxonomie zu den Analysedaten zur Verfügung steht. In Verbindung mit der Effizienz der Verfahren steht die Integration der Regelgenerierung in den Wissensentdeckungsprozeß. Ein iterativer und interaktiver Prozeß setzt kurze Antwortzeiten voraus, die von den Verfahren auf großen Datenmengen oft nicht erreicht werden können. Für diese von algorithmischen Aspekten in den Hintergrund gedrängte Problematik wird im Rahmen der vorliegenden Arbeit ein Regelcache als Lösung vorgeschlagen. Der Regelcache ist so aufgebaut, daß dieser auch für viele Anfragen gültig bleibt, die Selektionen der zugrundeliegenden Datensätze beinhalten, und dadurch für solche Anfragen nicht neu initialisiert werden muß. de_DE
dc.description.abstract Data analysis using association rules belongs to the fundamental data mining approaches and was introduced as a method aiming at dependency analysis by Rakesh Agrawal at the IBM Research Center in Almaden, California, USA. In this thesis, the established algorithms for association rule mining are analyzed and systemized. The chief goal is to learn more about the algorithms that thus far have not been described coherently. Together with the results of an exhaustive evaluation of runtime and memory usage, this leads to a changed appreciation of the different approaches. On the basis of the results obtained, new algorithms for the generation of association rules are developed. These algorithms rely on an optimized pruning of the search space, a hybrid approach, and the incorporation of a potentially available taxonomy. In a multitude of experiments carried out during a comprehensive evaluation, the new algorithms achieved not only much shorter runtimes but also a greatly reduced memory usage as compared to established approaches. All in all, the algorithms introduced are much more efficient than conventional approaches, in particular when a taxonomy on the data is available. Aligned with the efficiency of the algorithms is the aspect of integrating the rule generation into the process of knowledge discovery. An iterative and interactive process assumes short response times that cannot be reached by the algorithms on very huge datasets. For this often neglected problem, an extended rule cache is proposed. This rule cache stays valid even for many mining queries that include selections of the underlying data. Hence, for such queries, the cache does not need to be reinitialized. en
dc.language.iso de de_DE
dc.publisher Universität Tübingen de_DE
dc.rights ubt-podno de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=de de_DE
dc.rights.uri http://tobias-lib.uni-tuebingen.de/doku/lic_ohne_pod.php?la=en en
dc.subject.classification Data Mining , Wissensextraktion de_DE
dc.subject.ddc 004 de_DE
dc.subject.other Wissensentdeckung in Datenbanken , Wissensentdeckungsprozess , Assoziationsregeln de_DE
dc.subject.other Knowledge Discovery in Databases , Process of Knowledge Discovery , Data Mining , Association Rules en
dc.title Wissensentdeckung in Datenbanken mit Assoziationsregeln de_DE
dc.title Knowledge discovery in databases with association rules en
dc.type PhDThesis de_DE
dc.date.updated 2005-02-22 de_DE
dcterms.dateAccepted 2003-12-17 de_DE
utue.publikation.fachbereich Sonstige - Informations- und Kognitionswissenschaften de_DE
utue.publikation.fakultaet 7 Mathematisch-Naturwissenschaftliche Fakultät de_DE
dcterms.DCMIType Text de_DE
utue.publikation.typ doctoralThesis de_DE
utue.opus.id 1122 de_DE
thesis.grantor 17 Fakultät für Informations- und Kognitionswissenschaften de_DE

Dateien:

Das Dokument erscheint in:

Zur Kurzanzeige