Eine freie Initiative von Menschen bei ![]() ![]() ![]() ![]() mit online Lesekreisen, Übungsgruppen, Vorträgen ... |
![]() |
Use Google Translate for a raw translation of our pages into more than 100 languages. Please note that some mistranslations can occur due to machine translation. |
Data-Mining
Unter Data-Mining [ˈdeɪtə ˈmaɪnɪŋ] (von eng. data mining, aus eng. data ‚Daten‘ und eng. mine ‚graben‘, ‚abbauen‘, ‚fördern‘)[1] versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere „Big Data“ bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen. Solche Datenbestände werden aufgrund ihrer Größe mittels computergestützter Methoden verarbeitet. In der Praxis wurde der Unterbegriff Data-Mining auf den gesamten Prozess der sogenannten „Knowledge Discovery in Databases“ (eng. für Wissensentdeckung in Datenbanken; KDD) übertragen, der auch Schritte wie die Vorverarbeitung und Auswertung beinhaltet, während Data-Mining im engeren Sinne nur den eigentlichen Verarbeitungsschritt des Prozesses bezeichnet.[2]
Die Bezeichnung Data-Mining (eigentlich etwa „Abbau von Daten“) ist etwas irreführend, denn es geht um die Gewinnung von Wissen aus bereits vorhandenen Daten und nicht um die Generierung von Daten selbst.[3] Die prägnante Bezeichnung hat sich dennoch durchgesetzt. Die reine Erfassung, Speicherung und Verarbeitung von großen Datenmengen wird gelegentlich ebenfalls mit dem Buzzword Data-Mining bezeichnet. Im wissenschaftlichen Kontext bezeichnet es primär die Extraktion von Wissen, das „gültig (im statistischen Sinne), bisher unbekannt und potentiell nützlich“[4] ist „zur Bestimmung bestimmter Regelmäßigkeiten, Gesetzmäßigkeiten und verborgener Zusammenhänge“.[5] Fayyad definiert es als „ein[en] Schritt des KDD-Prozesses, der darin besteht, Datenanalyse- und Entdeckungsalgorithmen anzuwenden, die unter akzeptablen Effizienzbegrenzungen eine spezielle Auflistung von Mustern (oder Modellen) der Daten liefern“.[2]
Knowledge Discovery in Databases
Knowledge Discovery in Databases (KDD), auf Deutsch Wissensentdeckung in Datenbanken umfasst die Vorbereitung der Daten und die Analyse der Ergebnisse des Data-Minings und gliedert sich in folgende Schritte, die in der Regel mehrmals durchlaufen werden:
- Bereitstellung von Hintergrundwissen für den jeweiligen Fachbereich
- Definition der Ziele der Wissensfindung
- Datenauswahl
- Datenbereinigung
- Datenreduktion (z. B. durch Transformationen)
- Auswahl eines Modells, in dem das gefundene Wissen repräsentiert werden soll
- Data-Mining, die eigentliche Datenanalyse
- Interpretation der gewonnenen Erkenntnisse
Data-Mining-Prozess
Data-Mining ist der eigentliche Analyseschritt des Knowledge Discovery in Databases Prozesses. Die Schritte des iterativen Prozesses sind grob umrissen:[4]
- Fokussieren: die Datenerhebung und Selektion, aber auch das Bestimmen bereits vorhandenen Wissens
- Vorverarbeitung: die Datenbereinigung, bei der Quellen integriert und Inkonsistenzen beseitigt werden, beispielsweise durch Entfernen oder Ergänzen von unvollständigen Datensätzen.
- Transformation in das passende Format für den Analyseschritt, beispielsweise durch Selektion von Attributen oder Diskretisierung der Werte
- Data-Mining, der eigentliche Analyseschritt
- Evaluation der gefundenen Muster durch den Experten und Kontrolle der erreichten Ziele
In weiteren Iterationen kann nun bereits gefundenes Wissen verwendet („in den Prozess integriert“) werden um in einem erneuten Durchlauf zusätzliche oder genauere Ergebnisse zu erhalten.
Siehe auch
- Data-Mining - Artikel in der deutschen Wikipedia
Literatur
- Martin Ester, Jörg Sander: Knowledge Discovery in Databases. Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3-540-67328-8.
- Ian H. Witten, Eibe Frank, Mark A. Hall: Data Mining: Practical Machine Learning Tools and Techniques. 3 Auflage. Morgan Kaufmann, Burlington, MA 2011, ISBN 978-0-12-374856-0 (auf Englisch, Software zum Buch: WEKA, http://www.cs.waikato.ac.nz/~ml/weka/book.html).
- Sholom M. Weiss, Nitin Indurkhya: Predictive Data Mining. A Practical Guide. Morgan Kaufmann, Burlington, MA 1997, ISBN 1-55860-403-0 (auf Englisch).
- Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques. Morgan Kaufmann, Burlington, MA 2011, ISBN 978-0-12-381479-1 (auf Englisch).
- Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine. 17, Nr. 3, 1996, S. 37–54 (auf Englisch, http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf).
Einzelnachweise
- ↑ Eintrag Data-Mining. In: duden.de. Abgerufen am 18. Dezember 2016.
- ↑ Hochspringen nach: 2,0 2,1 Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth: From Data Mining to Knowledge Discovery in Databases. In: AI Magazine. 17, Nr. 3, 1996, S. 37–54 (als PDF auf: kdnuggets.com).
- ↑ Jiawei Han, Micheline Kamber: Data mining: concepts and techniques. 1 Auflage. Morgan Kaufmann, 2001, ISBN 978-1-55860-489-6, S. 5 (Thus, data mining should habe been more appropriately named „knowledge mining from data,“ which is unfortunately somewhat long).
- ↑ Hochspringen nach: 4,0 4,1 Martin Ester, Jörg Sander: Knowledge Discovery in Databases. Techniken und Anwendungen. Springer, Berlin 2000, ISBN 3-540-67328-8.
- ↑ Duden online: Duden: Data-Mining: Bedeutung, Rechtschreibung, Grammatik, Herkunft. Bibliographisches Institut, abgerufen am 9. August 2011.
Dieser Artikel basiert auf einer für AnthroWiki adaptierten Fassung des Artikels Data-Mining aus der freien Enzyklopädie de.wikipedia.org und steht unter der Lizenz Creative Commons Attribution/Share Alike. In Wikipedia ist eine Liste der Autoren verfügbar. |