|
|
2D 3D A B C D E F G H I J K L M N O P Q R S T U V W X Y Z |
|
Data Mining ist ein analytischer Prozess, der zur Untersuchung großer Datenmengen (typischerweise aus der Wirtschaft oder Marktforschung) entwickelt wurde, um nach Mustern und/oder systematischen Zusammenhängen zwischen Variablen zu suchen, und diese dann durch Anwendung der entdeckten Muster auf neue Teilmengen der Daten zu validieren. Das Ziel von Data Mining ist die Vorhersage. Prädiktives Data Mining ist der gebräuchlichste Data Mining-Typ, der die meisten direkten Wirtschaftsanwendungen besitzt.
Der Prozess besteht aus drei grundlegenden Schritten: 1) der Datenexploration, 2) der Modellbildung und Mustererkennung mit Validierung/Verifizierung und 3) dem Deployment (d. h. der Anwendung des Modells auf neue Daten, um Vorhersagen zu erstellen).

Schritt 1: Datenexploration. Man beginnt üblicherweise mit der Datenaufbereitung, die die Säuberung der Daten, Transformationen, die Auswahl von Teilmengen und, bei Dateien mit vielen Variablen (Feldern), vorausgehende Operationen zur Feature Selection, wodurch die Zahl der Variablen in einen überschaubaren Rahmen gebracht wird, umfasst. Danach kann der erste Schritt des Data Mining-Prozesses in Abhängigkeit von der Beschaffenheit des Problems eine einfache Auswahl direkter Prädiktoren für ein Regressionsproblem bis zur Ausarbeitung explorativer Analysen mithilfe einer Vielzahl an grafischen und statistischen Methoden mit sich bringen [siehe Explorative Datenanalyse (EDA)], um die wichtigsten Variablen zu identifizieren und die Komplexität und/oder die allgemeine Beschaffenheit von Modellen zu bestimmen, die im nächsten Schritt berücksichtigt werden sollen.
Schritt 2: Modellbildung und Validierung. Dieser Schritt beinhaltet die Berücksichtigung verschiedener Modelle und die Auswahl des besten auf Basis der Qualität der Vorhersage (d. h. der Erklärung der fraglichen Varianz und der Erzeugung robuster Ergebnisse über die Stichproben). Das mag einfach klingen, tatsächlich handelt es sich dabei manchmal um einen aufwändigen Prozess. Es wurden verschiedene Techniken entwickelt, um dieses Ziel zu erreichen. Viele davon basieren auf einem Leistungsvergleich der Modelle, d. h. auf der Anwendung verschiedener Modelle auf die gleichen Daten und dem Vergleich ihrer Güte, um das beste auszuwählen. Diese Techniken, die oft als das Herzstück des prädiktiven Data Mining aufgefasst werden, umfassen: Bagging (Voting, Averaging), Boosting, Stacking (Geschichtete Generalisierung) und Meta-Learning.
Schritt 3: Deployment. In diesem letzten Schritt wird das vorher als das beste ausgewählte Modell auf die neuen Daten angewandt, um Vorhersagen zu erstellen oder erwartete Ergebnisse zu schätzen.
Das Data Mining-Konzept wird immer beliebter als ein Werkzeug zum Management von Wirtschaftsinformationen, von dem man erwartet, dass es Wissensstrukturen aufdeckt, die Entscheidungen bei nur bedingt sicheren Rahmenbedingungen herleiten können. In der letzten Zeit gab es ein gesteigertes Interesse an der Entwicklung neuer Analysetechniken, die speziell auf die für betriebswirtschaftliches Data Mining relevanten Themen zugeschnitten sind (z. B. Klassifikationsbäume, Allgemeine Klassifikation und Regressionsbäume, Allgemeine CHAID-Modelle). Data Mining basiert aber immer noch auf den statistischen Prinzipien, einschließlich der traditionellen explorativen Datenanalyse (EDA) und der Modellierung, und verwendet den gleichen allgemeinen Ansatz und die gleichen Techniken.
Ein wichtiger Unterschied zwischen Data Mining und traditioneller explorativer Datenanalyse besteht bezüglich des Ziels darin, dass sich Data Mining eher an den Anwendungen als an dem Wesen der zugrundeliegenden Phänomene orientiert. Mit anderen Worten, Data Mining beschäftigt sich verhältnismäßig wenig mit der Identifikation bestimmter Zusammenhänge zwischen den Variablen. Die Aufdeckung der Beschaffenheit der zugrundeliegenden Funktionen oder der speziellen Typen interaktiver, multivariater Abhängigkeiten zwischen Variablen sind nicht das Hauptziel des Data Mining. Stattdessen liegt das Hauptaugenmerk auf der Erstellung einer Lösung, die nützliche Vorhersagen erzeugen kann. Data Mining akzeptiert daher auch "Black Box"-Ansätze zur Datenexploration oder zur Aufdeckung von Wissen und verwendet nicht nur die traditionellen Techniken der explorativen Datenanalyse, sondern auch Techniken wie neuronale Netze, die stichhaltige Vorhersagen generieren können, aber nicht in der Lage sind, das Wesen der wechselseitigen Beziehungen zwischen den Variablen, auf denen die Prognosen basieren, zu identifizieren.
Data Mining wird oft als "ein Gemisch von Statistiken, künstlicher Intelligenz und Datenbankrecherche" (Pregibon, 1997, S. 8) aufgefasst, das bis vor kurzem für Statistiker nicht von Interesse war, und bei einigen sogar als "ein böses Wort in der Statistik" (Pregibon, 1997, S. 8) galt. Aufgrund seiner Wichtigkeit entwickelt es sich nun aber als ein schnell wachsendes und wichtiges Gebiet (auch in der Statistik), in dem wichtige theoretische Fortschritte gemacht wurden (siehe beispielsweise die letzten jährlichen International Conferences on Knowledge Discovery and Data Mining, die von der American Statistical Association mit ausgerichtet wurden).
Für Informationen zu Data Mining-Techniken siehe Explorative Datenanalyse (EDA) und Data Mining-Techniken, siehe auch STATISTICA Automated Neural Networks. Repräsentative Artikel zum Data Mining findet man in Proceedings from the American Association of Artificial Intelligence Workshops on Knowledge Discovery in Databases, AAAI Press (z. B. Piatetsky-Shapiro, 1993; Fayyad & Uthurusamy, 1994).
Es gibt zahlreiche Bücher zu Theorie und Praxis des Data Mining. Die folgenden Bücher, die eine Vielzahl an Ansätzen und Perspektiven vorstellen, bieten eine Auswahl kürzlich erschienener allgemeiner Bücher zum Data Mining:
Berry, M., J., A., & Linoff, G., S., (2000). Mastering data mining. New York: Wiley.
Edelstein, H., A. (1999). Introduction to data mining and knowledge discovery (Dritte Ausgabe). Potomac, MD: Two Crows Corp.
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in knowledge discovery & data mining. Cambridge, MA: MIT Press.
Han, J., Kamber, M. (2000). Data mining: Concepts and Techniques. New York: Morgan-Kaufman.
Hastie, T., Tibshirani, R., & Friedman, J. H. (2001). The elements of statistical learning : Data mining, inference, and prediction. New York: Springer.
Pregibon, D. (1997). Data Mining. Statistical Computing and Graphics, 7, 8.
Weiss, S. M., & Indurkhya, N. (1997). Predictive data mining: A practical guide. New York: Morgan-Kaufman.
Westphal, C., Blaxton, T. (1998). Data mining solutions. New York: Wiley.
Witten, I. H., & Frank, E. Data mining. New York: Morgan-Kaufmann.
Wichtige Konzepte im Data Mining
Siehe auch:
Geschichtete Generalisierung. Siehe Stacking.
Voting. Siehe Bagging.
Stacking (Geschichtete Generalisierung)
Datenaufbereitung (im Data Mining)
Datenreduktion (für Data Mining)
Data Mining wird oft als natürliche Erweiterung des Konzepts Data Warehousing behandelt. Siehe auch Data Warehousing und Enterprise-Systeme.