zur Startseite 2D 3D A B C D E F G H I J K L M N O P Q R S T U V W X Y Z zur Produktinformation
 

Overfitting (Überanpassung)

Im Allgemeinen verweist der Begriff Overfitting auf ein Vorhersagemodell (z. B. für prädiktives Data Mining), das so spezifisch ist, dass es die zufällige Streuung der Daten, aus denen die Modellparameter geschätzt werden, reproduziert. Solche Modelle ergeben oft keine guten Vorhersagen für neue Beobachtungen (z. B. während des Deployments eines prädiktiven Data Mining-Projekts). Oft werden verschiedene Techniken wie Kreuzvalidierung und v-fache Kreuzvalidierung angewandt, um Overfitting zu vermeiden.

Overfitting eines Modells mit einem Prädiktor. Um das Konzept des Overfitting in der Statistik zu demonstrieren, nehme man an, dass man einen Datensatz mit einer einzigen Prädiktorvariablen hätte. Siehe dazu die folgende Abbildung.

Obwohl der Zusammenhang zwischen der Prädiktor- und der abhängigen Variablen eine glatte Funktion ist, werden die Originaldaten (rote Kästchen) in einem statistischen Experiment in der Realität durch Rauschen "verdorben". Die Aufgabe besteht also darin, den wahren Zusammenhang (die U-förmige Kurve) zwischen der unabhängigen und der abhängigen Variablen aufzudecken.

Underfitting (Unteranpassung) der Daten. Versuchen wir zunächst, die Trainingsdaten durch eine Funktion, die zu wenig Parameter hat, in diesem Fall eine Gerade, anzupassen.

In diesem zu einfachen (unflexiblen) Modell passen die Modellprognosen (grüne Linie) die Daten nicht gut an, da sie nicht die zugrundeliegende Struktur in den Daten wiedergeben. Ein solches Modell würde neue Daten nicht gut vorhersagen, da es den Zusammenhang zwischen der abhängigen und der Prädiktorvariablen aufgrund der unzureichenden Komplexität nicht erkennt. Ein Modell, das für eine Aufgabe zu einfach ist, führt zu einer Unteranpassung. Solche Modelle treffen üblicherweise bei neuen Daten keine guten Vorhersagen.

Overfitting der Daten. Falls man nun die Komplexität dieses Modells so weit vergrößert, dass es so viele Parameter enthält, wie es Beobachtungen in den Daten gibt, d. h. ein Modell mit zu vielen Parametern anpasst, dann sieht das Ergebnis der Anpassung eines solchen Modells folgendermaßen aus.

Die Linie, die das Modell beschreibt, durchläuft jeden Datenpunkt, und "findet" zufällige Muster in den Trainingsdaten, die nicht Teil des echten Modells in der Grundgesamtheit, das verallgemeinert werden soll, sind. Dieses Phänomen nennt sich Overfitting, was für komplexere Modelle typisch ist. Obwohl der Fehler bei solchen Modellen in den Trainingsdaten gegen Null geht (da die Modelle flexibel genug sind, um jeden Datenpunkt zu durchlaufen), ist ihre Anpassung schlecht, wenn sie auf neue Testdaten angewandt werden (d. h., wenn man versucht, das Modell auf eine neue Stichprobe von Beobachtungen aus der gleichen Grundgesamtheit anzuwenden).

Anpassung eines Modells mit der "richtigen" Komplexität. Damit ist klar, dass, falls man die echte Funktion aus den Stichprobendaten finden möchte, man ein Zwischenmodell benötigt, d. h. ein Modell, das komplexer ist (mit mehr Parametern) als eine Gerade, aber nicht so komplex, dass es Muster in den Daten entdeckt, die nur Rauschen sind.

Ein solches Modell erfasst den wahren Zusammenhang in den Daten am besten und kann somit die größte Genauigkeit bei Vorhersagen erreichen.

Einige der Techniken, die im prädiktiven Data Mining verwendet werden (z. B. neuronale Netze, Klassifikations- und Regressionsbäume), um die Modellkomplexität (Flexibilität) zu steuern und damit Overfitting zu vermeiden, basieren auf Kreuzvalidierung, v-facher Kreuzvalidierung und Regulation (siehe STATISTICA Automated Neural Networks).