zur Startseite 2D 3D A B C D E F G H I J K L M N O P Q R S T U V W X Y Z zur Produktinformation
 

Boosting

Das Boosting-Konzept wird im prädiktiven Data Mining verwendet, um mehrere Modelle oder Klassifikatoren (zur Vorhersage oder zur Klassifikation) zu generieren und Gewichte für die Kombination der Vorhersagen aus diesen Modellen abzuleiten, damit man eine einzelne Vorhersage oder vorhergesagte Klassifikation erhält (siehe auch Bagging).

Ein einfacher Boosting-Algorithmus funktioniert folgendermaßen: Beginnen Sie mit der Anwendung einer Methode (z. B. einer Klassifikation wie C&RT oder CHAID) auf die Trainingsdaten, in denen jeder Beobachtung das gleiche Gewicht zugeordnet wird. Berechnen Sie die vorhergesagten Klassifikationen und wenden Sie die Gewichte auf die Beobachtungen in der Trainingsstichprobe an, die antiproportional zur Genauigkeit der Klassifikation sind. Mit anderen Worten, den Beobachtungen, die schwierig zu klassifizieren sind (bei denen die Fehlklassifikationsrate hoch ist), werden größere Gewichte, und den Beobachtungen, die leichter zu klassifizieren sind, kleinere Gewichte zugeordnet. Im Zusammenhang mit C&RT beispielsweise können verschiedene Klassen unterschiedliche Fehlklassifikationskosten haben, die antiproportional zur Genauigkeit der Vorhersage in jeder Klasse sind. Wenden Sie den Klassifikator dann wieder auf die gewichteten Daten (oder die Daten mit unterschiedlichen Fehlklassifikationskosten) an, und setzen Sie mit der nächsten Iteration (Anwendung der Analysemethoden zur Klassifikation auf die neu-gewichteten Daten) fort.

Boosting generiert eine Reihe von Klassifikatoren, in der jeder aufeinanderfolgende Klassifikator ein "Experte" bei der Klassifikation von Beobachtungen ist, die vorher nicht gut klassifiziert wurden. Während des Deployments (zur Vorhersage oder Klassifikation von neuen Fällen) können die Vorhersagen der verschiedenen Klassifikatoren dann kombiniert werden (z. B. über Voting oder eine gewichtete Voting-Prozedur), um die beste Vorhersage oder Klassifikation herzuleiten.

Boosting kann auch auf Trainingsmethoden angewandt werden, die nicht explizit Gewichte oder Fehlklassifikationskosten unterstützen. In diesem Fall können zufällige Teilstichproben in sukzessiven Schritten der iterativen Boosting-Prozedur, in der die Wahrscheinlichkeit, dass eine Beobachtung in die Teilstichprobe ausgewählt wird, antiproportional zur Genauigkeit für diese Beobachtung in der vorherigen Iteration ist, auf die Trainingsdaten angewandt werden.

Siehe auch Data Mining.