Warum Risiko- und Chancenprognose?
Der Erfolg von Unternehmen hängt wesentlich von den Entscheidungen ihrer Kunden ab. Kündigen Kunden oder entscheiden sich für einen Kauf, hat dies unmittelbaren Einfluss auf den Geschäftserfolg. Mittels datengestützter Prognose sind Unternehmen in der Lage, Entscheidungen vorherzusagen und Ursachen zu verstehen. Dabei spricht man von Risikoprognose, wenn es sich um Ereignisse handelt, die sich negativ auf den Geschäftserfolg auswirken. Mit denselben analytischen Mitteln lassen sich ebenso Ereignisse prognostizieren, die sich positiv auf den Geschäftserfolg auswirken.
Konkrete Anwendungsfälle für die Risikoprognose sind:
- Die Kündigeranalyse (Churn Prediction), bei der Abwanderung von Kunden prognostiziert werden soll
- Die Kreditrisikoprognose (Credit Risk Scoring) bei dem die Ausfallwahrscheinlichkeit von Krediten bewertet werden soll
Konkrete Anwendungsfälle für die Prognose von positiven Ereignissen sind:
- Winback-Analyse bei der – nach eingegangener Kündigung – die Chance auf eine Rückgewinnung der Kunden ermittelt werden soll
- Kampagnenoptimierung (Campaign Optimization) bei der die Erfolgswahrscheinlichkeit zu Abschlüssen (Conversion) bei Teilnehmenden einer Kampagne ermittelt werden soll
Es gibt noch viele weitere Anwendungsfälle, die sich alle in folgenden Aspekten ähneln
- Der Untersuchungsgegenstand sind Entscheidungen von Menschen
- Das Ereignis von Interesse ist meist selten und wertvoll (also gewinnträchtig oder kostspielig)
Datenakquise und Aufbereitung
Am Anfang jedes Prognoseprojektes steht die Datenakquise und -bereinigung. Dabei müssen die Daten zu den betreffenden Kunden und den konkreten Transaktionen zusammengestellt und analysetauglich gemacht werden. Dies ist ein bedeutender und bei den ersten analytischen Projekten aufwändiger Schritt.
Bei der Zusammenstellung der Merkmale für ein solches Projekt, sind die Unternehmensdaten bezüglich der Kunden zu untersuchen. Interessante Merkmale ..
- .. machen Kunden vergleichbar.
- .. drücken die Interessen von Kunden aus z.B. hinsichtlich in Anspruch genommener Angebote, eingegangener Beschwerden oder Reaktionen auf frühere Kampagnen.
- .. beschreiben die Reaktivität der Kunden z.B. über die Dauer der Kundenbeziehung, die Zeit seit dem letzten Kontakt oder die Häufigkeit der Kontakte.
Während der Datenakquise muss auch der Verzicht auf Daten mitbedacht werden, deren Auswertung nicht erwünscht oder anderweitig problematisch ist.
- Potenziell diskriminierende Merkmale
- Analytisch unwichtige Merkmale (z.B. Merkmale mit einmaligen Ausprägungen)
- Merkmale, deren zuverlässige Erhebung nicht garantiert ist
- Weitere Merkmale können anonymisiert werden, um Folgerisiken zu minimieren.
Bei der anschließenden Datenbereinigung werden Datenfehler soweit möglich reduziert und die Daten so aufbereitet, dass ein erstes analysetaugliches Extrakt entsteht. Dabei ist es oft erforderlich die Daten zu verdichten (z.B. vielfältige Produktkennzeichnungen auf wenige Produktgruppen zu reduzieren) und die Daten vergleichbar zu machen (Datumsangaben beispielsweise in Zeiträume umzuberechnen).
Zwei weitere Aspekte sind zu beachten:
- Alle diese Schritte müssen als Prozess so implementiert werden, dass sie wiederholbar sind. Dies ist erforderlich, weil sich im Geschäftsablauf neue Daten ansammeln werden, die ebenfalls zusammengeführt und bereinigt werden müssen
- Zu den Schritten dieses Prozesses wird man häufig zurückkehren, um Anpassungen vorzunehmen. Zum einen, weil sich in den Folgephasen weitere Erkenntnisse zur Datenqualität ergeben und zum anderen, weil sich in den neu anfallenden Daten neue Probleme verbergen werden.
Das Ereignis von Interesse (Kauf, Kündigung, o.Ä.) wird voraussichtlich selten – im Vergleich zum Gegen-Ereignis - in den Daten auftreten. Diesem Problem kann man teilweise schon bei der Datenaufbereitung begegnen z.B. durch Nutzung stratifizierter Stichproben. Teilweise wird man dieses Problem in der anschließenden Modellierung berücksichtigen z.B. durch passende Modellparameter oder durch Fallgewichte.
Modellerstellung
Ist ein nutzbares Datenextrakt erstellt, kann mit der Erstellung eines Prognosemodelles begonnen werden. Hierbei kann es konkrete regulatorische oder betriebliche Anforderungen geben. So sind zum Beispiel Regressionsmodelle beliebte Modellkandidaten:
- Sie sind in vielen analytischen Tools verfügbar
- Exzellent geeignet zur Interpretation (Vermeidung von Black-Box-Modellen)
- Sehr performant berechenbar und überall einzusetzen
- Konvertierbar in sog. Scorecards (relevant im Bereich Kreditrisikoprognose)
Die Vorzüge der Regressionsmodelle werden mit dem Nachteil „erkauft“ besonders komplexe Zusammenhänge nicht adäquat abzubilden. Deswegen sollten komplexere Modelltypen ebenfalls als Kandidaten überprüft werden. Dazu zählen in ansteigender Komplexität: Entscheidungsbäume (wie CART und CHAID), Ensemblemodelle (wie Random Forest oder Boosting), Support Vector Machines und künstliche neuronale Netze.
Diese Modelle haben weniger Voraussetzungen, was die Datenqualität und Komplexität betrifft, sind aber in der Regel aufwändiger zu berechnen, schwieriger zu bedienen und weniger leicht auszuwerten.
Bewertung der Ergebnisse
Hat man Modelltypen ausgewählt und Modellkandidaten erstellt kann man diese prüfen.
- Vergleich der Modellkandidaten untereinander
- Bewertung hinsichtlich der Problemstellung
Der Vergleich mehrerer Modellkandidaten dient der
- Abschätzung einer zu erwartenden Modellperformance
- der Auswahl des besten Modelltyps auf dem gegebenen Problem
- der Abschätzung des „Güteverlustes“, der entsteht, falls man aufgrund von externen Vorgaben (z.B. Transparenz) auf die Nutzung eines spezifischen Modelltyps angewiesen ist.
Bei der Bewertung eines einzelnen Modells hinsichtlich der Problemstellung, wird man häufig zunächst unbefriedigende Ergebnisse erhalten. Die Trefferrate (Anteil der richtig prognostizierten Fälle, insbesondere bei dem gesuchten Ereignis) kann – auf den ersten Blick - enttäuschend niedrig sein.
Man vergegenwärtige sich dabei aber folgendes: auch des beste Prognosemodell wird den betrachteten Menschen „nicht in den Kopf gucken können“. Menschliche Entscheidungen sind von einer Vielzahl von Faktoren beeinflusst, von denen der weit überwiegende Teil nicht in den unternehmenseigenen Daten abgebildet ist. (Umgekehrt zu betrachten: erreicht man hier eine hohe Prognosegüte, sollte anschließend eine sorgfältige Prüfung der Datengrundlage erfolgen - sehr wahrscheinlich hat man Merkmale verarbeitet, die von der untersuchten Zielgröße abgeleitet sind).
Anstatt die Modelle nach Trefferrate zu bewerten, bieten sich (je nach Fragestellung) andere Bewertungsmöglichkeiten an. So wird in der Winback-Analyse und in der Kampagnenoptimierung eher die Fähigkeit des Modells zur Sortierung der Kunden bewertet. Dies kann beispielsweise mittels Gains und Lift-Charts erfolgen. Die Sortierung der Kunden (nach Erfolgswahrscheinlichkeit) kann dann genutzt werden, um ein vorgegebenes Budget (in beispielsweise Incentives, oder Kampagnenaktivitäten) möglichst optimal einzusetzen.
Produktivbetrieb und Monitoring
Nach der Entwicklungsphase „im Labor“ müssen die Modelle in den Produktivbetrieb überführt werden. Das heißt, dass eine Integration in die Systemlandschaft erfolgt und die Modelle im Betrieb verwendet werden. Dabei müssen die Modelle regelmäßig oder bedarfsbezogen ausgeführt werden und die erzeugten Prognosen in den Betriebsablauf integriert und/oder den Fachpersonen zugänglich gemacht werden.
Die Integration in die Systemlandschaft sollte umfassen, dass eine reibungslose Aktualisierung der Modelle weiterhin möglich ist, um regelmäßige Modellupdates ausrollen zu können. Dabei kann mit Freigabemechanismen (Approval bzw. Vier-Augen-Prinzip) und Versionierung gearbeitet werden.
Im Betrieb muss das Modellverhalten kontinuierlich überwacht werden, ebenso sollte historisiert werden, welche Prognosen zu welchem Zeitpunkt mit welchen Modellversionen erstellt wurden, um eine lückenlose Nachverfolgbarkeit gewährleisten zu können. Durch die Überwachung kann abgeschätzt werden, wann ein Modellupdate erforderlich ist und ein zuverlässiger Systembetrieb sichergestellt werden.
Wie geht es weiter?
Risikoprognose ist – wie eingangs aufgezeigt – ein wichtiges Thema für viele Unternehmen. Zum Glück gibt es dafür vielfältige Lösungen, sei es durch kommerzielle Werkzeuge wie Spotfire, Alteryx Designer oder Statistica aber auch durch eigene Lösungen basierend auf R oder Python. Maßstab für die Entscheidung über das “Wie” zur Umsetzung sollte sein, wie tief man automatisieren und integrieren will, welche Qualifikationen das eigene Data Science Team und interne Nutzende haben und wie die Erkenntnisse im Unternehmen verteilt werden sollen.
Wir helfen Ihnen gern bei diesen Entscheidungen!