Machine Learning bezeichnet eine Gruppe von Algorithmen, die Zusammenhänge aus Daten lernen. Dies dient dazu, Erkenntnisse zu gewinnen und um Prognosen zu erstellen. Dabei sind die Verfahren in der Lage Zusammenhänge zu identifizieren und abzubilden, die bisher unbekannt waren. Es gibt eine Vielzahl von Verfahren in dieser Gruppe, jüngere und ältere Verfahren, einfache und komplexere.
Früher sind viele dieser Verfahren unter dem Begriff Data Mining gesammelt worden. „Data Mining“ bezog sich dabei auf den Prozess, einen „Berg von Daten“ zu durchwühlen, wertvolle Erkenntnisse aufzuspüren und „ans Tageslicht zu bringen“. Heutzutage sind alle diese Verfahren Teil des Data Science und konkreter in der Gruppe Machine Learning (ML) eingeordnet.
Statistica bietet eine große Auswahl von Machine Learning Verfahren, diese sind einfach auf Daten anzuwenden, nach minimaler Konfiguration startbereit und die erstellten Modelle schnell in der Praxis anwendbar.
Große Verfahrensauswahl
Die Auswahl von Machine Learning Verfahren in Statistica eignet sich für verschiedenste Anwendungsfälle:
- Klassische und moderne Regressionsverfahren unterschiedlicher Komplexität mit starken diagnostischen Funktionen.
- Entscheidungsbaumbasierte Verfahren und Ensembles wie CART, CHAID, Random Forest und Boosting Trees mit hoher Prognosegüte, Robustheit und guter Darstellung der Ergebnisse.
- Künstliche Neuronale Netze und Support Vector Machines als Verfahren für die Lösung von Problemen mit der höchsten Komplexität.
- Weitere Verfahren wie MARSplines, k-Nearest Neigbours und Naive Bayes und mehr.
- Fast alle Verfahren eignen sich für Klassifikations- und Regressionsfragestellungen gleichermaßen. Alle Verfahren können mit metrischen und kategoriellen Inputs direkt umgehen.
- Es gibt Verfahren und Verfahrensvarianten für Unsupervised Learning (beispielsweise Clusteranalyse und Assoziationsregeln).
Einfache Anwendung und Konfiguration
Die Anwendung von Machine Learning Verfahren in Statistica ist denkbar einfach:
- Die Verfahren lassen sich mit den Daten verbinden und über grafische Dialoge konfigurieren.
- Die Standardeinstellungen in den Dialogen sind sinnvolle Startkonfigurationen mit denen unmittelbar erste Ergebnisse erzielt werden können.
- Statistica bietet eine umfassende Dokumentation der einzelnen Einstellungen und eine gute Auswahl der wichtigsten Verfahrensparameter.
- Der Vergleich von verschiedenen Modelltypen und Konfigurationen kann direkt in einem Workspace erfolgen und macht die Identifikation des besten Modelles sehr einfach.
- Vor- und Nachbereitung der Daten und Ergebnisse ist einfach automatisierbar.
Schnelle Inbetriebnahme
Hat man einen Modelltyp und eine passende Konfiguration ermittelt, so lässt sich das fertig geschätzte Modell mit Statistica einfach in Produktion nehmen:
- Die Rapid Deployment Engine kann Modelle direkt auf neue Daten anwenden.
- Modelle können per Business Regel (Rules Engine) im vom Unternehmen gewählten Fall angewendet werden.
- Die Prognosen können vom Statistica Server erstellt werden.
- Es ist möglich Modelle als Code in verschiedenen Programmiersprachen (Java, C#, C++, etc.) zu exportieren, so dass sie in IoT Devices eingebettet werden können.
Modell-Management
Die Verwaltung von Modellen kann einfach im Statistica Server erfolgen. Dieser ermöglicht es, das Modell Management zu automatisieren und eine robuste Betriebsumgebung zur Modellausführung bereitzustellen.
- Modelle haben Benutzerrechte und dürfen nur durch berechtigte User verändert und durch andere User nur angewendet werden.
- Modelle können versioniert und durch Freigabeprozesse abgesichert werden.
- Modelle können von Stage zu Stage (z.B. DTAP) verschoben werden.
- Modelle können automatisch aktualisiert werden, wenn die Güte eines Challenger-Modelles höher ist.
- Modelle werden unabhängig von ihrem Typ (Regression, Tree, etc.) verwaltet und können friktionslos durch Modelle eines anderen Typs ersetzt werden.
Modell-Ausführung
Die Modellprognosen können auf vielfältige Weise bereitgestellt werden:
- für den Data Scientist in seiner Umgebung, entweder im Rahmen der Modell Erstellung oder durch Nutzung des zentral verwalteten Modelles.
- Durch Batch-orientierten Ausführung durch den Server. Dieser könnte z.B. regelmäßig Prognosen in eine Datenbank schreiben.
- Prognosen des Modells können per WebService (SOAP) zur Verfügung gestellt werden. So könnte ein Dienst oder ein Gerät Daten zum Statistica Server senden, eine prognosebasierte Antwort erhalten und anschließend entsprechend reagieren.
Gemeinsam mit StatSoft
Wir von StatSoft sind der verlässliche Partner Rund um Statistica für unsere Kunden. Wir helfen bei der Auswahl, Konfiguration und Inbetriebnahme und vermitteln das nötige Software- und Methoden-Know-How. Bei analytischen Projekten stehen wir beratend und durchführend zur Verfügung. Gemeinsam mit unseren Kunden, gelingt es mehr aus Daten zu machen und einen dauerhaften Mehrwert zu schaffen.