Dieser Artikel stammt von unserem geschätzten Partner Luigi Roggia von Apply Sience (https://www.applyscience.it/). Luigi ist Experte im Bereich der angewandten Statistik und der zugehörigen Software-Werkzeuge. Es ist uns eine große Ehre, dass wir seine Erfahrungen in unserem Blog veröffentlichen können.
Warum kann Statistica eine echte Alternative zu MiniTab sein?
Seit 2006 bin ich ein Anwender von MiniTab und über die Jahre habe ich MiniTab genutzt, um hunderten Interessierten die Anwendung von Statistik beizubringen und Beratung durchzuführen. Ich erwähne das, um zu belegen, dass ich viel Erfahrung mit MiniTab und Statistik habe. Was in diesem Artikel folgt, ist ausschließlich basierend auf meiner persönlichen Erfahrung und dem enthusiastischen Feedback, dass wir von unseren Kunden erhalten.
MiniTab ist ein etabliertes Werkzeug im Bereich der statistischen Software. Aber trotzdem habe ich mich im Jahr 2020 gefragt, ob es Alternativen gibt. Als Senior-Berater in dem Bereich ist es meine Aufgabe, die besten Technologien zur Lösung der Herausforderungen unserer Kunden zu identifizieren.
Bei meiner Recherche im Bereich kommerzieller und kostenfreier Lösungen begegnete ich vielen verschieden Software-Werkzeugen, die ich anhand von Anforderungen bewertete. Dieser Anforderungen richteten sich klar nach den Bedürfnissen, die ein Data Scientists heutzutage an eine Software stellen:
-
- Sie sollte eine kompletten Methodensatz bieten, um die Schritte von Six Sigma abzudecken.
-
- Sie sollte einen hohen Reifegrad haben und die Bedürfnisse von großen Unternehmen erfüllen.
-
- Sie sollte die Erstellung von automatisierten analytischen Prozessen erlauben.
-
- Sie sollte in der Lage sein aus einer Vielzahl von Datenquellen zu importieren, insbesondere den populären Quellen.
-
- Sie sollte die Daten in verschiedenen Formaten exportieren können.
-
- Sie sollte es erlauben, Prozesse FDA-konform (z.B. gemäße 21 CFR Part 11) zu erstellen.
-
- Sie sollte bei Bedarf R und Python Code integrieren können.
-
- Sie sollte Machine Learning Methoden mitbringen, weil diese heutzutage unverzichtbar sind.
-
- Sie sollte ein gutes User Interface haben, auch zur Verwaltung von Projekten und Reports.
-
- Sie sollte Mechanismen mitbringen. um zügig von der Explorationsphase in den Produktivbetrieb (z.B. für Modelle) überzugehen.
Am Ende meiner Recherche hatte ich eine Lösung identifiziert, die nicht nur die genannten Anforderungen erfüllt, sondern mich auch einen großen Schritt weiterbringen konnte. Nicht nur als Alternative, sondern als signifikante Verbesserung.
Die Lösung, von der ich spreche, ist Statistica.
Nach Statistica zu wechseln war einfacher als gedacht: sobald ich die grundsätzliche Logik verstanden hatte, war Statistica einfach zu verstehen und zu nutzen.
Statistik und Six Sigma
Statistica bietet alle Funktionalitäten, die man in der Praxis erwartet, man muss nach einem Wechsel also auf nichts verzichten. Sucht man beispielsweise nach den folgenden Funktionen, wird man in Statistica fündig:
-
- Deskriptive Statistik
-
- Statistische Testverfahren
-
- ANOVA (Analysis of Variance)
-
- Regressionsanalyse
-
- Versuchsplanung (Design of Experiments)
-
- Qualitätsregelkarten (Control Charts)
-
- Prozessfähigkeit (Capability analysis)
-
- Messsystemanalyse (Measure systems analysis)
-
- Zuverlässigkeit (Reliability)
Taucht man tiefer in Statistica ein, z.B. als ein fortgeschrittener Anwender und will ein Six Sigma Projekt durchführen, ist Statistica sehr hilfreich, weil es mit einem spezifischen Menü durch die verschiedenen Stufen des DMAIC Prozesses leitet.
Sobald man etwas Sicherheit im Umgang mit der neuen Umgebung gewonnen hat, kann man entdecken, dass viele Details so gestaltet sind, dass sie die Arbeit der Anwendenden vereinfachen.
Einfache und schnelle Auswertungen
Wenn eine konkrete Analyse durchgeführt werden soll, sind alle verfügbaren Einstellungen und Ergebnisse in passenden Analyse-Dialogen versammelt. Diese Dialoge sind mit Reitern unterteilt, um einfach die passenden Erkenntnisse zu gewinnen. Im Reiter „Quick“ (oder „Standard“) erhält man eine Zusammenfassung der wichtigsten Ergebnisse. Es ist nicht notwendig an anderen Stellen nach Menüs oder Werkzeugen zu suchen:
Versuchsplanung (Design of Experiments) auf Profiniveau
In Statistica kann jegliche Art von Versuchsplanung erstellt werden und man kann beeindruckende Funktionen zur Auswertung von Versuchsplänen finden.
Sobald man in die Ergebnisauswertung eintaucht, merkt man sofort, dass man aus den Ergebnissen zuverlässig Schlüsse ziehen kann, wenn man zum Beispiel die Daten als Kontour-Plot oder auch als interaktiven 3D Plot inklusive Flächen-Plot (Surface Plot) und den zugehörigen Stützpunkten darstellen kann. Diese Form der Darstellung ist extrem nützlich, für diejenigen, die verstehen wollen, wie ein Regressionsmodell arbeitet, um ein Modell der Realität zu abzubilden.
Natürlich gibt es noch viel mehr. Statistica unterstützt z.B. ein mächtiges Simulationswerkzeug, den „Model Profiler“, der das eben optimierte Modell anwendet, um mit Hilfe einer Monte Carlo Simulation die optimale Konfiguration für den Produktionsprozess zu bestimmen. Die Funktionen in Statistica bieten viele weitere Konfigurationsoptionen und Erweiterungen. Ergänzt wird dies durch die Möglichkeit R und Python zu integrieren und somit nahezu unbegrenzte Möglichkeiten im Bereich Simulation, Optimierung und Multi-Optimierung zu nutzen.
Einfach mit nicht-normalverteilten Daten arbeiten
In Statistica können nicht-normalverteilte Daten direkt verarbeitet werden. Dabei ist es nicht erforderlich, dass man dies manuell tut, stattdessen kann Statistica automatisch Regelkarten für nicht-normalverteilte Daten erzeugen und andere als die (Gauss-) Normalverteilung verwenden. Erstellt man eine solche Regelkarte oder berechnet eine Prozessfähigkeitsanalyse, enthalten die Ergebnisse die Auswertung für den normal und nicht-normalverteilten Fall und komplett automatisch.
Einfach und übersichtlich dank Statistica Workbooks
Statistica bietet sogenannte Workbooks. Diese sind hierarchische organisierte Container, um Ergebnisse, wie Tabellen, Grafiken und Reports zu sammeln, zu gruppieren und zu organisieren. Alles bleibt sehr übersichtlich und organisiert. In anderen Worten: komplexe Projekte in Statistica lassen einen nicht irgendwann verrückt werden, weil man nicht mehr versteht, was wovon ein Ergebnis ist. Vielmehr hat man in den Workbooks die Möglichkeit alles perfekt nach dem eigenen Geschmack anzuordnen.
Drag und Drop im Workspace
Eines meiner liebsten Features, dass in Statistica zu finden ist, sind die Workspaces. Sie sind eine Oberfläche, die es erlaubt per Drag and Drop analytische Prozesse zu erstellen und auf Knopfdruck ablaufen zu lassen. Man muss einfach nur Funktionen (sog. „Knoten“) auswählen, mit der Maus verbinden, konfigurieren und dann „Run“ drücken. Der Prozess läuft dann spezifikationsgemäß ab und legt alle Ergebnisse strukturiert in Workbooks ab.
Unsere Kunden, schätzen die Workspaces sehr, weil wir Analysen für sie vorbereiten können und das Prinzip schnell visuell verstanden werden kann. Die Workspace bilden ihre eigene Dokumentation und können immer wieder benutzt werden, wenn sich die Daten geändert haben, einfach durch den Klick auf „Run“ (bzw. „Ausführen“)
Wichtiger Hinweis: Workspaces können in der Dashboarding-Software Spotfire eingebunden werden und dort komplexe analytische Prozesse automatisiert im Hintergrund bereitstellen.
Modelle und Erkenntnisse in den Produktiv-Betrieb bringen
Unternehmen in Produktion und Dienstleistung stehen vor derselben Herausforderung: Erkenntnisse und Modelle aus den analytischen Prozessen müssen in die produktiven Prozesse integriert werden. In Statistica ist dies auf verschiedene Weisen möglich, so können prädiktive Modelle in einer Vielzahl von Programmiersprachen und in der Modelsprache PMML exportiert werden:
Außerdem kann man direkt in Datenbanken schreiben oder R, Python, Scala, Visual Basic oder C# (oder eine Kombination davon) benutzen, um Ergebnisse zu exportieren.
Data Science und Machine Learning
Für Data Scientists bietet Statistica eine riesige Menge von Funktionen in einer gemeinsamen Umgebung. Nicht nur klassische und angewandte Statistik, sondern auch Methoden, um große Datenmengen und komplexeste Fragestellungen zu bearbeiten. Statistica bietet eine sehr umfangreiche Auswahl von Machine Learning Methoden an:
Außerdem bietet es Funktionen für die Verarbeitung von Big Data an. Die Funktionen können durch R und Python noch erweitert werden und das auch im Workspace, was eine Verbindung dieser Tools und ihre gemeinsame Verwendung im selben Prozess möglich macht.
Compliance mit FDA Vorgaben
Statistica kann “stand-alone” als Desktop-Applikation mit all den oben genannten Funktionen beschrieben werden, oder man kann es in einer Client-Server-Architektur betreiben. In diesem Fall verwendet man Statistica Server und dieser erweitert die Fähigkeiten enorm. Es können hier nicht alle Features der Server Version behandelt werden, aber hervorzuheben ist, dass Statistica Server die Grundlage bildet, um ein analytisches System aufzubauen, dass die Anforderungen von FDA 21 CFR part 11 erfüllt.
Ausgehend von meiner Erfahrung, würde ich sagen, dass Statistica die vollständigste analytische Software ist, die diese Anforderungen erfüllt (inkl. Datenintegrität), so dass sie beispielsweise in der pharmazeutischen Industrie eingesetzt werden kann.
Fazit
Nach vielen Jahren als professioneller Anwender von MiniTab, hat mich der Wechsel zu Statistica deutlich weitergebracht und erlaubt mir, mehr in kürzerer Zeit zu schaffen. Die Transition war vergleichsweise einfach und jede Funktion, die ich brauche, ist in Statistica verfügbar. Meine persönliche Evaluation enthält die folgenden Schlussfolgerungen:
-
- Viel mehr Funktionen inklusive eines vollständigen Sets von Machine Learning Methoden.
-
- Workspaces sind ein großartiges Werkzeug, um Analysen visuell aufzubauen und sie wiederholt ablaufen zu lassen.
-
- Projekte können einfacher und übersichtlicher verwaltet werden.
-
- Die Auswertung von Experimenten (in der Versuchsplanung) ist eine ganz neue und reichhaltigere Erfahrung.
-
- Qualitätsregelkarten und Prozessfähigkeitsanalysen leiden nicht mehr unter dem „Fluch der Normalität“.
-
- Das Ökosystem von TIBCO ist unvergleichlich: Es bietet Integrationsmöglichkeiten und Erweiterungen, die eine ganze Enterprise-Landschaft abdecken.
-
- Statistica ist ein Werkzeug für Statistiker:innen und Data Scientists gleichermaßen: Endlich eine Software, die den Anforderungen dieser Zeit genügt.