AutoML: Hyperparameter Optimierung

Die Hyperparameter Optimierung ist eine Komponente im AutoML und bietet eine Umgebung zur Optimierung der Hyperparameter der Data Mining Modelle in TIBCO Data Science / Statistica.

Sie bietet die Identifikation optimaler...

  • Modellparameter
  • Fehlklassifikationskosten
  • Stratifikationsstrategien
  • Variablenauswahl

Sie ermöglicht weitreichende Erkenntnisse zu gewinnen über:

  • Bereiche sinnvoller Parameter
  • Zusammenhänge zwischen Parametern
  • Validierung bisheriger Parameter
  • Einfluss von Stichproben
  • Einfluss / Vorhersagbarkeit einzelner Fälle / Beobachtungen
  • Konfiguration der Verfahren
  • Relation verschiedener Fehler/Gütemaße

Dazu bietet sie:

  • Einfache Experimenterstellung
  • Automatisierte Visualisierung und Auswertung der Ergebnisse
  • Gute Erweiterbarkeit

Optimal Binning

Der Optimal Binning Knoten fasst die Ausprägungen einzelner Variablen zu Gruppen (Bins) mit ähnlichen Eigenschaften hinsichtlich der Ausprägungen einer Zielgröße zusammen.

Wozu kann man ein zielgerichtetes Binning einsetzen?

  • Interpretation der Daten
  • Zielgerichtete Datenselektion
  • Reduzierung der Datenkomplexität
  • Verarbeitung von Daten mit Missing Data
  • Einsatz von Verfahren mit Linearitäts-Annahme
  • Einsatz von Verfahren die (nur) auf kategorialen Daten aufsetzen

Die entstehenden Bin-Variablen sind immer kategorialer Natur, die Ursprungsvariablen dürfen kategorial oder kontinuierlich/metrisch sein.

Zur Bildung der Bins wird im Knoten intern ein CHAID Entscheidungsbaum benutzt. Der entstandene Baum wird dann in eine Statistica-Formel umgewandelt, die zur Erzeugung der Bins benutzt wird.
Der CHAID-Baum wird in diesem Anwendungsszenario nur mit einem Parameter (dem p-Wert für Merging) gesteuert.
Fälle mit Missing Data bzw. fehlende Werten werden vor der Bildung der Bins (pro Variable) ausgeschlossen. Die entstehenden Bin-Regeln enthalten aber immer eine Teil-Regel, die Fällen mit Missing Data dem Bin „Missing“ zuweist. Neue Ausprägungen kategorialer Variablen (die im Binning-Prozess nicht vorkamen) werden durch eine weitere Teil-Regel dem Bin „Unknown“ zugewiesen.

Besonderheiten

  • Einfaches Deployment der Binning-Lösung
  • Für Klassifikation und Regression und metrische und kategoriale Inputs
  • Automatisiert einsetzbar

Die primäre Ausgabe dieses Knotens sind Statistica-Formeln, die aus den Ursprungsvariablen Bin-Variablen berechnen. Diese Formeln können einfach kopiert und in anderen Workspaces mithilfe eines Formel-Knotens angewendet werden. Es ist zusätzlich möglich direkt die transformierten Daten auszugeben.

Report Node

Der StatSoft Report Knoten macht die Erstellung großer und hübscher Reports basierend auf analytischen Ergebnissen auf simplem Wege automatisierbar.
Der Knoten extrahiert die Ergebnis-Arbeitsmappe aus dem Workspace und fügt die Elemente (Tabellen, Diagramme und Reports) in einen Word-Report ein.

Dieser Prozess erfordert eine Vorlage in Word, die entweder in Statistica Enterprise oder im Dateisystem abgelegt werden kann. Mindestens ist eine leere Worddatei (.docx) als Vorlage erforderlich.
Die Interaktion mit Microsoft Word wird über die offizielle Microsoft-Bibliothek OpenXML gehandhabt. Dies erlaubt die Erzeugung absolut standardkonformer Word-Dokumente.

Die wichtigsten Einstellungen und die Platzierung der Elemente können in einer Konfigurationstabelle vorgenommen werden. Die Definition kann dabei für jedes Element einzeln und für mehrere per Wildcard erfolgen.
Der Knoten und seine Oberfläche sind simpel gehalten, aber lassen sie sich nicht täuschen, er ist ein mächtiges Werkzeug, um die Automatisierung ihrer Reports auf die nächste Stufe zu heben.

Shelf-Life Estimation / Stability

Mit Shelf-Life Estimation werten Sie auf Knopfdruck Stabilitätsstudien (Stability Studies) aus und erzeugen archivierbare Ergebnisdokumente.

Ergebnisdokumente. Es ermöglicht Ihnen eine automatisierte Berechnung von Laufzeit (Shelf Life) und Wiederholprüfungsperiode (Retest Period) nach Q1E-Vorgaben (ICH-Konform):

  • Bestimmung der Laufzeit für einzelne oder mehrere Chargen
  • Kovarianzanalyse für Zusammenführung von Chargendaten (Poolability)
  • Automatische Modellbestimmung durch statistische Tests auf gleiche Steigung und gleichen Achsenabschnitt der Stabilitätsfunktion mehrerer Chargen
  • Umschalter zwischen deutscher und englischer Sprache für Eingabemasken und Ergebnisausgabe
  • Automatisches Erzeugen eines Ergebnisberichts im pdf-Format

Ein numerisches Validierungspaket für dieses Add-On ist verfügbar.

Shelf-Life Estimation wird als Add-on für TIBCO® Data Science / Statistica™ geliefert.

Methodenvergleich

Methodenvergleich vereint übersichtlich aktuelle Berechnungs- und Visualisierungs-Standards des Messmethoden-Vergleichs.

Damit lassen sich Geräte und Methoden in ihrem Messverhalten effizient prüfen, validieren oder aber mit externen oder kostengünstigeren Lösungen vergleichen. Mit dem Add-on Methodenvergleich ermitteln Sie auf Knopfdruck anspruchsvolle Statistiken mit grafischen und numerischen Ergebnissen. Folgende Methoden sind u.a. enthalten Regression nach Passing-Bablok, Deming Regression (einfach, gewichtet, IRGDR), Bland-Altman-Plots, Spezialauswertungen wie Error-Grids und Bias-Berechnungen.

Das Add-On ist FDA-konform und ein numerisches Validierungspaket kann mitgeliefert werden.

Methodenvergleich wird als Add-on für TIBCO® Data Science / Statistica™ geliefert.