STATISTICA Data Miner Software für den Erfolg
Profitieren Sie von einem der modernsten Data-Mining-Tools am Markt! Der
STATISTICA Data Miner erkennt auch in Ihren Daten die entscheidenden Muster, Trends und Zusammenhänge. Als Anwender können Sie zwischen verschiedenen Anwendermodi wählen, vom Expertenmodus bis zum Assistenten, der Sie Schritt für Schritt durch den Data-Mining-Prozess führt. Von der Initiative Mittelstand wurde der
STATISTICA Data Miner als Innovationsprodukt 2008 ausgezeichnet.
Wählen Sie zwischen drei Varianten:
Überblick zu STATISTICA Text Miner
Der
STATISTICA Text Miner ist eine optionale Erweiterung des
STATISTICA Data Miner. Er wandelt unstrukturierte Textdaten in eine verständliche und verwertbare Form, um Prozesse der Entscheidungsfindung zu unterstützen. In der Realität kommen Daten in vielfältiger Form vor und lassen sich dabei nicht immer direkt auswerten. Der
STATISTICA Text Miner spürt dort verborgene Informationen auf.
Der STATISTICA Text Miner ist nahtlos in STATISTICA und den STATISTICA Data Miner integriert und bietet wie andere Produkte von StatSoft eine umfangreiche und mächtige Palette an Werkzeugen. Sie wurden mit Blick auf höchste Effizienz und Skalierbarkeit implementiert und setzen modernste Technologien ein, so dass hoch entwickelte Serversysteme mit multiplen Prozessoren optimal genutzt werden können.
Wie alle Komponenten des STATISTICA Data Miner wurde auch der STATISTICA Text Miner als universelles Werkzeug mit offener Systemarchitektur konzipiert. Die analytischen Werkzeuge des STATISTICA Text Miner lassen sich auf Textdokumente oder Webseiten anwenden. Aber auch aus vorverarbeiteten Bitmaps und Sounddateien heraus können unstrukturierte Informationen kategorisiert, gruppiert oder auf andere Weise in Analysen einbezogen werden.
Zugriff auf Dokumente
- Die Software kann auf Textdokumente in verschiedenen Formaten zugreifen, einschließlich .txt (Text), .pdf (Adobe), .ps (PostScript), .html, .xml (Web-Formate) und die meisten Microsoft Office-Formaten (z. B. .doc, .rtf).
- Es stehen flexible Optionen zur Auswahl mehrerer Dateien über Platzhalter zur Verfügung, um beispielsweise alle Dokumente eines bestimmten Typs auszuwählen.
- Wie eine Suchmaschine unterstützt die Software die Websuche, in dem es ausgehend von einer Startseite (URL) die verlinkten Dokumente aus dem Web extrahiert. Alle Dokumente, die mit dieser Seite verknüpft sind, sowie alle Dokumente, die mit diesen Unterdokumenten verknüpft sind, können bis zu einer benutzerdefinierten Tiefe einbezogen werden.
- Dateinamen und URLs lassen sich auch in Textvariablen von STATISTICA-Dateien speichern. Auf diese Weise kann das Programm nicht nur in Variablen gespeicherten Text verarbeiten, sondern auch Verweise auf Textdokumente oder URLs interpretieren. Es können also numerische und umfangreiche Textinformationen auf Fallbasis verwaltet und Analysen von Dateien durchgeführt werden, in denen für jeden Fall (jede Beobachtung) sowohl numerische als auch unstrukturierte Textinformationen vorliegen (z. B. Alter, Größe und Gewicht von Patienten zusammen mit der Beschreibung von Symptomen).
Verarbeitung von Dokumenten
Dokumente können bereits bei der Erstellung eines Wortindexes aufbereitet und gleich im Anschluss ausgewertet werden. Das bedeutet im Einzelnen:
- Es lassen sich Ausschlussregeln anwenden, um gebräuchliche, aber analytisch nicht relevante Wörter wie "ein/e", "der", "die", "das" oder "ist" auszuschließen. Ein Wortstamm-Algorithmus stellt sicher, dass Wörter wie "gereist" und "reisen" als Fälle des Worts "Reise" zählen.
- Der STATISTICA Text Miner enthält Ausschlusslisten und Wortstamm-Algorithmen für Deutsch, Dänisch, Holländisch, Englisch, Französisch, Italienisch, Portugiesisch, Spanisch, Schwedisch und weitere Sprachen. Die Ausschlusslisten können vom Anwender bearbeitet und erweitert werden. Das Design der Software erlaubt die Unterstützung zusätzlicher Sprachen mit geringem Aufwand.
- Als nächstes erzeugt die Software aus den bereinigten Dokumenten einen Index, um die Häufigkeiten aller Wörter für alle Dokumente zu zählen. Diese Information ist die Basis für alle folgenden numerischen Analysen.
- Vor Erstellung einer STATISTICA-Datei mit den Häufigkeiten, die eine Verdichtung der Informationen aus den Dokumenten darstellt, können verschiedene zusätzliche Filter angewandt werden, die sich auf die Länge und Buchstabenstruktur der Worte beziehen. Die Häufigkeiten der Wörter lassen sich skalieren (unter Berücksichtigung der Häufigkeit Ihres Auftretens), transformieren (z. B. log-transformieren) und "komprimieren" (über einen Algorithmus zur Singulärwertzerlegung, der aus den Worthäufigkeiten zugrunde liegende Dimensionen extrahiert).
- Die resultierende Datei mit den numerischen Informationen (Dimensionen, Häufigkeiten, relativen Häufigkeiten usw.) steht dann für weitere Analysen zur Verfügung.
- Es gibt verschiedene Optionen, um die aus dem Text extrahierten Informationen in das STATISTICA-Datenblatt oder in externe Datenbanken zu übertragen.
Analyse von Dokumenten
Auf die numerischen Zusammenfassungen, die die Ausgangs-Texte repräsentieren, lassen sich grundsätzlich alle statistischen Analysemethoden anwenden:
- Einfache Statistiken können die in den Dokumenten am häufigsten verwendeten Wörter anzeigen.
- Durch Abbildung der Dokumente auf Dimensionen der so genannten Singulärwertzerlegung lassen sich Streuungsdiagramme erstellen, mit deren Hilfe die Ähnlichkeit von Dokumenten beurteilt werden kann.
- Durch Abbildung der Dokumente auf Dimensionen, die auf Häufigkeiten der Wörter basieren, können gleichzeitig Mappings von Dokumenten und Wörtern erzeugt werden, die die "Bedeutung" der Dokumente reflektieren.
- Cluster-Techniken (wie EM oder k-Means) können angewandt werden, um Gruppen ähnlicher Dokumente zu identifizieren.
- Prädiktive Data-Mining-Techniken können dazu verwendet werden, die numerische Zusammenfassung von Dokumenten mit anderen interessierenden Indikatoren, wie beispielsweise betrügerische Absichten oder medizinische Diagnose, in Beziehung zu setzen.
Der Text Miner ist voll in die
STATISTICA-Produktlinie integriert; es handelt sich nicht um ein allein stehendes Produkt, das von einem anderen Anbieter entwickelt und "irgendwie" mit
STATISTICA verbunden werden musste. Das macht diese Text-Mining-Lösung einzigartig: Durch die vollständige Integration stellt die Text-Mining-Funktionalität nur ein weiteres Modul dar, das in die Umgebung des
STATISTICA Data Miner, von
WebSTATISTICA oder von benutzerangepassten
STATISTICA-Anwendungen integrierbar ist.
Anwender können beispielsweise automatisch und routinemäßig auf Dateien, die in einem Data Warehouse gespeichert werden, zugreifen, um bestimmte Analysen und numerische Zusammenfassungen der im Data Warehouse verfügbaren Textinformationen zu aktualisieren. Diese Aktualisierungen können auch über
WebSTATISTICA vorgenommen werden, so dass über das Internet weltweit auf die Ergebnisse dieser Analysen zugegriffen werden kann. All dies lässt sich mit der durchgängigen und intuitiven Benutzeroberfläche von
STATISTICA realisieren.
- Inhalte von Webseiten analysieren. Sie können Ihre firmeneigenen Internetseiten automatisch verarbeiten und zusammenfassen, um zum Beispiel Interessen und Trends in Besucherforen erkennen zu können.
- Unstrukturierte Textaufzeichnungen für prädiktives Data Mining verwenden. Sie können Antworten auf offene Interviewfragen, Patienten-Beschreibungen der medizinischen Symptome usw. in Data-Mining-Projekte einbeziehen, die Patienten und Symptomen klassifizieren und diese Informationen zu prognostischen Zwecken verwenden sollen.
- Große Mengen an Dokumenten analysieren. Sie können große Mengen an Dokumenten wie E-Mails von Kunden klassifizieren, um zum Beispiel Reklamationen anhand von Schlüsselworten zu identifizieren und zur effizienten Bearbeitung weiterzuleiten.