Etwa 80% aller Daten sind Text.
Nutzen Sie dieses Potenzial!

Add-on Text Mining

Das Statistica-Add-on Text Mining ist eine optionale Erweiterung von Statistica Enterprise User. Er wandelt unstrukturierte Textdaten in eine verständliche und verwertbare Form, um Prozesse der Entscheidungsfindung zu unterstützen. In der Realität kommen Daten in vielfältiger Form vor und lassen sich dabei nicht immer direkt auswerten. Die Text-Mining-Funktionen von Statistica spüren dort verborgene Informationen auf.

Die Text-Mining-Funktionen von Statistica  bieten eine umfangreiche und mächtige Palette an Werkzeugen. Sie wurden mit Blick auf höchste Effizienz und Skalierbarkeit implementiert und setzen modernste Technologien ein, so dass hoch entwickelte Serversysteme mit multiplen Prozessoren optimal genutzt werden können. Die analytischen Werkzeuge lassen sich auf Textdokumente oder Webseiten anwenden. Aber auch aus vorverarbeiteten Bitmaps und Sounddateien heraus können unstrukturierte Informationen kategorisiert, gruppiert oder auf andere Weise in Analysen einbezogen werden.

Integration in Statistica

Die Text-Mining-Funktionen sind voll in die Statistica-Produktlinie integriert; dies macht diese Text-Mining-Lösung einzigartig. Anwender können beispielsweise automatisch und routinemäßig auf Dateien, die in einem Data Warehouse gespeichert werden, zugreifen, um bestimmte Analysen und numerische Zusammenfassungen der im Data Warehouse verfügbaren Textinformationen zu aktualisieren. Diese Aktualisierungen können auch über Enterprise Server vorgenommen werden, so dass unternehmensweit und selbst über das Internet weltweit auf die Ergebnisse dieser Analysen zugegriffen werden kann. All dies lässt sich mit der durchgängigen und intuitiven Benutzeroberfläche von Statistica realisieren.

Anwendungsbeispiele

  • Inhalte von Webseiten analysieren. Sie können Ihre firmeneigenen Internetseiten automatisch verarbeiten und zusammenfassen, um zum Beispiel Interessen und Trends in Besucherforen erkennen zu können.
  • Unstrukturierte Textaufzeichnungen für prädiktives Data Mining verwenden. Sie können Antworten auf offene Interviewfragen, Patienten-Beschreibungen der medizinischen Symptome usw. in Data-Mining-Projekte einbeziehen, die Patienten und Symptome klassifizieren und diese Informationen zu prognostischen Zwecken verwenden sollen.
  • Große Mengen an Dokumenten analysieren. Sie können große Mengen an Dokumenten wie E-Mails von Kunden klassifizieren, um zum Beispiel Reklamationen anhand von Schlüsselworten zu identifizieren und zur effizienten Bearbeitung weiterzuleiten.

Zugriff auf Dokumente

  • Die Software kann auf Textdokumente in verschiedenen Formaten zugreifen, einschließlich .txt (Text), .pdf (Adobe), .ps (PostScript), .html, .xml (Web-Formate) und die meisten Microsoft Office-Formaten (z. B. .doc, .rtf).
  • Es stehen flexible Optionen zur Auswahl mehrerer Dateien über Platzhalter zur Verfügung, um beispielsweise alle Dokumente eines bestimmten Typs auszuwählen.
  • Wie eine Suchmaschine unterstützt die Software die Websuche, in dem es ausgehend von einer Startseite (URL) die verlinkten Dokumente aus dem Web extrahiert. Alle Dokumente, die mit dieser Seite verknüpft sind, sowie alle Dokumente, die mit diesen Unterdokumenten verknüpft sind, können bis zu einer benutzerdefinierten Tiefe einbezogen werden.
  • Dateinamen und URLs lassen sich auch in Textvariablen von Statistica-Dateien speichern. Auf diese Weise kann das Programm nicht nur in Variablen gespeicherten Text verarbeiten, sondern auch Verweise auf Textdokumente oder URLs interpretieren. Es können also numerische und umfangreiche Textinformationen auf Fallbasis verwaltet und Analysen von Dateien durchgeführt werden, in denen für jeden Fall (jede Beobachtung) sowohl numerische als auch unstrukturierte Textinformationen vorliegen (z. B. Alter, Größe und Gewicht von Patienten zusammen mit der Beschreibung von Symptomen).

Verarbeitung von Dokumenten

Dokumente können bereits bei der Erstellung eines Wortindexes aufbereitet und gleich im Anschluss ausgewertet werden. Das bedeutet im Einzelnen:

  • Es lassen sich Ausschlussregeln anwenden, um gebräuchliche, aber analytisch nicht relevante Wörter wie "ein/e", "der", "die", "das" oder "ist" auszuschließen. Ein Wortstamm-Algorithmus stellt sicher, dass Wörter wie "gereist" und "reisen" als Fälle des Worts "Reise" zählen.
  • Enthalten sind Ausschlusslisten und Wortstamm-Algorithmen für Deutsch, Dänisch, Holländisch, Englisch, Französisch, Italienisch, Portugiesisch, Spanisch, Schwedisch und weitere Sprachen. Die Ausschlusslisten können vom Anwender bearbeitet und erweitert werden. Das Design der Software erlaubt die Unterstützung zusätzlicher Sprachen mit geringem Aufwand.
  • Als nächstes erzeugt die Software aus den bereinigten Dokumenten einen Index, um die Häufigkeiten aller Wörter für alle Dokumente zu zählen. Diese Information ist die Basis für alle folgenden numerischen Analysen.
  • Vor Erstellung einer Statistica-Datei mit den Häufigkeiten, die eine Verdichtung der Informationen aus den Dokumenten darstellt, können verschiedene zusätzliche Filter angewandt werden, die sich auf die Länge und Buchstabenstruktur der Worte beziehen. Die Häufigkeiten der Wörter lassen sich skalieren (unter Berücksichtigung der Häufigkeit Ihres Auftretens), transformieren (z. B. log-transformieren) und "komprimieren" (über einen Algorithmus zur Singulärwertzerlegung, der aus den Worthäufigkeiten zugrunde liegende Dimensionen extrahiert).
  • Die resultierende Datei mit den numerischen Informationen (Dimensionen, Häufigkeiten, relativen Häufigkeiten usw.) steht dann für weitere Analysen zur Verfügung.
  • Es gibt verschiedene Optionen, um die aus dem Text extrahierten Informationen in das Statistica-Datenblatt oder in externe Datenbanken zu übertragen.

Analyse von Dokumenten

Auf die numerischen Zusammenfassungen, die die Ausgangs-Texte repräsentieren, lassen sich grundsätzlich alle statistischen Analysemethoden anwenden:

  • Einfache Statistiken können die in den Dokumenten am häufigsten verwendeten Wörter anzeigen.
  • Durch Abbildung der Dokumente auf Dimensionen der so genannten Singulärwertzerlegung lassen sich Streuungsdiagramme erstellen, mit deren Hilfe die Ähnlichkeit von Dokumenten beurteilt werden kann.
  • Durch Abbildung der Dokumente auf Dimensionen, die auf Häufigkeiten der Wörter basieren, können gleichzeitig Mappings von Dokumenten und Wörtern erzeugt werden, die die "Bedeutung" der Dokumente reflektieren.
  • Cluster-Techniken (wie EM oder k-Means) können angewandt werden, um Gruppen ähnlicher Dokumente zu identifizieren.
  • Prädiktive Data-Mining-Techniken können dazu verwendet werden, die numerische Zusammenfassung von Dokumenten mit anderen interessierenden Indikatoren, wie beispielsweise betrügerische Absichten oder medizinische Diagnose, in Beziehung zu setzen.

Kontakt