|
|
2D 3D A B C D E F G H I J K L M N O P Q R S T U V W X Y Z |
|
Im Zusammenhang mit Text Mining hat der Prozess des Latent Semantic Indexing mit der Herleitung zugrundeliegender "Bedeutungs"-Größen der Wörter (Begriffe), die aus den Dokumenten extrahiert wurden, zu tun.
Das elementarste Ergebnis im Text Mining ist eine anfängliche Indizierung von in den Eingabedokumenten gefundenen Wörtern und die Berechnung einer Häufigkeitstabelle, die die Anzahl jedes Worts in jedem Eingabedokument aufführt. In der Praxis können Sie diese Fallzahlen außerdem weiter zu Indizes transformieren, die die (relative) "Wichtigkeit" von Wörtern und/oder ihre semantische Ausprägung im Zusammenhang mit den Eingabedokumenten (siehe beispielsweise inverse Dokumenthäufigkeit) besser wiedergeben.
Ein weiteres gebräuchliches analytisches Werkzeug zur Interpretation der "Bedeutung" oder des "semantischen Raums", der durch die extrahierten Wörter und damit durch die analysierten Dokumente beschrieben wird, ist die Abbildung der Wörter und Dokumente in einen gemeinsamen Raum, der aus den Worthäufigkeiten oder den transformierten Worthäufigkeiten (z. B. inversen Dokumenthäufigkeiten) berechnet wird. Im Allgemeinen funktioniert das folgendermaßen:
Nehmen wir an, Sie indizieren Kundenrezensionen ihres neuen Autos (z. B. nach unterschiedlichen Modellen). Sie stellen fest, dass, wenn eine Rezension den Begriff "Benzinverbrauch" enthält, Sie auch jedesmal den Begriff "Wirtschaftlichkeit" finden. Außerdem enthält jeder Bericht, in dem das Wort "Verlässlichkeit" vorkommt, auch das Wort "Defekte". Es gibt jedoch kein konsistentes Muster in Bezug auf die Verwendung der Begriffe "Wirtschaftlichkeit" und "Verlässlichkeit", d. h. einige Dokumente enthalten einen Begriff, einige beide und einige keinen. Mit anderen Worten, diese vier Wörter "Benzinverbrauch" und "Wirtschaftlichkeit" und "Verlässlichkeit" und "Defekte" beschreiben zwei unabhängige Größen. Die erste hat mit den Unterhaltskosten des Autos, die zweite mit der Qualität und Beschaffenheit zu tun.
Die Idee hinter Latent Semantic Indexing ist die Identifikation solcher zugrundeliegender Bedeutungs-Größen, in die Wörter und Dokumente abgebildet werden können. Als ein Ergebnis können Sie die zugrundeliegenden (latenten) Themen, die in den Eingabedokumenten beschrieben oder diskutiert werden, und außerdem die Dokumente, die die jeweiligen Größen (z. B. Wirtschaftlichkeit, Verlässlichkeit) am meisten behandeln, identifizieren.
In der Praxis (z. B. in STATISTICA Text Mining und Dokumentabruf) wird oft eine Singulärwert-Zerlegung angewandt, um die zugrundeliegenden semantischen Größen aus der Matrix von (transformierten) Worthäufigkeiten in Dokumenten zu extrahieren.
Für weitere Informationen siehe Manning und Schütze (2002). Siehe auch STATISTICA Text Mining und Dokumentabruf - Einführung.