zur Startseite Datenanalyse, Statistik, Data Mining, Qualitätssicherung und Six Sigma  –  Software & Dienstleistung


StatSoft (Europe) GmbH - Switzerlandvisit StatSoft (Europe) GmbH - Germanyvisit StatSoft Francevisit StatSoft Inc. - USA


   Haben Sie Fragen? Wir beraten Sie gerne!
Produkte & Lösungen > STATISTICA Professionell

STATISTICA Professionell

STATISTICA Basis wird für anspruchsvollere Anwendungen durch das Zusatzprodukt STATISTICA Professionell komplettiert. Es verbindet vertiefende statistische Verfahren und spezielle Grafiken mit der Leistungsfähigkeit und leichten Bedienbarkeit der STATISTICA-Technologie.

Damit Sie das Potenzial unserer Software voll ausschöpfen können, bieten wir regelmäßig Kurse in unseren Schulungsräumlichkeiten in Hamburg und Inhouse-Schulungen beim Kunden an (siehe Kursangebot).
  Firmen-Broschüre im PDF-Format

Informationen zu den Modulgruppen von STATISTICA Professionell:




Modulgruppe Höhere Modelle

Höhere Modelle bietet ein breites Spektrum von hochentwickelten linearen und nichtlinearen Modellierungswerkzeugen, unterstützt stetige und kategoriale Prädiktoren, Interaktionen, hierarchische Modelle, Einrichtungen zur automatischen Modellwahl, außerdem Varianzkomponenten, Zeitreihenanalyse und viele andere Verfahren. Alle Analysen sind mit interaktiven Grafiken und eingebautem Visual Basic-Skripting ausgestattet. Folgende Module sind enthalten:


 Varianzkomponenten und Gemischte-Modelle-ANOVA/ANCOVA

Varianzkomponenten und Gemischte-Modelle-ANOVA/ANCOVA ist ein spezielles Modul für Designs mit zufälligen Effekten und/oder Faktoren mit vielen Stufen. Optionen zur Behandlung von zufälligen Effekten und Schätzung von Varianzkomponenten werden auch im Modul Allgemeine Lineare Modelle angeboten. Solche Faktoren treten häufig in der industriellen Forschung bei der Realisierung einer zufälligen Variablen als Faktorstufen auf, so dass letztere nicht vom Experimentator oder Ingenieur gezielt eingestellt werden können. Das Modul Varianzkomponenten erlaubt die Analyse von Designs mit beliebigen Kombinationen fester/zufälliger Effekte und mit Kovariablen. Es können ANOVA/ANCOVA-Designs selbst extremer Größe effektiv analysiert werden. Die Faktoren können Hunderte von Stufen besitzen. Die Software analysiert gewöhnliche faktorielle kreuzklassifizierte Designs und berechnet die üblichen Typ I-, II- und III-Quadratsummen der Varianzanalyse sowie die mittleren Quadrate für die im Modell befindlichen Effekte. Außerdem können Sie die Tabelle der erwarteten mittleren Quadrate für die im Modell befindlichen Effekte, die Varianzkomponenten für die zufälligen Effekte im Modell, die Koeffizienten der Nenner-Synthese (denominator synthesis) und die vollständige ANOVA-Tabelle mit den auf den zusammengesetzten (synthetisierten) Fehlertermen und den entsprechenden Freiheitsgraden basierenden Tests berechnen (unter Verwendung von Satterthwaites Methode). Darüber hinaus werden weitere Methoden zur Schätzung der Varianzkomponenten unterstützt (z.B. MIVQUE(0), Maximum-Likelihood (ML), Restringierte Maximum-Likelihood (REML)). Für die Maximum-Likelihood-Schätzung werden der Newton-Raphson- und der Fisher-Scoring-Algorithmus verwendet. Für die Anzeige der gewichteten und ungewichteten Randmittelwerte und deren Konfidenzintervallen stehen verschiedene Optionen zur Verfügung. Umfangreiche Grafik-Optionen können für die Visualisierung der Ergebnisse eingesetzt werden.

nach oben

 Survival- und Ausfallzeitenanalyse

Dieses Modul enthält eine umfassende Implementation einer Vielzahl von Verfahren zur Analyse zensierter Daten sowohl aus der biologischen, medizinischen und Sozialforschung als auch aus den Ingenieurwissenschaften und der Marktforschung. Neben der Berechnung von Sterbetafeln mit verschiedenen deskriptiven Statistiken und Kaplan-Meier-Schätzern kann der Benutzer die Survival-Funktionen in verschiedenen Gruppen unter Verwendung einer Reihe von Testverfahren vergleichen. Dazu gehören Gehan-Test, Cox' F-Test, Cox-Mantel-Test, Log-Rang-Test und Peto & Petos verallgemeinerter Wilcoxon-Test. Außerdem können Kaplan-Meier-Plots für Gruppen erstellt werden, wobei die unzensierten Beobachtungen in den Grafiken durch verschiedene Punktmuster gekennzeichnet werden. Die Software bietet weiter eine Auswahl von Verfahren zur Anpassung von Survival-Funktionen an die Daten (Exponential, Linear-Hazard, Gompertz und Weibull), die auf ungewichteten oder gewichteten KQ-Methoden basieren. Maximum-Likelihood-Schätzungen der Parameter für verschiedene Verteilungen, einschließlich der Weibull-Verteilung, können in der Prozessanalyse von STATISTICA Industriell durchgeführt werden. Schließlich enthält die Software vollständige Implementationen der vier allgemeinen Modelle (Cox’ Proportional Hazard Modell, exponentielle Regression, lognormale und normale Regressionsmodelle) mit ausführlichen Diagnose-Kenngrößen, einschließlich geschichteter Analysen und Grafiken der Survival-Funktion für benutzerspezifizierte Werte der Prädiktor-Variablen. Für die Cox-Regression kann der Benutzer die Stichprobe schichten, um verschiedene Grundlinienfunktionen (baseline hazards) und Koeffizientenvektoren in verschiedenen Schichten behandeln zu können. Darüber hinaus stehen Funktionen für die Definition einer oder mehrerer zeitabhängiger Kovariablen zur Verfügung. Diese zeitabhängigen Kovariablen können mit Hilfe eines flexiblen Formelinterpreters definiert werden, der es dem Benutzer ermöglicht, die Kovariablen über arithmetische Ausdrücke zu spezifizieren, die sowohl die Zeit als auch logische Funktionen (z.B. timdep=age+age*log(t)*(age>45), wobei t die Zeit beschreibt) sowie Verteilungsfunktionen enthalten können. Wie in allen anderen Modulen von STATISTICA auch kann der Benutzer auf die technischen Parameter aller Verfahren zugreifen, um diese ggf. zu verändern. Das Modul enthält schließlich eine umfassende Auswahl an Grafiken und speziellen Diagrammen, um die Interpretation der Ergebnisse zu unterstützen, wie z.B. Plots der Survival-Funktion, Muster der zensierten Daten, Hazard- und kumulierte Hazard-Funktionen, Wahrscheinlichkeitsdichten, Plots zum Vergleich von Gruppen, Plots zur Verteilungsanpassung, verschiedene Residuenplots und viele weitere. Für ingenieurtechnische Anwendungen siehe auch Weibull-Analyse.

nach oben

 Allgemeine nichtlineare Regression (und Logit/Probit).

Das Modul Nichtlineare Regression ermöglicht dem Benutzer die Anpassung beliebiger Typen nichtlinearer Modelle. Eine der speziellen Eigenschaften dieses Moduls besteht darin, dass – im Unterschied zu traditionellen Programmen der nichtlinearen Regression – die Größe der Datendatei keine Rolle spielt.

Schätzmethoden.  Die Modelle können unter Verwendung von KQ- oder Maximum-Likelihood-Schätzverfahren bzw. basierend auf benutzerdefinierten Verlustfunktionen angepasst werden. Auf der Basis des Kleinste-Quadrate-Kriteriums lassen sich der hocheffiziente Levenberg-Marquardt- und der Gauss-Newton-Algorithmus zur Parameterschätzung für beliebige lineare und nichtlineare Regressionsprobleme einsetzen. Für große Datensätze oder schwierige nichtlineare Regressionsprobleme auf der Basis Kleinster Quadrate ist dies die empfohlene Methode zur Berechnung präziser Parameterschätzwerte. Der Benutzer kann aus vier leistungsfähigen Optimierungsverfahren zur konkreten Parameterschätzung auswählen: Quasi-Newton, Simplex, Koordinatensuche nach Hooke-Jeeves sowie Rosenbrock-Suchverfahren der rotierenden Koordinaten. Damit erhält man stabile Parameterschätzungen in nahezu allen Fällen, selbst bei numerisch anspruchsvollen Problemen (siehe Validation Benchmarks  US-Link).

Modelle.  Der Benutzer kann die Modellgleichung einfach dadurch spezifizieren, dass er die Gleichung in einem speziellen Editor eingibt. Die Gleichungen können logische Operatoren enthalten, wodurch es möglich wird, unstetige, d.h. stückweise definierte, Regressionsmodelle und Modelle mit Indikatorvariablen zu spezifizieren. In den Gleichungen kann auf eine breite Auswahl von Verteilungen Bezug genommen werden. Dazu gehören Beta-, Binomial-, Cauchy-, Chi-Quadrat-, Exponential-, Extremwert-, F-, Gamma-, Geometrische, Laplace-, Logistische, Normal-, Lognormal-, Pareto-, Poisson-, Rayleigh-, Students t- sowie Weibull-Verteilung (Dichte- bzw. Wahrscheinlichkeitsfunktion, Verteilungsfunktion und deren Inverse). Der Benutzer kann alle Aspekte des Schätzverfahrens, wie z.B. Startwerte, Schrittweiten, Konvergenzkriterien, in vollem Umfang kontrollieren. Die am häufigsten benötigten Regressionsmodelle sind im Modul Nichtlineare Regression vordefiniert und können einfach als Menüoptionen abgerufen werden. Diese Modelle schließen schrittweise Probit- und Logit-Regression, das exponentielle Regressionsmodell und stückweise lineare Regression (mit Strukturbruch) ein. Zu beachten ist, dass STATISTICA auch Implementierungen mächtiger Algorithmen zur Anpassung von verallgemeinerten linearen Modellen enthält, einschließlich Probit und multinomialer Logit-Modelle, sowie verallgemeinerte additive Modelle.

Ergebnisse.  Zusätzlich zu verschiedenen deskriptiven Statistiken enthält die Standardausgabe die Parameterschätzungen, deren Standardfehler, die unabhängig von den Schätzungen selbst berechnet werden (siehe Validation Benchmarks  US-Link), die Kovarianzmatrix der Parameterschätzungen, die Prognosewerte, Residuen und Maße für die Anpassungsgüte (z.B. die Log-Likelihood der geschätzten/Nullmodelle und den Chi-Quadrat-Test der Differenz an erklärter Varianz, Klassifikation der Fälle und Odds-Ratios für Logit- und Probit-Modelle). Die Prognosewerte und die Residuen können der Datendatei für weitere Analysen hinzugefügt werden. Für Probit- und Logit-Modelle wird der Gewinn bzw. Verlust an Anpassung automatisch berechnet, wenn Parameter dem Modell hinzugefügt oder aus diesem entfernt werden, d.h. der Benutzer kann die Modelle anhand schrittweiser nichtlinearer Verfahren an die Daten erkunden. Optionen zur automatischen schrittweisen Regression (vorwärts und rückwärts) sowie Beste-Subset-Auswahl von Prädiktoren in Logit- und Probit-Modellen werden im Modul Verallgemeinerte Lineare/Nichtlineare Modelle angeboten.

Grafiken.  In die Ausgabe der Ergebnisse ist eine umfassende Auswahl von Grafiken integriert. Dazu gehören 2D- und 3D-Flächenplots, die dem Benutzer die Güte der Anpassung verdeutlichen und die Identifikation von Ausreißern ermöglichen. Der Benutzer kann interaktiv die Gleichung der angepassten Funktion korrigieren, ohne die Daten neu verarbeiten zu müssen, und nahezu alle Aspekte des Schätzprozesses visualisieren. Viele weitere spezielle Grafiken dienen der Bewertung der Güte der Anpassung und der Visualisierung der Ergebnisse, wie z.B. Histogramme aller ausgewählten Variablen und der Residuen, Scatterplots der Beobachtungswerte gegen die Prognosewerte sowie Prognosewerte gegen Residuen, einfache und einseitige Normalverteilungsplots der Residuen und weitere.

nach oben

 Loglineare Analyse

Dieses Modul enthält eine vollständige Implementation von Verfahren der Modellierung loglinearer Ansätze für mehrdimensionale Häufigkeitstabellen. Zu beachten ist, dass STATISTICA auch das Modul Verallgemeinerte Lineare/Nichtlineare Modelle enthält, welches Optionen zur Analyse von binomialen und multinomialen Logit-Modellen mit kodierten ANOVA/ANCOVA-ähnlichen Designs anbietet. Die Software analysiert Tabellen mit bis zu sieben Dimensionen. Sowohl vollständige als auch unvollständige Tabellen mit strukturellen Nullen können analysiert werden. Häufigkeitstabellen können aus Einzeldaten erstellt oder im Programm direkt eingegeben werden. Das Modul Loglineare Analyse bietet eine umfassende Auswahl von anspruchsvollen Verfahren zur Modellierung in einer interaktiven und flexiblen Umgebung, die explorative und konfirmatorische Analysen selbst komplexer Tabellen in hohem Maße unterstützt. Der Benutzer kann an jeder Stelle der Analyse sowohl die vollständige Tabelle als auch die Marginaltabellen betrachten. Darüber hinaus können die erwarteten Häufigkeiten ausgegeben werden. Die Anpassung aller marginalen und partiellen Assoziationsmodelle kann bewertet werden; es können außerdem spezielle Modelle an die beobachteten Daten angepasst werden. Für die Auswahl des bestangepassten Modells beinhaltet die Software eine intelligente Prozedur zur automatischen Modellwahl, die zunächst die für die Anpassung erforderliche Ordnung der Interaktionen bestimmt, um anschließend über Rückwärts-Elimination das beste Modell zu finden, das an die Daten hinreichend gut angepasst ist. Die Kriterien für die Güte der Anpassung werden vom Benutzer spezifiziert. Die Standardausgabe beinhaltet u.a. G-Quadrat (Maximum-Likelihood-Chi-Quadrat), die gewöhnliche Pearsonsche Chi-Quadrat-Statistik mit entsprechenden Freiheitsgraden und Signifikanzniveaus, die Tabellen mit den beobachteten und erwarteten Häufigkeiten. Die im Modul Loglineare Analyse verfügbaren Grafikoptionen schließen eine Vielzahl von 2D- und 3D-Grafiken ein, die speziell für die Visualisierung von zwei- und mehrdimensionalen Häufigkeitstabellen konzipiert wurden, z.B. interaktive, benutzerkontrollierte Stapel von Histogrammen in Kategorien und 3D-Histogrammen, die Schichten der mehrdimensionalen Tabellen darstellen, Plots von beobachteten und erwarteten Häufigkeiten, Plots verschiedener Residuen (standardisiert, Komponenten der Maximum-Likelihood-Chi-Quadrat-Statistik, Freeman-Tukey-Reste ) und weitere.

nach oben

 Zeitreihenanalyse / Prognose

  Das Modul Zeitreihen enthält eine ganze Reihe von verschiedenen Verfahren: deskriptive Verfahren, Modellierung, Zerlegung und Prognose sowohl für Modelle in der Zeit als auch für Modelle im Frequenzbereich. Alle diese Prozeduren sind integriert, d.h. dass die Ergebnisse einer Analyse, z.B. die Residuen eines ARIMA-Modells, direkt in der folgenden Analyse verwendet werden können, um z.B. die Autokorrelation der Residuen zu berechnen. Außerdem stehen flexible Optionen für die grafische Darstellung einzelner oder mehrerer Zeitreihen zur Verfügung. Im aktiven Arbeitsbereich können mehrere Reihen, z.B. aus der Eingabe oder verschiedenen Stadien der Analyse, verwaltet werden; diese Zeitreihen können betrachtet und verglichen werden. Das Programm verfolgt automatisch aufeinanderfolgende Analysen und verwaltet ein Protokoll der Transformationen und weiterer Ergebnisse, wie z.B. ARIMA-Residuen, Saison-Komponenten Der Benutzer kann folglich stets zu vorangegangenen Transformationen zurückkehren oder die Originalreihe mit ihren Transformationen, z.B. anhand von Plots, vergleichen. Informationen über die Transformationen werden in Form von langen Variablen-Labels abgelegt, so dass beim Speichern der neu erzeugten Variablen die gesamte "Vorgeschichte" der Zeitreihe erhalten bleibt. Die speziellen Verfahren des Moduls Zeitreihen werden in den folgenden Unterabschnitten beschrieben.

Transformationen, Modellierung, Plots, Autokorrelationen.  Die verfügbaren Transformationen ermöglichen dem Benutzer die vollständige Untersuchung von Mustern in der eingegebenen Zeitreihe und die Durchführung aller gebräuchlichen Transformationen von Zeitreihen einschließlich: Trendbereinigung, Elimination von Autokorrelationen, Glättung über gleitende Mittel (ungewichtet und gewichtet, mit benutzerdefinierten oder Daniell-, Tukey-, Hamming-, Parzen- oder Bartlett-Gewichten), Glättung anhand gleitender Mediane, einfaches exponentielles Glätten (siehe auch die Beschreibung aller Optionen des exponentiellen Glättens weiter unten), Differenzieren, Integrieren, Residuenbildung, Shifting, 4253H-Filter, Tapering, Fourier- (und inverse) Transformationen und weitere. Analysen der Autokorrelation, der partiellen Autokorrelation und der Kreuzkorrelation können außerdem durchgeführt werden.

ARIMA und Zeitreihen mit Strukturbruch, Interventionsanalyse.  Das Modul Zeitreihen bietet eine vollständige Implementation von ARIMA-Verfahren. Die Modelle können eine Konstante enthalten und die Reihe kann vor dem Beginn der Analyse transformiert werden. Diese Transformationen werden automatisch "rückgängig" gemacht, nachdem die ARIMA-Prognosen berechnet wurden, so dass die Prognosen und deren Standardfehler in Abhängigkeit von den Werten der Originalreihe beschrieben werden. Es können approximative und exakte bedingte Maximum-Likelihood-Quadratsummen berechnet werden. Die ARIMA-Implementation im Modul Zeitreihen ist speziell für die Anpassung von Modellen mit langen Saisonperioden (z.B. Perioden von 30 Tagen) ausgelegt. Die Standardausgabe umfasst die Parameterschätzungen, deren Standardfehler und die Korrelationen der Parameter. Weiter können Prognosen und deren Standardfehler berechnet, geplottet und an die Datendatei angefügt werden. Darüber hinaus stehen zahlreiche Optionen für die Untersuchung der ARIMA-Residuen zur Verfügung, einschließlich einer großen Auswahl an Grafiken. Die Implementation von ARIMA im Modul Zeitreihen erlaubt dem Benutzer die Behandlung von Zeitreihen mit Strukturbruch (Interventionsanalyse). Verschiedene gleichzeitig auftretende Interventionen können modelliert werden, die entweder einparametrische abrupt-permanente Interventionen, zweiparametrische graduelle oder temporäre Interventionen darstellen können. Für die Betrachtung der verschiedenen Wirkungsmuster können Grafiken herangezogen werden. Prognosen können für alle Interventionsmodelle berechnet werden, die anschließend sowohl grafisch dargestellt als auch an die Datendatei angefügt werden können.

Exponentielles Glätten mit und ohne Saisonkomponente.  Das Modul Zeitreihen enthält eine vollständige Implementation aller zwölf gebräuchlichen Modelle zur exponentiellen Glättung. Für die Modelle kann eine additive oder multiplikative Saison-Komponente und/oder ein linearer, exponentieller oder gedämpfter Trend spezifiziert werden; folglich sind auch die häufig verwendeten Holt-Winter-Modelle mit linearem Trend enthalten. Der Benutzer kann den Startwert für die geglättete Reihe, den Startwert für den Trend und ggf. Startwerte für die Saison-Faktoren spezifizieren. Außerdem kann der Benutzer eine Gittersuche im Parameterraum veranlassen, um die optimalen Glättungsparameter zu bestimmen. Die Tabellen mit den Ergebnissen der Suche enthalten den mittleren Fehler, den mittleren absoluten Fehler, die Summen der Quadrate für den Fehler, den mittleren quadratischen Fehler, den mittleren prozentualen Fehler und den mittleren absoluten prozentualen Fehler für alle Kombinationen der Parameterwerte. Der kleinste Werte dieser Indizes wird in der Ergebnistabelle markiert. Darüber hinaus kann der Benutzer eine automatische Suche nach den besten Parametern in Bezug auf den mittleren quadratischen Fehler, den mittleren absoluten Fehler oder den mittleren absoluten prozentualen Fehler anfordern. Für diese Minimumsuche steht ein allgemeines Optimierungsverfahren zur Verfügung. Die Ergebnisse des jeweiligen exponentiellen Glättens, die Residuen und die geforderte Anzahl an Prognosen, stehen für weitere Analysen und Plots bereit. Ein zusammenfassender Plot dient der Bewertung der Adäquatheit des jeweiligen Modells der exponentiellen Glättung; dieser Plot zeigt die Originalreihe gemeinsam mit den geglätteten Werten und Prognosen, während die Residuen separat gegen die rechte Y-Achse geplottet werden.

Klassische Saisonbereinigung (Census I-Methode).  Der Benutzer kann die Länge der Saison-Periode spezifizieren und zwischen dem additiven oder multiplikativen Saison-Modell wählen. Die Software berechnet gleitende Mittelwerte, Quotienten oder Differenzen, Saison-Faktoren, die saisonbereinigte Reihe, den geglätteten Trend-Zyklus und die irreguläre Komponente. Diese Komponenten stehen für weitere Analysen zur Verfügung; so können z.B. Histogramme, Normalverteilungsplots für ausgewählte oder alle Komponenten erstellt werden, um die Adäquatheit des Modells zu überprüfen.

X11-Verfahren zur Saisonbereinigung für Monate und Quartale (Census II-Methode).  Das Modul Zeitreihen enthält die vollständige Implementation einer X11-Variante des US Bureau of the Census der Census II-Methode zur Saisonbereinigung. Obwohl der ursprüngliche X-11-Algorithmus nicht Jahr-2000-kompatibel war (nur Daten bis vor Januar 2000 konnten analysiert werden), kann die STATISTICA-Implementierung von X11 sowohl Daten vor als auch nach dem 1. Januar 2000 behandeln. Die Anordnung der Dialoge und Optionen ist an die Definitionen und Konventionen angelehnt, die in der Dokumentation des Bureau of the Census beschrieben sind. Es können additive und multiplikative Saison-Modelle spezifiziert werden. Der Benutzer kann außerdem Faktoren für Arbeitstage und die Saisonbereinigung spezifizieren. Die Variabilität aufgrund der Arbeitstage kann mittels Regression geschätzt und zur Bereinigung der Reihe eingesetzt werden. Für die Bewertung extremer Beobachtungen, für die Berechnung der Saison-Faktoren und der Trend-Zyklus-Komponente stehen die Standard-Optionen zur Verfügung. Der Benutzer kann dabei aus verschiedenen Typen gleitender Mittel auswählen; wobei die optimale Länge und der Typ des gleitenden Mittels vom Programm auch automatisch gewählt werden kann. Die Komponenten der Bereinigung (Saison, Trend-Zyklus, irregulär) und die saisonbereinigte Reihe stehen für weitere Analysen und Plots zur Verfügung. Diese Komponenten können für weitere Analysen in anderen Programmen gespeichert werden. Die Software erstellt Plots der verschiedenen Komponenten, einschließlich Plots in Kategorien für Monate oder Quartale.

Polynomial-Distributed-Lags-Analyse.  Die Implementation der Distributed-Lags-Verfahren im Modul Zeitreihen schätzt sowohl Modelle mit unrestringierten Lags (zeitverschobenen Werten) als auch Modelle für (restringierte) Distributed Lags nach Almon. Für die Untersuchung der Verteilungen der Variablen des Modells steht eine Auswahl von Grafiken zur Verfügung.

Spektralanalyse (Fourier-Analyse) und Kreuzspektralanalyse. Das Modul Zeitreihen enthält eine vollständige Implementation von Verfahren der Spektralanalyse (Fourier-Zerlegung) und Kreuzspektralanalyse. Die Software ist speziell für die Analyse auch ungewöhnlich langer Zeitreihen mit z.B. über 250 000 Beobachtungen ausgelegt. Es werden keinerlei Bedingungen an die Länge der Reihe gestellt; die Länge der Reihe muss beispielsweise keine Potenz von 2 sein. Der Benutzer kann sich jedoch auch für Padding (Anfügen von Nullen am Ende) oder Abschneiden der Reihe entscheiden. Die vor der Analyse durchführbaren Standard-Transformationen beinhalten Tapering, Subtraktion des Mittelwertes und Trendbereinigung. Bei einfacher Spektralanalyse beinhalten die Ergebnisse Frequenzen, Perioden, Sinus- und Kosinus-Koeffizienten, Werte des Periodogramms und Spektraldichteschätzungen. Die Dichteschätzungen können anhand von vordefinierten Datenfenstern (Daniell, Hamming, Bartlett, Tukey, Parzen) oder benutzerdefinierten Datenfenstern gewonnen werden. Für besonders lange Reihen steht eine nützliche Option zur Verfügung. Diese Option veranlasst, dass nur eine benutzerdefinierte Anzahl der größten Periodogramm- oder Dichtewerte in absteigender Reihenfolge angezeigt wird. So können die größten Peaks in Periodogramm oder Spektraldichte bei langen Zeitreihen leichter identifiziert werden. Der Benutzer kann den Kolmogorov-Test für die Werte des Periodogramms anfordern, um zu testen, ob diese Werte exponentialverteilt sind, d.h. ob die Originalreihe ein weißes Rauschen darstellt. Zahlreiche Plots stehen zur Visualisierung der Ergebnisse zur Verfügung; es können die Sinus- und Kosinus-Koeffizienten, die Werte von Periodogramm, Log-Periodogramm, Spektraldichte und Log-Dichte gegen die Frequenzen, Perioden oder Log-Perioden geplottet werden. Für lange Zeitreihen kann der Benutzer das Segment (die Periode) auswählen, für das Periodogramm oder Spektraldichte darzustellen sind, wodurch die "Auflösung" des jeweiligen Plots erhöht wird. Bei der Kreuzspektralanalyse werden zu den Ergebnissen der einfachen Spektralanalyse für jede einzelne Reihe Kreuz-Periodogramm (Real- und Imaginärteil), Kospektraldichte, Quadraturspektrum, Kreuz-Amplitude, Kohärenzwerte, Gainwerte und das Phasenspektrum ausgegeben. Alle diese Statistiken können gegen die Frequenz, Periode oder Log-Periode geplottet werden; entweder für alle Perioden (Frequenzen) oder nur für einen benutzerdefinierten Ausschnitt. Eine benutzerdefinierte Anzahl der größten Werte des Kreuz-Periodogramms (real oder imaginär) kann in einer Ergebnistabelle in absteigender Ordnung dargestellt werden, um die größten Peaks bei der Auswertung langer Zeitreihen leichter identifizieren zu können. Wie bei allen Prozeduren des Moduls Zeitreihen auch können die resultierenden Zeitreihen dem aktiven Arbeitsbereich hinzugefügt werden, wodurch sie für weitere Analysen mit anderen Verfahren der Zeitreihenanalyse oder anderen Modulen von STATISTICA verfügbar sind.

Verfahren zur Prognose auf Regressionsbasis.  Schließlich bietet STATISTICA Verfahren der Zeitreihenanalyse, die auf Verfahren der Regressionsanalyse basieren (einschließlich Regression durch den Ursprung, nichtlinearer Regression und interaktiver Was-wäre-wenn-Prognose).

nach oben

 Modellierung von Strukturgleichungen und Pfadanalyse (SEPATH)

STATISTICA enthält eine umfassende Implementation von Verfahren zur Modellierung von Strukturgleichungen, die von einer flexiblen Funktionalität zur Durchführung von Monte Carlo-Studien ergänzt wird (SEPATH). Das Modul SEPATH ist ein "State-of-the-Art"-Programm mit einer intelligenten Benutzeroberfläche. Es bietet eine umfassende Auswahl von Modellierungsverfahren, wobei die Spezifikation selbst komplexer Modelle ohne Verwendung einer Befehlssyntax möglich ist. Mit Hilfe der Assistenten und des Pfadedítors können Sie die Analyse in einfacher Weise unter Verwendung von Menüs und Dialogen spezifizieren; die Beherrschung einer "Sprache" ist, anders als bei anderen Programmen zur Modellierung von Strukturgleichungen, nicht erforderlich. SEPATH stellt eine vollständige Implementation dar, die zahlreiche fortgeschrittene Verfahren enthält. Die Software kann Matrizen von Korrelationen, Kovarianzen und Momenten (strukturelle Mittelwerte, Modelle mit Konstanten) analysieren. Alle Modelle können mit Hilfe des Pfad-Assistenten, des Faktorenanalyse-Assistenten und des Pfadeditors spezifiziert werden; diese Funktionalitäten arbeiten sehr effektiv und ermöglichen es dem Benutzer, selbst komplexe Modelle in wenigen Minuten zu spezifizieren, indem in den jeweiligen Dialogen eine Auswahl getroffen wird. Das Modul SEPATH berechnet, unter Verwendung von Verfahren zur Optimierung unter Nebenbedingungen, die jeweiligen Standardfehler für standardisierte Modelle und für Modelle, die an Korrelationsmatrizen angepasst wurden. Die Ergebnisse beinhalten sowohl einen umfangreichen Satz von Diagnose-Kenngrößen, einschließlich der Standardindizes für die Güte der Anpassung als auch Nichtzentralitäts-Indizes, die auf jüngste Untersuchungen auf dem Gebiet der Modellierung von Strukturgleichungen zurückgehen. Der Benutzer kann Modelle an mehrere Stichproben (Gruppen) anpassen, wobei für jede Gruppe feste, freie oder restringierte (identisch über die Gruppen) Parameter spezifiziert werden können. Die Analyse von Moment-Matrizen ermöglicht Ihnen die Software das Testen komplexer Hypothesen über strukturelle Mittelwerte in verschiedenen Gruppen. Die Dokumentation des Moduls SEPATH enthält zahlreiche detaillierte Beschreibungen von Beispielen aus der Literatur zur Konfirmatorischen Faktorenanalyse, zur Pfadanalyse, zu Modellen zur Testtheorie für Sets von Congeneric Tests, zu einem Multi-Trait Multi-Method Modell, zur longitudinalen Faktorenanalyse, zu Tests auf verbundene Symmetrie, strukturellen Mittelwerten und zu weiteren Themen.

SEPATH Monte Carlo-Studien.  Das Modul Modellierung von Strukturgleichungen (SEPATH) enthält leistungsstarke Optionen zur Durchführung von Monte Carlo-Experimenten: Der Benutzer kann Datensätze für vordefinierte Modelle generieren und speichern, die auf normalen oder schiefen Verteilungen basieren. Es können sowohl Bootstrap-Schätzungen berechnet als auch Verteilungen für verschiedene Diagnose-Kenngrößen, Parameterschätzungen usw. anhand von Monte Carlo-Experimenten bestimmt werden. Darüber hinaus stehen zahlreiche Grafikoptionen zur Visualisierung der Ergebnisse zur Verfügung.

nach oben

 Allgemeine Lineare Modelle (ALM)

Das Modul Allgemeine Lineare Modelle (ALM) analysiert Wirkungen von kategorialen oder stetigen unabhängigen Variables auf eine oder mehrere stetige abhängige Variablen. ALM ist nicht nur das hochentwickeltste der gegenwärtig auf dem Markt verfügbaren ALM-Werkzeuge, sondern auch das umfassenste mit breiten Anwendungsmöglichkeiten. Es enthält ein große Auswahl von Optionen, Grafiken, begleitet von Statistiken und ausgedehnten Diagnosewerkzeugen. ALM bietet ein breites Spektrum von Optionen zur Handhabung von sogenannten "kontroversen Problemen", für die es keine übereinstimmende Lösung gibt. ALM berechnet alle Standardergebnisse, einschließlich ANOVA-Tabellen mit univariaten und multivariaten Tests, deskriptiven Statistiken, usw. ALM bietet viele Optionen für Ergebnisse und Grafiken, die in anderen Programmen zumeist nicht verfügbar sind. Darüber hinaus bietet ALM einfache Wege zum Test von Linearkombinationen von Parameterschätzwerten, Spezifikationen von benutzerdefinierten Fehlertermen und Effekten, umfassende Verfahren von Post-Hoc-Vergleichen für Zwischengruppeneffekte und Messwiederholungseffekte sowie deren Interaktionen. Weitere Informationen über ALM  US-Link.

nach oben

 Allgemeine Regressionsmodelle (ARM).

STATISTICA Allgemeine Regressionsmodelle (ARM) bietet dem Anwender eine hochflexible Implementierung der Optionen für Standardergebnisse und spezielle Ergebnisse im allgemeinen linearen Modell, ebenso wie einen umfassenden Satz von Verfahren der schrittweisen Regression und des besten Subsets zur Modellentwicklung für Effekte von stetigen und kategorialen Prädiktorvariablen. Das "Allgemein" in Allgemeine Regressionsmodelle bezieht sich also sowohl auf den Einsatz des allgemeinen linearen Modells, als auch auf die Aufhebung der Beschränkung auf Analysen von Designs mit stetigen Prädiktorvariablen, welcher die meisten anderen Programme zur schrittweisen Regression unterliegen. Außerdem enthält ARM spezielle Ergebnisoptionen für Regressionsanalysen wie Paretodiagramme von Parameterschätzwerten, Gesamtmodelltests mit diversen Verfahren zur Bestimmung von Modellen ohne Achsenabschnitt, partielle und semi-partielle Korrelation, usw. Weitere Informationen über ARM  US-Link.

nach oben

 Verallgemeinerte Lineare/Nichtlineare Modelle (VLM).

Die Verallgemeinerten Linearen/Nichtlinearen Modelle (VLM) dienen zum Aufspüren von linearen und nichtlinearen Beziehungen zwischen einer Wirkungsvariablen und kategorialen oder stetigen Prädiktorvariablen. Zu den spezielle Anwendungen der verallgemeinerten linearen Modelle zählen die binomiale und multinomiale Logit-Regression und die Probit-Regression oder Signalerfassungsmodelle. Das Modul VLM wird Statistiken für alle Standardergebnisse berechnen, einschließlich Likelihood-Ratio-Tests, sowie Wald- und Score-Tests für signifikante Effekte, Parameterschätzwerte samt ihren Standardfehlern und Konfidenzintervallen, usw. Die Benutzeroberflächen und Verfahren zur Designspezifikation entsprechen denen in ALM, ARM und PKQ. Der Benutzer kann auf einfache Weise beispielsweise ANOVA- oder ANCOVA-ähnliche Designs, Wirkungsflächendesigns, Simplexdesigns für Mischungen spezifizieren. Somit dürften auch Neueinsteiger keine Schwierigkeiten in der Anwendung von verallgemeinerten linearen Modelle bei der Analyse ihrer Daten haben. Außerdem enthält VLM eine breite Auswahl von Werkzeugen zur Modellprüfung wie Tabellen und Grafiken für diverse Residualstatistiken und zur Diagnose von Ausreißern, einschließlich roher Residuen, Pearson-Residuen, Deviance-Residuen, studentisierter Pearson-Residuen, studentisierter Deviance-Residuen, Likelihood-Residuen, differenzieller Chi-Quadrat-Statistiken, differentieller Deviance und generalisierter Cook-Distanzen, usw. Weitere Informationen über VLM  US-Link.

nach oben

 Modelle Partieller Kleinster Quadrate (PKQ).

Modelle Partieller Kleinster Quadrate (PKQ) enthält eine umfassende Auswahl von Algorithmen für univariate und multivariate Probleme der partiellen kleinsten Quadrate. PKQ berechnet alle Standardresultate für Analysen mit partiellen kleinsten Quadraten. Außerdem bietet es viele Ergebnisoptionen und insbesondere Grafikoptionen, die in anderen Implementierungen zumeist nicht enthalten sind. Beispielsweise Grafiken von Parameterwerten als Funktion der Komponentenanzahl, zweidimensionale Plots für alle Ausgabestatistiken (Parameter, Faktorladungen, usw.), zweidimensionale Plots für alle Residualstatistiken, usw. Weil PKQ eine den ALM, ARM und VLM entsprechende flexible Benutzeroberfläche bietet, können auf einfache Weise in einem Modul bestimmte Modelle entwickelt und danach in PLS ausgewertet werden. Diese einzigartige Flexibilität ermöglicht auch Neueinsteigern den Einsatz dieser mächtigen Verfahren bei der Analyse ihrer Daten. Die Methode partieller kleinster Quadrate ist auch ein mächtiges Verfahren für Data-Mining, insbesondere bei der Bestimmung einer kleinen Anzahl von Dimensionen für eine große Anzahl von Prädiktoren und Response-Variablen. Diese Methode zur Analyse von linearen Systemen ist in den letzten Jahren sehr populär geworden, so dass viele der Algorithmen und Statistiken sich noch in der Entwicklung befinden. Weitere Informationen über PKQ  US-Link.

nach oben



Modulgruppe Explorative Verfahren

Explorative Verfahren bietet eine breite Auswahl explorativer Verfahren, von der Clusteranalyse bis zu höheren Methoden wie den Klassifikationsbäumen. Die Verfahren enthalten viele Werkzeuge der interaktiven Visualisierung zur Exploration von Beziehungen und Mustern in Daten sowie ein integriertes Visual Basic-Skripting. Explorative Verfahren umfasst folgende Module:


 Clusteranalyse

Dieses Modul enthält eine umfassende Implementation von Methoden zur Clusterung (k-Means, hierarchisch, 2-fach agglomerativ). Die Software kann sowohl Einzeldaten als auch Distanzmatrizen wie z.B. Korrelationsmatrizen verarbeiten. Der Benutzer kann Fälle, Variablen oder beides basierend auf einer Vielzahl von Distanzmaßen [Euklidisch, quadriert Euklidisch, City-block (Manhattan), Chebychev, Power-Distanzen, Prozent Nichtübereinstimmung und 1-Pearsons r] clustern. Als Fusionregeln stehen Single Linkage, Complete Linkage, Weighted und Unweighted Group Average oder Centroid, Ward-Methode und weitere Verfahren zur Verfügung. Die Distanzmatrizen können für weitere Analysen gespeichert werden. Beim k-Means-Verfahren hat der Benutzer die vollständige Kontrolle über die anfänglichen Cluster-Zentren. Dabei können Designs von extremer Größe verarbeitet werden: Die hierarchischen Verfahren können Matrizen von 1000 Variablen oder einer Million Distanzen behandeln. Zusätzlich zu den üblichen Ergebnissen einer Clusteranalyse ist ein breiter Satz deskriptiver Statistiken und Diagnose-Kenngrößen verfügbar. So wird z.B. das vollständige Fusionsprotokoll bei hierarchischen Verfahren oder die ANOVA-Tabelle bei k-Means ausgegeben. Die Information über die Clusterzugehörigkeit kann der Datendatei zur weiteren Bearbeitung angefügt werden. Die Grafikoptionen des Moduls beinhalten Baumdiagramme, diskrete Matrixplots, grafische Darstellungen des Fusionsprotokolls, Plots der Mittelwerte bei k-Means-Verfahren und viele weitere.

nach oben

 Faktorenanalyse

Das Modul Faktorenanalyse stellt eine umfassende Implementation von Verfahren der Faktorenanalyse bereit, die durch zahlreiche Diagnose-Kenngrößen und eine breite Auswahl analytischer und explorativer Grafiken ergänzt wird. Die Software führt Hauptkomponentenanalysen, gewöhnliche und hierarchische (schiefwinklige) Faktorenanalyse mit bis zu 300 Variablen durch. Umfangreichere Modelle können mit (SEPATH) Structural Equation Modeling and Path Analysis durchgeführt werden, welches in der Modulgruppe Höhere Modelle enthalten ist.

nach oben

 Hauptkomponenten- und Klassifikationsanalyse

STATISTICA enthält auch ein spezielles Programm zur Hauptkomponenten- und Klassifikationsanalyse. Die Ausgaben umfassen die Eigenwerte (gewöhnliche, kumulierte, relative), Faktorladungen, Faktorwerte, die der Eingabedatendatei angefügt werden können (grafisch als Symbole gekennzeichnet und interaktiv rekodiert) sowie eine Anzahl eher technischer Statistiken und Kenngrößen. An Rotationsverfahren stehen Varimax, Equimax, Quartimax, Biquartimax (einfach oder standardisiert) und schiefwinklige Rotationen zur Verfügung. Der Faktorenraum kann geplottet und anhand von 2D- oder 3D-Scatterplots mit gelabelten Variablenpunkten projiziert dargestellt werden. Weitere integrierte Grafiken beinhalten Scree-Plots, verschiedene Scatterplots, Balken- und Linienplots. Nachdem eine Faktorenlösung gefunden wurde, kann der Benutzer die Korrelationsmatrix aus der entsprechenden Anzahl an Faktoren neu berechnen, um die Güte der Anpassung des Faktorenmodells bewerten zu können. Sowohl Einzeldaten als auch Korrelationsmatrizen können als Eingabe für das Verfahren dienen. Konfirmatorische Faktorenanalyse und andere verwandte Analysen können mit Hilfe von (SEPATH) Structural Equation Modeling and Path Analysis der Modulgruppe Höhere Modelle aufgerufen werden, in dem ein spezieller Assistent für die Konfirmatorische Faktorenanalyse Sie Schritt für Schritt durch den Prozess der Spezifikation des Modells führt.

nach oben

 Kanonische Analyse

Dieses Modul bietet eine umfassende Implementation von Verfahren der kanonischen Analyse und bildet damit eine sinnvolle Ergänzung der in andere Module (ANCOVA / MANCOVA oder Diskriminanzanalyse) integrierten Verfahren. Es können sowohl Einzeldaten als auch Korrelationsmatrizen verarbeitet werden. Im Ergebnis der Analyse werden alle Statistiken der kanonischen Korrelationsanalyse berechnet, wie Eigenwerte, Eigenvektoren, Redundanzkoeffizienten, kanonische Gewichte, Ladungen, extrahierte Varianzen, Signifikanztests für jede Root usw. Dazu wird eine umfangreiche Anzahl von Diagnose-Kenngrößen ausgegeben. Die Scores der kanonischen Variablen können für jeden Fall berechnet, ggf. an die Datendatei angefügt und über integrierte Iconplots veranschaulicht werden. Das Modul beinhaltet außerdem eine Vielzahl integrierter Grafiken (Plots der Eigenwerte, der kanonischen Korrelationen, Scatterplots der kanonischen Variablen und viele weitere). Konfirmatorische Analysen struktureller Beziehungen zwischen latenten Variablen können mit SEPATH (Structural Equation Modeling and Path Analysis) der Modulgruppe Höhere Modelle durchgeführt werden. Fortgeschrittene Verfahren zur schrittweisen und Beste-Subset-Auswahl von Prädiktorvariablen für MANOVA/MANCOVA-Designs (mit mehreren abhängigen Variablen) sind im Modul Allgemeine Regressionsmodelle (ARM) im Teilmodul Höhere Modelle verfügbar.

nach oben

 Reliabilitäts- und Item-Analyse

Dieses Modul beinhaltet eine umfassende Auswahl von Verfahren für die Entwicklung und Bewertung von Umfragen und Fragebögen. Wie in allen anderen Modulen von STATISTICA, können hier extrem große Designs analysiert werden. Der Benutzer kann Statistiken der Reliabilität für alle Items einer Skala berechnen, interaktiv Teilmengen auswählen oder Vergleiche zwischen Teilmengen von Items anstellen, indem die Verfahren "Split-Half" oder "Split-Part" eingesetzt werden. In einem einzigen Run kann der Benutzer sowohl die Reliabilität einer Summenskala als auch die von Subskalen bewerten. Werden Items interaktiv eliminiert, wird sofort die neue Reliabilität berechnet, ohne dass die Datendatei nochmals verarbeitet werden muss. Die Ausgabe beinhaltet Korrelationsmatrizen und deskriptive Statistiken für die Items, Cronbachs Alpha, das standardisierte Alpha, die mittlere Inter-Item-Korrelation, die vollständige ANOVA-Tabelle für die Skala, den vollständigen Satz der Item-Gesamt-Statistik (einschließlich multipler Item-Gesamt R’s), die Split-Half-Reliabilität und die Korrelation zwischen den beiden Listen mit Abschwächungskorrektur. Eine Reihe von Grafiken, einschließlich verschiedener integrierter Scatterplots, Histogramme und Linienplots, sowie eine Auswahl an interaktiven Was-wäre-wenn-Prozeduren unterstützt die Entwicklung der Skalen. So kann der Benutzer beispielsweise die erwartete Reliabilität berechnen, wenn eine bestimmte Anzahl von Items der Skala hinzugefügt würde. Auf diese Weise kann die Anzahl der für das Erreichen einer bestimmten Reliabilität der Skala hinzuzufügenden Items geschätzt werden. Außerdem kann der Benutzer die abschwächungskorrigierte Korrelation (aufgrund nicht vollständiger Reliabilität der Messungen) zwischen der aktuellen Skala (bei gegebener aktueller Reliabilität) mit einem externen Kriterium (bei gegebener benutzerdefinierter Reliabilität) schätzen.

nach oben

 Klassifikations- und Regressionsbäume

Das Modul Klassifikations- und Regressionsbäume bietet eine umfassende Implementation der aktuellsten Algorithmen für die effektive Erstellung und für das Testen der Robustheit von Klassifikationsbäumen. Ein Klassifikationsbaum ist eine Regel für die Prognose der Klassenzugehörigkeit eines Objektes aus den Werten seiner Prädiktor-Variablen. (Höhere Methoden für Klassifikationsbäume, einschließlich flexibler Optionen zur Modellentwicklung und interaktive Werkzeuge zur Exploration von Bäumen sind im STATISTICA Data Miner mit den General Classification and Regression Tree Models (GTrees) US-Link  und General CHAID (Chi-square Automatic Interaction Detection) US-Link  enthalten.) Klassifikationsbäume können auf der Basis von kategorialen oder ordinalen Prädiktor-Variablen erstellt werden. Dabei können sowohl univariate als auch multivariate Splits oder Linearkombinationen von Splits eingesetzt werden. Die Optionen der Analyse enthalten die Durchführung von umfassenden Splits (exhaustive splits, wie in THAID und CART™) oder auf Diskrimination basierende Splits; unverzerrte (unbiased) Variablenauswahl (wie in QUEST); direkte Stopregeln (direct stopping rules, wie in FACT) oder "Aufwärtsabschneiden" (bottom-up pruning, wie in CART); Abschneiden basierend auf Fehlklassifikationsraten oder der "Deviance"-Funktion; verallgemeinerte Chi-Quadrat-, G-Quadrat- oder Gini-Index-Maße für die Güte der Anpassung. Priors und Fehlklassifikationskosten können als identisch spezifiziert, aus den Daten geschätzt oder benutzerspezifiziert werden. Der Benutzer kann außerdem den v-Wert für v-fache Kreuzvalidierung während der Baumerstellung, den v-Wert für v-fache Kreuzvalidierung für die Fehlerschätzung, die Größe der SE-Regel, die minimale Knotengröße vor dem Abschneiden, Startwerte für die Zufallszahlengenerierung und Alpha-Werte für die Variablenselektion spezifizieren. Für die Unterstützung der Analysen stehen integrierte Grafikoptionen zur Verfügung.

nach oben

 Korrespondenzanalyse

Dieses Modul bietet eine vollständige Implementation von Verfahren der einfachen und multiplen Korrespondenzanalyse, wobei auch Tabellen extremer Größe analysiert werden können. Die Software akzeptiert als Input für die Analyse Datendateien mit Gruppierungs- (Code-)Variablen für die Berechnung von Kontingenztabellen. Zulässig sind auch Datendateien mit Häufigkeiten (bzw. anderen Korrespondenz-, Assoziations-, Ähnlichkeitsmaßen ) und Kodierungsvariablen zur Kennzeichnung der Zellen in der Tabelle. Darüber hinaus werden außerdem Datendateien akzeptiert, die nur Häufigkeiten (oder andere Korrespondenzmaße) enthalten. Hierbei kann man direkt eine Häufigkeitstabelle eingeben und analysieren lassen. Für die multiple Korrespondenzanalyse kann auch direkt eine Burt-Tabelle für die Eingabe spezifiziert werden. Die Software berechnet verschiedene Tabellen: Zeilen-Prozente, Spalten-Prozente, Gesamt-Prozente, erwartete Werte, beobachtete minus erwartete Werte, standardisierte Abweichungen und Beiträge zum Chi-Quadrat-Wert. Diese Statistiken können in 3D-Histogrammen grafisch dargestellt und mit Hilfe der Funktion Schichtweise Animation betrachtet werden. Das Modul Korrespondenzanalyse berechnet die verallgemeinerten Eigenwerte und Eigenvektoren und liefert als Ergebnisse außerdem alle üblichen Diagnose-Kenngrößen wie Singulärwerte, Eigenwerte und prozentuale Anteile an der Trägheit für jede Dimension. Sie können entweder manuell die Anzahl der Dimensionen wählen oder einen "Cut-off-Wert" für den maximalen kumulierten Prozentanteil der Trägheit festlegen. Die Software berechnet die standardisierten Koordinatenwerte für alle Zeilen- und Spaltenpunkte. Sie haben bei der Standardisierung die Wahl zwischen den Optionen Zeilenprofile, Spaltenprofile, Zeilen- und Spaltenprofile und Kanonisch. Für jede Dimension und jeden Zeilen- oder Spaltenpunkt berechnet die Software Trägheit, Qualität und Kosinus²-Werte. Außerdem können Sie sich in Ergebnistabellen die Matrizen der verallgemeinerten Singulärvektoren anzeigen lassen. Wie bei allen anderen Ergebnistabellen kann auf diese Werte mit Hilfe von STATISTICA Visual Basic zugegriffen werden, um beispielsweise eine nicht übliche Methode zur Berechnung der Koordinaten zu verwenden. Sie können Koordinatenwerte und zugehörige Statistiken (Qualität und Kosinus²-Werte) für ergänzende Punkte (Zeile oder Spalte) berechnen lassen und die Ergebnisse mit den regulären Zeilen- und Spaltenpunkten vergleichen. Ergänzende Punkte können auch für eine multiple Korrespondenzanalyse spezifiziert werden. Neben den 3D-Histogrammen, die für alle Tabellen berechnet werden können, ist auch die Erzeugung eines Linienplots für die Eigenwerte und die Erzeugung von 1D-, 2D- und 3D-Plots für die Zeilen- oder Spaltenpunkte möglich. Zeilen- und Spaltenpunkte können auch in einer gemeinsamen Grafik kombiniert werden - zusammen mit möglichen ergänzenden Punkten. Jeder Punkttyp besitzt eine andere Farbe und Markierung, so dass verschiedene Punkttypen in den Plots leicht identifizierbar sind. Alle Punkte erhalten Labels. Hierzu ist eine Option verfügbar, mit der die Namen für die Punkte auf eine benutzerdefinierte Anzahl von Zeichen gestutzt werden können.

nach oben

 Multidimensionale Skalierung

Das Modul Multidimensionale Skalierung beinhaltet eine vollständige Implementation der nichtmetrischen Multidimensionalen Skalierung. Hier können Matrizen mit Ähnlichkeiten, Unähnlichkeiten oder Korrelationen analysiert werden, wobei bis zu neun Dimensionen spezifiziert werden können. Die Start-Konfiguration kann entweder vom Programm über eine Hauptkomponentenanalyse berechnet oder vom Benutzer spezifiziert werden. Die Software verwendet ein iteratives Verfahren zur Minimierung des Stress-Wertes und des Unschärfemaßes (coefficient of alienation). Der Benutzer kann den Iterationsprozess überwachen und die Veränderungen in diesen zu minimierenden Werten beobachten. Die Endkonfigurationen können sowohl in Ergebnistabellen als mittels 2D- und 3D-Scatterplots des Raumes der Dimensionen mit durch Labels gekennzeichneten Item-Punkten ausgewertet werden. Die Ausgabe beinhaltet darüber hinaus die Werte für den Stress (raw F), Kruskals Stress-Koeffizient S und das Unschärfemaß (coefficient of alienation). Die Güte der Anpassung kann anhand von Shepard-Diagrammen (d-Dach und d-Stern) bewertet werden. Wie in STATISTICA üblich kann die Endkonfiguration in einer Datendatei gespeichert werden.

nach oben

 Diskriminanzanalyse

Das Modul Diskriminanzanalyse enthält eine vollständige Implementation der multiplen schrittweisen Analyse von Diskriminanzfunktionen. STATISTICA enthält auch das Modul Allgemeine Diskriminanzanalytische Modelle (ADM). (unten) zur Anpassung von ANOVA/ANCOVA-ähnlichen Designs mit kategorialen abhängigen Variablen und zur Durchführung vieler fortgeschrittener Analyseformen (z.B. Beste-Subset-Auswahl von Prädikoren, Profilieren von posterioren Wahrscheinlichkeiten). Die Software führt schrittweise Analysen vorwärts/rückwärts oder für benutzerspezifizierte Blöcke von Variablen durch. Zusätzlich zu den zahlreichen Grafiken und Kenngrößen zur Beschreibung der Diskriminanzfunktionen stellt das Programm eine breite Auswahl an Optionen für die Klassifikation alter bzw. neuer Fälle für die Bewertung des Modells bereit. Die Ausgabe umfasst Wilks’ Lambdas, partielle Lambdas, F-für-Aufnahme (oder für Ausschluss), die p-Niveaus, die Toleranzwerte und R-Quadrat. Das Programm führt eine vollständige kanonische Analyse durch und gibt die Eigenwerte, die kumulierten Eigenwerte für alle Roots und deren p-Niveaus, die Koeffizienten der standardisierten und nichtstandardisierten Diskriminanzfunktionen, die Matrix der Strukturkoeffizienten (Faktorladungen), die Mittelwerte für die Diskriminanzfunktionen und die Werte der Diskriminanzfunktionen (Scores) für jeden Fall aus, die der Datendatei automatisch angefügt werden können. Die integrierten Grafiken beinhalten Histogramme der Scores innerhalb jeder Gruppe und für alle Gruppen gemeinsam, spezielle Scatterplots für Paare kanonischer Variablen, in denen die Gruppenzugehörigkeit der einzelnen Fälle sichtbar ist, eine umfassende Auswahl von Grafiken in Kategorien, die es dem Benutzer ermöglichen, die Verteilungen und die Beziehungen zwischen den abhängigen Variablen über die Gruppen zu untersuchen. Dazu zählen Box-Whisker-Plots, Histogramme, Scatterplots, Verteilungsplots und viele weitere. Das Modul Diskriminanzanalyse berechnet außerdem die Klassifikationsfunktionen für jede Gruppe. Die Klassifikation der Fälle kann in Abhängigkeit von den Werten der Mahalanobis-Distanzen, den Posteriori-Wahrscheinlichkeiten oder den tatsächlichen Klassifikationen vorgenommen werden. Die Scores für die einzelnen Fälle können anhand von Iconplots und weiteren "mehrdimensionalen" Grafiken veranschaulicht werden, die direkt in die Tabelle der Ergebnisse integriert sind. Alle diese Werte können der aktuellen Datendatei für weitere Analysen automatisch angefügt werden. Auch die Klassifikationsmatrix mit der jeweiligen Anzahl und dem prozentualen Anteil korrekt klassifizierter Fälle kann angefordert werden. Der Benutzer verfügt über verschiedene Optionen zur Spezifikation der a-priori-Wahrscheinlichkeiten für die Gruppenzugehörigkeit. Er kann weiter Auswahlbedingungen angeben, um ausgewählte Fälle von der Klassifikation auszuschließen bzw. diese Fälle in die Klassifikation aufzunehmen.

nach oben

 Allgemeine Diskriminanzanalytische Modelle (ADM)

Das Modul STATISTICA Allgemeine Diskriminanzanalytische Modelle (ADM) ist eine Anwendung und Erweiterung des allgemeinen linearen Modells auf Klassifikationsprobleme. Ähnlich wie das Modul Diskriminanzanalyse, dient ADM zur standardmäßigen und schrittweisen Diskriminanzanalyse. ADM implementiert das diskriminanzanalytische Problem als Spezialfall des allgemeinen linearen Modells und bietet darum äußerst brauchbare Analyseverfahren, die innovativ, effizient und sehr mächtig sind. Wie bei der traditionellen Diskriminanzanalyse, erlaubt ADM die Spezifikation einer kategorialen abhängigen Variablen. Für die Analyse wird die Gruppenzugehörigkeit (in Hinblick auf die abhängige Variable) dann in Form von Indikatorvariablen kodiert, so dass alle Verfahren der ARM anwendbar sind. In den Ergebnisdialogen von ADM ist eine breite Auswahl von Residualstatistiken von ARM und ALM ebenfalls verfügbar. ADM bietet mächtige und effiziente Werkzeuge für Data-Mining und angewandte Forschungen an. ADM berechnet alle Standardergebnisse für Diskriminanzanalysen, einschließlich Koeffizienten der Diskriminanzfunktion, Resultaten der kanonischen Analyse (standardisierte und rohe Koeffizienten, Step-Down-Tests für kanonische Roots, usw.), Klassifikationsstatistiken (einschließlich Mahalanobis-Distanzen, posteriorer Wahrscheinlichkeiten, aktueller Klassifikation von Fällen in der Analyse- und Validierungsstichprobe, Fehlklassifikationsmatrix, usw.). Weitere Informationen zu ADM finden Sie hier US-Link.

nach oben



Modulgruppe Poweranalyse

StatSoft hat auf der Basis der Technologie seiner bewährten Statistiksysteme ein neues Werkzeug zur effizienten Planung und Analyse von Forschungsstudien entwickelt: Das Teimodul Poweranalyse ist ein umfassendes Softwaretool, das den Anwender bei der Planung von Stichprobengrößen für Forschungsvorhaben unterstützt. Es bietet darüber hinaus eine Vielzahl von Hilfsmitteln, um alle Aspekte der Macht (Power) von statistischen Testverfahren und der Berechnung von Stichprobengrößen abzudecken.

Poweranalyse deckt folgende Fragestellungen ab:

Berechnung von Stichprobengrößen: Poweranalyse berechnet Stichprobengrößen als Funktion des sogenannten Fehlers erster Art und Effektstärken in einer Vielzahl statistischer Tests (z.B. Ein- und Zweistichproben-Tests, Kontraste, Varianzanalysen, Chi-Quadrat, F-Tests oder Rang-Tests).

Schätzung von Vertrauensintervallen: Neuerdings wird in der Statistik der Schätzung von Vertrauensbereichen starke Beachtung geschenkt, und zwar sowohl in der Planung als auch in der Auswertung von Ergebnissen. Die Software kann für viele wichtige statistische Größen (z.B. standardisierte Effektstärke in der Varianzanalyse, Korrelationskoeffizienten oder Unterschiede zwischen Stichprobenanteilen) solche Vertrauensbereiche berechnen. Diese geschätzten Werte können ihrerseits wieder für die Berechnung von Stichprobengrößen in Folgestudien benutzt werden.

Berechnung von StatistischenVerteilungen: Neben den bereits in STATISTICA verfügbaren Verteilungen bietet Poweranalyse spezielle Optionen für die Güte-Berechnungen (nicht-zentrales t, F und Chi-Quadrat, Binomial, exakte Verteilung von Korrelationskoeffizienten und mehr).

Durch den Einsatz von Poweranalyse kann man stets sicherstellen, daß die Resourcen durch den Einsatz optimaler Stichprobengrößen effizient genutzt werden. Man vermeidet, daß die Forschungsergebnisse aufgrund zu geringer Zahlen unpräzise werden, verschwendet auf der anderen Seite aber auch keine Mittel mit zu großen Untersuchungsgruppen. Die Berechnung von Güte- und Vertrauensbereichen stellt darüber hinaus eine weitere Bereicherung der Forschungsergebnisse dar.

Detaillierte Informationen zu der Modulgruppe Poweranalyse finden Sie hier US-Link.


Home nach oben