STATISTICA Professionell
STATISTICA Basis wird für anspruchsvollere Anwendungen durch das Zusatzprodukt
STATISTICA Professionell komplettiert. Es verbindet vertiefende statistische Verfahren und spezielle Grafiken mit der Leistungsfähigkeit und leichten Bedienbarkeit der
STATISTICA-Technologie.
Damit Sie das Potenzial unserer Software voll ausschöpfen können, bieten wir regelmäßig Kurse in unseren Schulungsräumlichkeiten in Hamburg und Inhouse-Schulungen beim Kunden an (siehe Kursangebot).
Informationen zu den Modulgruppen von STATISTICA Professionell:
Modulgruppe Höhere Modelle
Höhere Modelle bietet ein breites Spektrum von hochentwickelten linearen und nichtlinearen Modellierungswerkzeugen, unterstützt stetige und kategoriale Prädiktoren, Interaktionen,
hierarchische Modelle, Einrichtungen zur automatischen Modellwahl, außerdem Varianzkomponenten, Zeitreihenanalyse und viele andere Verfahren. Alle Analysen sind mit interaktiven Grafiken und eingebautem Visual Basic-Skripting ausgestattet. Folgende Module sind enthalten:
Varianzkomponenten und
Gemischte-Modelle-ANOVA/ANCOVA ist ein spezielles Modul für Designs
mit zufälligen Effekten und/oder Faktoren mit vielen Stufen. Optionen zur
Behandlung von zufälligen Effekten und Schätzung von
Varianzkomponenten werden auch im Modul
Allgemeine Lineare Modelle
angeboten. Solche Faktoren treten häufig in der industriellen
Forschung bei der Realisierung einer zufälligen Variablen als Faktorstufen
auf, so dass letztere nicht vom Experimentator oder Ingenieur gezielt
eingestellt werden können. Das Modul
Varianzkomponenten erlaubt die
Analyse von Designs mit beliebigen Kombinationen fester/zufälliger Effekte
und mit Kovariablen. Es können ANOVA/ANCOVA-Designs selbst extremer
Größe effektiv analysiert werden. Die Faktoren können Hunderte
von Stufen besitzen. Die Software analysiert gewöhnliche faktorielle
kreuzklassifizierte Designs und berechnet die üblichen
Typ I-, II-
und
III-Quadratsummen der Varianzanalyse sowie die mittleren Quadrate
für die im Modell befindlichen Effekte. Außerdem können Sie die
Tabelle der erwarteten mittleren Quadrate für die im Modell befindlichen
Effekte, die Varianzkomponenten für die zufälligen Effekte im Modell,
die Koeffizienten der Nenner-Synthese (denominator synthesis) und die
vollständige ANOVA-Tabelle mit den auf den zusammengesetzten
(synthetisierten) Fehlertermen und den entsprechenden Freiheitsgraden
basierenden Tests berechnen (unter Verwendung von Satterthwaites Methode).
Darüber hinaus werden weitere Methoden zur Schätzung der
Varianzkomponenten unterstützt (z.B.
MIVQUE(0), Maximum-Likelihood
(ML), Restringierte Maximum-Likelihood (
REML)). Für die
Maximum-Likelihood-Schätzung werden der Newton-Raphson- und der
Fisher-Scoring-Algorithmus verwendet. Für die Anzeige der gewichteten und
ungewichteten Randmittelwerte und deren Konfidenzintervallen stehen
verschiedene Optionen zur Verfügung. Umfangreiche Grafik-Optionen
können für die Visualisierung der Ergebnisse eingesetzt
werden.
Dieses Modul
enthält eine umfassende Implementation einer Vielzahl von Verfahren zur
Analyse zensierter Daten sowohl aus der biologischen, medizinischen und
Sozialforschung als auch aus den Ingenieurwissenschaften und der
Marktforschung. Neben der Berechnung von Sterbetafeln mit verschiedenen
deskriptiven Statistiken und Kaplan-Meier-Schätzern kann der Benutzer die
Survival-Funktionen in verschiedenen Gruppen unter Verwendung einer Reihe von
Testverfahren vergleichen. Dazu gehören Gehan-Test, Cox'
F-Test,
Cox-Mantel-Test, Log-Rang-Test und Peto & Petos verallgemeinerter
Wilcoxon-Test. Außerdem können Kaplan-Meier-Plots für Gruppen
erstellt werden, wobei die unzensierten Beobachtungen in den Grafiken durch
verschiedene Punktmuster gekennzeichnet werden. Die Software bietet weiter eine
Auswahl von Verfahren zur Anpassung von Survival-Funktionen an die Daten
(
Exponential, Linear-Hazard, Gompertz und
Weibull), die auf
ungewichteten oder gewichteten KQ-Methoden basieren.
Maximum-Likelihood-Schätzungen der Parameter für verschiedene
Verteilungen, einschließlich der Weibull-Verteilung, können in der
Prozessanalyse
von
STATISTICA Industriell durchgeführt werden. Schließlich enthält die Software
vollständige Implementationen der vier allgemeinen Modelle (Cox
Proportional Hazard Modell, exponentielle Regression, lognormale und normale
Regressionsmodelle) mit ausführlichen Diagnose-Kenngrößen,
einschließlich geschichteter Analysen und Grafiken der Survival-Funktion
für benutzerspezifizierte Werte der Prädiktor-Variablen. Für die
Cox-Regression kann der Benutzer die Stichprobe schichten, um verschiedene
Grundlinienfunktionen (
baseline hazards) und Koeffizientenvektoren in
verschiedenen Schichten behandeln zu können. Darüber hinaus stehen
Funktionen für die Definition einer oder mehrerer zeitabhängiger
Kovariablen zur Verfügung. Diese zeitabhängigen Kovariablen
können mit Hilfe eines flexiblen Formelinterpreters definiert werden, der
es dem Benutzer ermöglicht, die Kovariablen über arithmetische
Ausdrücke zu spezifizieren, die sowohl die Zeit als auch logische
Funktionen (z.B.
timdep=age+age*log(t)*(age>45), wobei t die Zeit
beschreibt) sowie Verteilungsfunktionen enthalten können. Wie in allen
anderen Modulen von
STATISTICA auch kann der Benutzer auf die
technischen Parameter aller Verfahren zugreifen, um diese ggf. zu
verändern. Das Modul enthält schließlich eine umfassende
Auswahl an Grafiken und speziellen Diagrammen, um die Interpretation der
Ergebnisse zu unterstützen, wie z.B. Plots der Survival-Funktion, Muster
der zensierten Daten, Hazard- und kumulierte Hazard-Funktionen,
Wahrscheinlichkeitsdichten, Plots zum Vergleich von Gruppen, Plots zur
Verteilungsanpassung, verschiedene Residuenplots und viele weitere. Für
ingenieurtechnische Anwendungen siehe auch
Weibull-Analyse.
Das Modul
Nichtlineare Regression ermöglicht
dem Benutzer die Anpassung beliebiger Typen nichtlinearer Modelle. Eine der
speziellen Eigenschaften dieses Moduls besteht darin, dass im
Unterschied zu traditionellen Programmen der nichtlinearen Regression
die Größe der Datendatei keine Rolle spielt.
Schätzmethoden. Die Modelle können unter Verwendung von
KQ- oder Maximum-Likelihood-Schätzverfahren bzw. basierend auf
benutzerdefinierten Verlustfunktionen angepasst werden. Auf der Basis des
Kleinste-Quadrate-Kriteriums lassen sich der hocheffiziente
Levenberg-Marquardt- und der Gauss-Newton-Algorithmus zur
Parameterschätzung für beliebige lineare und nichtlineare
Regressionsprobleme einsetzen. Für große Datensätze oder
schwierige nichtlineare Regressionsprobleme auf der Basis Kleinster Quadrate
ist dies die empfohlene Methode zur Berechnung präziser
Parameterschätzwerte. Der Benutzer kann aus vier leistungsfähigen
Optimierungsverfahren zur konkreten Parameterschätzung auswählen:
Quasi-Newton, Simplex, Koordinatensuche nach Hooke-Jeeves sowie
Rosenbrock-Suchverfahren der rotierenden Koordinaten. Damit erhält man
stabile Parameterschätzungen in nahezu allen Fällen, selbst bei
numerisch anspruchsvollen Problemen (siehe Validation
Benchmarks
).
Modelle. Der Benutzer kann die Modellgleichung einfach dadurch
spezifizieren, dass er die Gleichung in einem speziellen Editor eingibt. Die
Gleichungen können logische Operatoren enthalten, wodurch es möglich
wird, unstetige, d.h. stückweise definierte, Regressionsmodelle und
Modelle mit Indikatorvariablen zu spezifizieren. In den Gleichungen kann auf
eine breite Auswahl von Verteilungen Bezug genommen werden. Dazu gehören
Beta-, Binomial-, Cauchy-, Chi-Quadrat-, Exponential-, Extremwert-, F-,
Gamma-, Geometrische, Laplace-, Logistische, Normal-, Lognormal-, Pareto-,
Poisson-, Rayleigh-, Students t- sowie Weibull-Verteilung (Dichte-
bzw. Wahrscheinlichkeitsfunktion, Verteilungsfunktion und deren Inverse). Der
Benutzer kann alle Aspekte des Schätzverfahrens, wie z.B. Startwerte,
Schrittweiten, Konvergenzkriterien, in vollem Umfang kontrollieren. Die am
häufigsten benötigten Regressionsmodelle sind im Modul
Nichtlineare Regression vordefiniert und können einfach als
Menüoptionen abgerufen werden. Diese Modelle schließen schrittweise
Probit- und Logit-Regression, das exponentielle Regressionsmodell und
stückweise lineare Regression (mit Strukturbruch) ein. Zu beachten ist,
dass STATISTICA auch Implementierungen mächtiger Algorithmen zur
Anpassung von verallgemeinerten linearen Modellen enthält,
einschließlich Probit und multinomialer Logit-Modelle, sowie
verallgemeinerte additive Modelle.
Ergebnisse. Zusätzlich zu verschiedenen deskriptiven
Statistiken enthält die Standardausgabe die Parameterschätzungen,
deren Standardfehler, die unabhängig von den Schätzungen selbst
berechnet werden (siehe Validation Benchmarks
), die Kovarianzmatrix der
Parameterschätzungen, die Prognosewerte, Residuen und Maße für
die Anpassungsgüte (z.B. die Log-Likelihood der
geschätzten/Nullmodelle und den Chi-Quadrat-Test der Differenz an
erklärter Varianz, Klassifikation der Fälle und Odds-Ratios für
Logit- und Probit-Modelle). Die Prognosewerte und die Residuen können der
Datendatei für weitere Analysen hinzugefügt werden. Für Probit-
und Logit-Modelle wird der Gewinn bzw. Verlust an Anpassung automatisch
berechnet, wenn Parameter dem Modell hinzugefügt oder aus diesem entfernt
werden, d.h. der Benutzer kann die Modelle anhand schrittweiser nichtlinearer
Verfahren an die Daten erkunden. Optionen zur automatischen schrittweisen
Regression (vorwärts und rückwärts) sowie Beste-Subset-Auswahl
von Prädiktoren in Logit- und Probit-Modellen werden im Modul Verallgemeinerte Lineare/Nichtlineare Modelle
angeboten.
Grafiken. In die Ausgabe der Ergebnisse ist eine umfassende
Auswahl von Grafiken integriert. Dazu gehören 2D- und
3D-Flächenplots, die dem Benutzer die Güte der Anpassung
verdeutlichen und die Identifikation von Ausreißern ermöglichen. Der
Benutzer kann interaktiv die Gleichung der angepassten Funktion korrigieren,
ohne die Daten neu verarbeiten zu müssen, und nahezu alle Aspekte des
Schätzprozesses visualisieren. Viele weitere spezielle Grafiken dienen der
Bewertung der Güte der Anpassung und der Visualisierung der Ergebnisse,
wie z.B. Histogramme aller ausgewählten Variablen und der Residuen,
Scatterplots der Beobachtungswerte gegen die Prognosewerte sowie Prognosewerte
gegen Residuen, einfache und einseitige Normalverteilungsplots der Residuen und
weitere.
Dieses Modul enthält eine
vollständige Implementation von Verfahren der Modellierung loglinearer
Ansätze für mehrdimensionale Häufigkeitstabellen. Zu beachten
ist, dass
STATISTICA auch das Modul
Verallgemeinerte
Lineare/Nichtlineare Modelle enthält, welches Optionen zur Analyse
von binomialen und multinomialen Logit-Modellen mit kodierten
ANOVA/ANCOVA-ähnlichen Designs anbietet. Die Software analysiert Tabellen
mit bis zu sieben Dimensionen. Sowohl vollständige als auch
unvollständige Tabellen mit strukturellen Nullen können analysiert
werden. Häufigkeitstabellen können aus Einzeldaten erstellt oder im
Programm direkt eingegeben werden. Das Modul
Loglineare Analyse bietet
eine umfassende Auswahl von anspruchsvollen Verfahren zur Modellierung in einer
interaktiven und flexiblen Umgebung, die explorative und konfirmatorische
Analysen selbst komplexer Tabellen in hohem Maße unterstützt. Der
Benutzer kann an jeder Stelle der Analyse sowohl die vollständige Tabelle
als auch die Marginaltabellen betrachten. Darüber hinaus können die
erwarteten Häufigkeiten ausgegeben werden. Die Anpassung aller marginalen
und partiellen Assoziationsmodelle kann bewertet werden; es können
außerdem spezielle Modelle an die beobachteten Daten angepasst werden.
Für die Auswahl des bestangepassten Modells beinhaltet die Software eine
intelligente Prozedur zur automatischen Modellwahl, die zunächst die
für die Anpassung erforderliche Ordnung der Interaktionen bestimmt, um
anschließend über Rückwärts-Elimination das beste Modell
zu finden, das an die Daten hinreichend gut angepasst ist. Die Kriterien
für die Güte der Anpassung werden vom Benutzer spezifiziert. Die
Standardausgabe beinhaltet u.a.
G-Quadrat
(Maximum-Likelihood-
Chi-Quadrat), die gewöhnliche
Pearsonsche
Chi-Quadrat-Statistik mit entsprechenden Freiheitsgraden und
Signifikanzniveaus, die Tabellen mit den beobachteten und erwarteten
Häufigkeiten. Die im Modul
Loglineare Analyse verfügbaren
Grafikoptionen schließen eine Vielzahl von 2D- und 3D-Grafiken ein, die
speziell für die Visualisierung von zwei- und mehrdimensionalen
Häufigkeitstabellen konzipiert wurden, z.B. interaktive,
benutzerkontrollierte
Stapel von Histogrammen in Kategorien und
3D-Histogrammen, die Schichten der mehrdimensionalen Tabellen darstellen, Plots
von beobachteten und erwarteten Häufigkeiten, Plots verschiedener Residuen
(standardisiert, Komponenten der
Maximum-Likelihood-
Chi-Quadrat-Statistik, Freeman-Tukey-Reste ) und
weitere.
Das Modul
Zeitreihen enthält eine ganze Reihe von verschiedenen Verfahren:
deskriptive Verfahren, Modellierung, Zerlegung und Prognose sowohl für
Modelle in der Zeit als auch für Modelle im Frequenzbereich. Alle diese
Prozeduren sind integriert, d.h. dass die Ergebnisse einer Analyse, z.B. die
Residuen eines ARIMA-Modells, direkt in der folgenden Analyse verwendet werden
können, um z.B. die Autokorrelation der Residuen zu berechnen.
Außerdem stehen flexible Optionen für die grafische Darstellung
einzelner oder mehrerer Zeitreihen zur Verfügung. Im
aktiven
Arbeitsbereich können mehrere Reihen, z.B. aus der Eingabe oder
verschiedenen Stadien der Analyse, verwaltet werden; diese Zeitreihen
können betrachtet und verglichen werden. Das Programm verfolgt automatisch
aufeinanderfolgende Analysen und verwaltet ein Protokoll der Transformationen
und weiterer Ergebnisse, wie z.B. ARIMA-Residuen, Saison-Komponenten Der
Benutzer kann folglich stets zu vorangegangenen Transformationen
zurückkehren oder die Originalreihe mit ihren Transformationen, z.B.
anhand von Plots, vergleichen. Informationen über die Transformationen
werden in Form von langen Variablen-Labels abgelegt, so dass beim Speichern der
neu erzeugten Variablen die gesamte "Vorgeschichte" der Zeitreihe erhalten
bleibt. Die speziellen Verfahren des Moduls
Zeitreihen werden in den
folgenden Unterabschnitten beschrieben.
Transformationen, Modellierung, Plots, Autokorrelationen. Die
verfügbaren Transformationen ermöglichen dem Benutzer die
vollständige Untersuchung von Mustern in der eingegebenen Zeitreihe und
die Durchführung aller gebräuchlichen Transformationen von Zeitreihen
einschließlich: Trendbereinigung, Elimination von Autokorrelationen,
Glättung über gleitende Mittel (ungewichtet und gewichtet, mit
benutzerdefinierten oder Daniell-, Tukey-, Hamming-, Parzen- oder
Bartlett-Gewichten), Glättung anhand gleitender Mediane, einfaches
exponentielles Glätten (siehe auch die Beschreibung aller Optionen des
exponentiellen Glättens weiter unten), Differenzieren, Integrieren,
Residuenbildung, Shifting, 4253H-Filter, Tapering, Fourier- (und inverse)
Transformationen und weitere. Analysen der Autokorrelation, der partiellen
Autokorrelation und der Kreuzkorrelation können außerdem
durchgeführt werden.
ARIMA und Zeitreihen mit Strukturbruch, Interventionsanalyse. Das
Modul Zeitreihen bietet eine vollständige Implementation von
ARIMA-Verfahren. Die Modelle können eine Konstante enthalten und die Reihe
kann vor dem Beginn der Analyse transformiert werden. Diese Transformationen
werden automatisch "rückgängig" gemacht, nachdem die ARIMA-Prognosen
berechnet wurden, so dass die Prognosen und deren Standardfehler in
Abhängigkeit von den Werten der Originalreihe beschrieben werden. Es
können approximative und exakte bedingte Maximum-Likelihood-Quadratsummen
berechnet werden. Die ARIMA-Implementation im Modul Zeitreihen ist
speziell für die Anpassung von Modellen mit langen Saisonperioden (z.B.
Perioden von 30 Tagen) ausgelegt. Die Standardausgabe umfasst die
Parameterschätzungen, deren Standardfehler und die Korrelationen der
Parameter. Weiter können Prognosen und deren Standardfehler berechnet,
geplottet und an die Datendatei angefügt werden. Darüber hinaus
stehen zahlreiche Optionen für die Untersuchung der ARIMA-Residuen zur
Verfügung, einschließlich einer großen Auswahl an Grafiken.
Die Implementation von ARIMA im Modul Zeitreihen erlaubt dem Benutzer
die Behandlung von Zeitreihen mit Strukturbruch (Interventionsanalyse).
Verschiedene gleichzeitig auftretende Interventionen können modelliert
werden, die entweder einparametrische abrupt-permanente Interventionen,
zweiparametrische graduelle oder temporäre Interventionen darstellen
können. Für die Betrachtung der verschiedenen Wirkungsmuster
können Grafiken herangezogen werden. Prognosen können für alle
Interventionsmodelle berechnet werden, die anschließend sowohl grafisch
dargestellt als auch an die Datendatei angefügt werden
können.
Exponentielles Glätten mit und ohne Saisonkomponente. Das
Modul Zeitreihen enthält eine vollständige Implementation
aller zwölf gebräuchlichen Modelle zur exponentiellen Glättung.
Für die Modelle kann eine additive oder multiplikative Saison-Komponente
und/oder ein linearer, exponentieller oder gedämpfter Trend spezifiziert
werden; folglich sind auch die häufig verwendeten Holt-Winter-Modelle mit
linearem Trend enthalten. Der Benutzer kann den Startwert für die
geglättete Reihe, den Startwert für den Trend und ggf. Startwerte
für die Saison-Faktoren spezifizieren. Außerdem kann der Benutzer
eine Gittersuche im Parameterraum veranlassen, um die optimalen
Glättungsparameter zu bestimmen. Die Tabellen mit den Ergebnissen der
Suche enthalten den mittleren Fehler, den mittleren absoluten Fehler, die
Summen der Quadrate für den Fehler, den mittleren quadratischen Fehler,
den mittleren prozentualen Fehler und den mittleren absoluten prozentualen
Fehler für alle Kombinationen der Parameterwerte. Der kleinste Werte
dieser Indizes wird in der Ergebnistabelle markiert. Darüber hinaus kann
der Benutzer eine automatische Suche nach den besten Parametern in Bezug auf
den mittleren quadratischen Fehler, den mittleren absoluten Fehler oder den
mittleren absoluten prozentualen Fehler anfordern. Für diese Minimumsuche
steht ein allgemeines Optimierungsverfahren zur Verfügung. Die Ergebnisse
des jeweiligen exponentiellen Glättens, die Residuen und die geforderte
Anzahl an Prognosen, stehen für weitere Analysen und Plots bereit. Ein
zusammenfassender Plot dient der Bewertung der Adäquatheit des jeweiligen
Modells der exponentiellen Glättung; dieser Plot zeigt die Originalreihe
gemeinsam mit den geglätteten Werten und Prognosen, während die
Residuen separat gegen die rechte Y-Achse geplottet werden.
Klassische Saisonbereinigung (Census I-Methode). Der Benutzer
kann die Länge der Saison-Periode spezifizieren und zwischen dem additiven
oder multiplikativen Saison-Modell wählen. Die Software berechnet
gleitende Mittelwerte, Quotienten oder Differenzen, Saison-Faktoren, die
saisonbereinigte Reihe, den geglätteten Trend-Zyklus und die
irreguläre Komponente. Diese Komponenten stehen für weitere Analysen
zur Verfügung; so können z.B. Histogramme, Normalverteilungsplots
für ausgewählte oder alle Komponenten erstellt werden, um die
Adäquatheit des Modells zu überprüfen.
X11-Verfahren zur Saisonbereinigung für Monate und Quartale
(Census II-Methode). Das Modul Zeitreihen enthält die
vollständige Implementation einer X11-Variante des US Bureau of the
Census der Census II-Methode zur Saisonbereinigung. Obwohl der
ursprüngliche X-11-Algorithmus nicht Jahr-2000-kompatibel war (nur Daten
bis vor Januar 2000 konnten analysiert werden), kann die
STATISTICA-Implementierung von X11 sowohl Daten vor als auch nach dem 1.
Januar 2000 behandeln. Die Anordnung der Dialoge und Optionen ist an die
Definitionen und Konventionen angelehnt, die in der Dokumentation des Bureau
of the Census beschrieben sind. Es können additive und multiplikative
Saison-Modelle spezifiziert werden. Der Benutzer kann außerdem Faktoren
für Arbeitstage und die Saisonbereinigung spezifizieren. Die
Variabilität aufgrund der Arbeitstage kann mittels Regression
geschätzt und zur Bereinigung der Reihe eingesetzt werden. Für die
Bewertung extremer Beobachtungen, für die Berechnung der Saison-Faktoren
und der Trend-Zyklus-Komponente stehen die Standard-Optionen zur
Verfügung. Der Benutzer kann dabei aus verschiedenen Typen gleitender
Mittel auswählen; wobei die optimale Länge und der Typ des gleitenden
Mittels vom Programm auch automatisch gewählt werden kann. Die Komponenten
der Bereinigung (Saison, Trend-Zyklus, irregulär) und die saisonbereinigte
Reihe stehen für weitere Analysen und Plots zur Verfügung. Diese
Komponenten können für weitere Analysen in anderen Programmen
gespeichert werden. Die Software erstellt Plots der verschiedenen Komponenten,
einschließlich Plots in Kategorien für Monate oder Quartale.
Polynomial-Distributed-Lags-Analyse. Die Implementation der
Distributed-Lags-Verfahren im Modul Zeitreihen schätzt sowohl
Modelle mit unrestringierten Lags (zeitverschobenen Werten) als auch Modelle
für (restringierte) Distributed Lags nach Almon. Für die Untersuchung
der Verteilungen der Variablen des Modells steht eine Auswahl von Grafiken zur
Verfügung.
Spektralanalyse (Fourier-Analyse) und Kreuzspektralanalyse. Das
Modul Zeitreihen enthält eine vollständige Implementation von
Verfahren der Spektralanalyse (Fourier-Zerlegung) und Kreuzspektralanalyse. Die Software ist speziell für die Analyse auch ungewöhnlich langer
Zeitreihen mit z.B. über 250 000 Beobachtungen ausgelegt. Es werden
keinerlei Bedingungen an die Länge der Reihe gestellt; die Länge der
Reihe muss beispielsweise keine Potenz von 2 sein. Der Benutzer kann sich
jedoch auch für Padding (Anfügen von Nullen am Ende) oder Abschneiden
der Reihe entscheiden. Die vor der Analyse durchführbaren
Standard-Transformationen beinhalten Tapering, Subtraktion des Mittelwertes und
Trendbereinigung. Bei einfacher Spektralanalyse beinhalten die Ergebnisse
Frequenzen, Perioden, Sinus- und Kosinus-Koeffizienten, Werte des Periodogramms
und Spektraldichteschätzungen. Die Dichteschätzungen können
anhand von vordefinierten Datenfenstern (Daniell, Hamming, Bartlett, Tukey,
Parzen) oder benutzerdefinierten Datenfenstern gewonnen werden. Für
besonders lange Reihen steht eine nützliche Option zur Verfügung.
Diese Option veranlasst, dass nur eine benutzerdefinierte Anzahl der
größten Periodogramm- oder Dichtewerte in absteigender Reihenfolge
angezeigt wird. So können die größten Peaks in Periodogramm
oder Spektraldichte bei langen Zeitreihen leichter identifiziert werden. Der
Benutzer kann den Kolmogorov-Test für die Werte des Periodogramms
anfordern, um zu testen, ob diese Werte exponentialverteilt sind, d.h. ob die
Originalreihe ein weißes Rauschen darstellt. Zahlreiche Plots stehen zur
Visualisierung der Ergebnisse zur Verfügung; es können die Sinus- und
Kosinus-Koeffizienten, die Werte von Periodogramm, Log-Periodogramm,
Spektraldichte und Log-Dichte gegen die Frequenzen, Perioden oder Log-Perioden
geplottet werden. Für lange Zeitreihen kann der Benutzer das Segment (die
Periode) auswählen, für das Periodogramm oder Spektraldichte
darzustellen sind, wodurch die "Auflösung" des jeweiligen Plots
erhöht wird. Bei der Kreuzspektralanalyse werden zu den Ergebnissen der
einfachen Spektralanalyse für jede einzelne Reihe Kreuz-Periodogramm
(Real- und Imaginärteil), Kospektraldichte, Quadraturspektrum,
Kreuz-Amplitude, Kohärenzwerte, Gainwerte und das Phasenspektrum
ausgegeben. Alle diese Statistiken können gegen die Frequenz, Periode oder
Log-Periode geplottet werden; entweder für alle Perioden (Frequenzen) oder
nur für einen benutzerdefinierten Ausschnitt. Eine benutzerdefinierte
Anzahl der größten Werte des Kreuz-Periodogramms (real oder
imaginär) kann in einer Ergebnistabelle in absteigender Ordnung
dargestellt werden, um die größten Peaks bei der Auswertung langer
Zeitreihen leichter identifizieren zu können. Wie bei allen Prozeduren des
Moduls Zeitreihen auch können die resultierenden Zeitreihen dem
aktiven Arbeitsbereich hinzugefügt werden, wodurch sie für
weitere Analysen mit anderen Verfahren der Zeitreihenanalyse oder anderen
Modulen von STATISTICA verfügbar sind.
Verfahren zur Prognose auf Regressionsbasis. Schließlich
bietet STATISTICA Verfahren der Zeitreihenanalyse, die auf Verfahren der
Regressionsanalyse basieren (einschließlich Regression durch den
Ursprung, nichtlinearer Regression und interaktiver
Was-wäre-wenn-Prognose).
STATISTICA enthält eine umfassende
Implementation von Verfahren zur Modellierung von Strukturgleichungen, die von
einer flexiblen Funktionalität zur Durchführung von
Monte
Carlo-Studien ergänzt wird (
SEPATH). Das Modul
SEPATH
ist ein "State-of-the-Art"-Programm mit einer intelligenten
Benutzeroberfläche. Es bietet eine umfassende Auswahl von
Modellierungsverfahren, wobei die Spezifikation selbst komplexer Modelle ohne
Verwendung einer Befehlssyntax möglich ist. Mit Hilfe der
Assistenten
und des
Pfadedítors können Sie die Analyse in einfacher
Weise unter Verwendung von Menüs und Dialogen spezifizieren; die
Beherrschung einer "Sprache" ist, anders als bei anderen Programmen zur
Modellierung von Strukturgleichungen, nicht erforderlich.
SEPATH stellt
eine vollständige Implementation dar, die zahlreiche fortgeschrittene
Verfahren enthält. Die Software kann Matrizen von Korrelationen,
Kovarianzen und Momenten (strukturelle Mittelwerte, Modelle mit Konstanten)
analysieren. Alle Modelle können mit Hilfe des
Pfad-Assistenten,
des
Faktorenanalyse-Assistenten und des
Pfadeditors spezifiziert
werden; diese Funktionalitäten arbeiten sehr effektiv und ermöglichen
es dem Benutzer, selbst komplexe Modelle in wenigen Minuten zu spezifizieren,
indem in den jeweiligen Dialogen eine Auswahl getroffen wird. Das Modul
SEPATH berechnet, unter Verwendung von Verfahren zur Optimierung unter
Nebenbedingungen, die jeweiligen Standardfehler für standardisierte
Modelle und für Modelle, die an Korrelationsmatrizen angepasst wurden. Die
Ergebnisse beinhalten sowohl einen umfangreichen Satz von
Diagnose-Kenngrößen, einschließlich der Standardindizes
für die Güte der Anpassung als auch Nichtzentralitäts-Indizes,
die auf jüngste Untersuchungen auf dem Gebiet der Modellierung von
Strukturgleichungen zurückgehen. Der Benutzer kann Modelle an mehrere
Stichproben (Gruppen) anpassen, wobei für jede Gruppe feste, freie oder
restringierte (identisch über die Gruppen) Parameter spezifiziert werden
können. Die Analyse von Moment-Matrizen ermöglicht Ihnen die Software
das Testen komplexer Hypothesen über strukturelle Mittelwerte in
verschiedenen Gruppen. Die Dokumentation des Moduls
SEPATH enthält
zahlreiche detaillierte Beschreibungen von Beispielen aus der Literatur zur
Konfirmatorischen Faktorenanalyse, zur Pfadanalyse, zu Modellen zur Testtheorie
für Sets von Congeneric Tests, zu einem Multi-Trait Multi-Method Modell,
zur longitudinalen Faktorenanalyse, zu Tests auf verbundene Symmetrie,
strukturellen Mittelwerten und zu weiteren Themen.
SEPATH Monte Carlo-Studien. Das Modul Modellierung von
Strukturgleichungen (SEPATH) enthält leistungsstarke Optionen
zur Durchführung von Monte Carlo-Experimenten: Der Benutzer kann
Datensätze für vordefinierte Modelle generieren und speichern, die
auf normalen oder schiefen Verteilungen basieren. Es können sowohl
Bootstrap-Schätzungen berechnet als auch Verteilungen für
verschiedene Diagnose-Kenngrößen, Parameterschätzungen usw.
anhand von Monte Carlo-Experimenten bestimmt werden. Darüber hinaus stehen
zahlreiche Grafikoptionen zur Visualisierung der Ergebnisse zur
Verfügung.
Das Modul
Allgemeine Lineare Modelle (ALM) analysiert Wirkungen von kategorialen oder
stetigen unabhängigen Variables auf eine oder mehrere stetige
abhängige Variablen.
ALM ist nicht nur das hochentwickeltste der
gegenwärtig auf dem Markt verfügbaren ALM-Werkzeuge, sondern auch das
umfassenste mit breiten Anwendungsmöglichkeiten. Es enthält ein
große Auswahl von Optionen, Grafiken, begleitet von Statistiken und
ausgedehnten Diagnosewerkzeugen.
ALM bietet ein breites Spektrum von
Optionen zur Handhabung von sogenannten "kontroversen Problemen", für die
es keine übereinstimmende Lösung gibt.
ALM berechnet alle
Standardergebnisse, einschließlich ANOVA-Tabellen mit univariaten und
multivariaten Tests, deskriptiven Statistiken, usw.
ALM bietet viele
Optionen für Ergebnisse und Grafiken, die in anderen Programmen zumeist
nicht verfügbar sind. Darüber hinaus bietet
ALM einfache Wege
zum Test von Linearkombinationen von Parameterschätzwerten,
Spezifikationen von benutzerdefinierten Fehlertermen und Effekten, umfassende
Verfahren von Post-Hoc-Vergleichen für Zwischengruppeneffekte und
Messwiederholungseffekte sowie deren Interaktionen.
Weitere
Informationen über ALM 
.
STATISTICA
Allgemeine Regressionsmodelle (ARM) bietet dem Anwender eine hochflexible
Implementierung der Optionen für Standardergebnisse und spezielle
Ergebnisse im allgemeinen linearen Modell, ebenso wie einen umfassenden Satz
von Verfahren der schrittweisen Regression und des besten Subsets zur
Modellentwicklung für Effekte von stetigen und kategorialen
Prädiktorvariablen. Das "Allgemein" in
Allgemeine
Regressionsmodelle bezieht sich also sowohl auf den Einsatz des allgemeinen
linearen Modells, als auch auf die Aufhebung der Beschränkung auf Analysen
von Designs mit stetigen Prädiktorvariablen, welcher die meisten anderen
Programme zur schrittweisen Regression unterliegen. Außerdem enthält
ARM spezielle Ergebnisoptionen für Regressionsanalysen wie
Paretodiagramme von Parameterschätzwerten, Gesamtmodelltests mit diversen
Verfahren zur Bestimmung von Modellen ohne Achsenabschnitt, partielle und
semi-partielle Korrelation, usw.
Weitere
Informationen über ARM 
.
Die
Verallgemeinerten Linearen/Nichtlinearen Modelle (VLM)
dienen zum Aufspüren von linearen und nichtlinearen Beziehungen zwischen
einer Wirkungsvariablen und kategorialen oder stetigen Prädiktorvariablen.
Zu den spezielle Anwendungen der verallgemeinerten linearen Modelle zählen
die binomiale und multinomiale Logit-Regression und die Probit-Regression oder
Signalerfassungsmodelle. Das Modul
VLM wird Statistiken für alle
Standardergebnisse berechnen, einschließlich Likelihood-Ratio-Tests,
sowie Wald- und Score-Tests für signifikante Effekte,
Parameterschätzwerte samt ihren Standardfehlern und Konfidenzintervallen,
usw. Die Benutzeroberflächen und Verfahren zur Designspezifikation
entsprechen denen in
ALM, ARM und
PKQ. Der Benutzer kann auf
einfache Weise beispielsweise ANOVA- oder ANCOVA-ähnliche Designs,
Wirkungsflächendesigns, Simplexdesigns für Mischungen spezifizieren.
Somit dürften auch Neueinsteiger keine Schwierigkeiten in der Anwendung
von verallgemeinerten linearen Modelle bei der Analyse ihrer Daten haben.
Außerdem enthält
VLM eine breite Auswahl von Werkzeugen zur
Modellprüfung wie Tabellen und Grafiken für diverse
Residualstatistiken und zur Diagnose von Ausreißern, einschließlich
roher Residuen, Pearson-Residuen, Deviance-Residuen, studentisierter
Pearson-Residuen, studentisierter Deviance-Residuen, Likelihood-Residuen,
differenzieller
Chi-Quadrat-Statistiken, differentieller Deviance und
generalisierter Cook-Distanzen, usw.
Weitere
Informationen über VLM 
.
Modelle Partieller Kleinster Quadrate (PKQ) enthält eine umfassende
Auswahl von Algorithmen für univariate und multivariate Probleme der
partiellen kleinsten Quadrate. PKQ berechnet alle Standardresultate für
Analysen mit partiellen kleinsten Quadraten. Außerdem bietet es viele
Ergebnisoptionen und insbesondere Grafikoptionen, die in anderen
Implementierungen zumeist nicht enthalten sind. Beispielsweise Grafiken von
Parameterwerten als Funktion der Komponentenanzahl, zweidimensionale Plots
für alle Ausgabestatistiken (Parameter, Faktorladungen, usw.),
zweidimensionale Plots für alle Residualstatistiken, usw. Weil
PKQ
eine den
ALM, ARM und
VLM entsprechende flexible
Benutzeroberfläche bietet, können auf einfache Weise in einem Modul
bestimmte Modelle entwickelt und danach in
PLS ausgewertet werden. Diese
einzigartige Flexibilität ermöglicht auch Neueinsteigern den Einsatz
dieser mächtigen Verfahren bei der Analyse ihrer Daten. Die Methode
partieller kleinster Quadrate ist auch ein mächtiges Verfahren für
Data-Mining, insbesondere bei der Bestimmung einer kleinen Anzahl von
Dimensionen für eine große Anzahl von Prädiktoren und
Response-Variablen. Diese Methode zur Analyse von linearen Systemen ist in den
letzten Jahren sehr populär geworden, so dass viele der Algorithmen und
Statistiken sich noch in der Entwicklung befinden.
Weitere
Informationen über PKQ 
.
Modulgruppe Explorative Verfahren
Explorative Verfahren bietet eine breite Auswahl explorativer Verfahren, von der Clusteranalyse bis zu höheren Methoden wie den Klassifikationsbäumen. Die Verfahren enthalten viele Werkzeuge der interaktiven Visualisierung zur Exploration von Beziehungen und Mustern in Daten sowie ein integriertes Visual Basic-Skripting.
Explorative Verfahren umfasst folgende Module:
Dieses Modul enthält eine
umfassende Implementation von Methoden zur Clusterung (
k-Means,
hierarchisch, 2-fach agglomerativ). Die Software kann sowohl Einzeldaten als
auch Distanzmatrizen wie z.B. Korrelationsmatrizen verarbeiten. Der Benutzer
kann Fälle, Variablen oder beides basierend auf einer Vielzahl von
Distanzmaßen [Euklidisch, quadriert Euklidisch, City-block (Manhattan),
Chebychev, Power-Distanzen, Prozent Nichtübereinstimmung und
1-Pearsons
r] clustern. Als Fusionregeln stehen Single Linkage, Complete Linkage,
Weighted und Unweighted Group Average oder Centroid, Ward-Methode und weitere
Verfahren zur Verfügung. Die Distanzmatrizen können für weitere
Analysen gespeichert werden. Beim
k-Means-Verfahren hat der Benutzer die
vollständige Kontrolle über die anfänglichen Cluster-Zentren.
Dabei können Designs von extremer Größe verarbeitet werden: Die
hierarchischen Verfahren können Matrizen von 1000 Variablen oder einer
Million Distanzen behandeln. Zusätzlich zu den üblichen Ergebnissen
einer Clusteranalyse ist ein breiter Satz deskriptiver Statistiken und
Diagnose-Kenngrößen verfügbar. So wird z.B. das
vollständige Fusionsprotokoll bei hierarchischen Verfahren oder die
ANOVA-Tabelle bei
k-Means ausgegeben. Die Information über die
Clusterzugehörigkeit kann der Datendatei zur weiteren Bearbeitung
angefügt werden. Die Grafikoptionen des Moduls beinhalten Baumdiagramme,
diskrete Matrixplots, grafische Darstellungen des Fusionsprotokolls, Plots der
Mittelwerte bei
k-Means-Verfahren und viele weitere.
Das Modul
Faktorenanalyse
stellt eine umfassende Implementation von Verfahren der Faktorenanalyse bereit,
die durch zahlreiche Diagnose-Kenngrößen und eine breite Auswahl
analytischer und explorativer Grafiken ergänzt wird. Die Software
führt Hauptkomponentenanalysen, gewöhnliche und hierarchische
(schiefwinklige) Faktorenanalyse mit bis zu 300 Variablen durch. Umfangreichere
Modelle können mit
(SEPATH) Structural Equation Modeling and Path Analysis durchgeführt werden, welches in der Modulgruppe
Höhere Modelle
enthalten ist.
STATISTICA enthält auch ein spezielles Programm zur
Hauptkomponenten- und Klassifikationsanalyse. Die Ausgaben umfassen die
Eigenwerte (gewöhnliche, kumulierte, relative), Faktorladungen,
Faktorwerte, die der Eingabedatendatei angefügt werden können
(grafisch als Symbole gekennzeichnet und interaktiv rekodiert) sowie eine
Anzahl eher technischer Statistiken und Kenngrößen. An
Rotationsverfahren stehen Varimax, Equimax, Quartimax, Biquartimax (einfach
oder standardisiert) und schiefwinklige Rotationen zur Verfügung. Der
Faktorenraum kann geplottet und anhand von 2D- oder 3D-Scatterplots mit
gelabelten Variablenpunkten projiziert dargestellt werden. Weitere integrierte
Grafiken beinhalten Scree-Plots, verschiedene Scatterplots, Balken- und
Linienplots. Nachdem eine Faktorenlösung gefunden wurde, kann der Benutzer
die Korrelationsmatrix aus der entsprechenden Anzahl an Faktoren neu berechnen,
um die Güte der Anpassung des Faktorenmodells bewerten zu können.
Sowohl Einzeldaten als auch Korrelationsmatrizen können als Eingabe
für das Verfahren dienen. Konfirmatorische Faktorenanalyse und andere
verwandte Analysen können mit Hilfe von
(SEPATH) Structural Equation Modeling and Path
Analysis der Modulgruppe
Höhere Modelle aufgerufen werden, in dem ein spezieller Assistent
für die
Konfirmatorische Faktorenanalyse Sie Schritt für
Schritt durch den Prozess der Spezifikation des Modells führt.
Dieses Modul bietet eine
umfassende Implementation von Verfahren der kanonischen Analyse und bildet
damit eine sinnvolle Ergänzung der in andere Module (
ANCOVA / MANCOVA oder
Diskriminanzanalyse) integrierten Verfahren. Es
können sowohl Einzeldaten als auch Korrelationsmatrizen verarbeitet
werden. Im Ergebnis der Analyse werden alle Statistiken der kanonischen
Korrelationsanalyse berechnet, wie Eigenwerte, Eigenvektoren,
Redundanzkoeffizienten, kanonische Gewichte, Ladungen, extrahierte Varianzen,
Signifikanztests für jede Root usw. Dazu wird eine umfangreiche Anzahl von
Diagnose-Kenngrößen ausgegeben. Die Scores der kanonischen Variablen
können für jeden Fall berechnet, ggf. an die Datendatei angefügt
und über integrierte Iconplots veranschaulicht werden. Das Modul
beinhaltet außerdem eine Vielzahl integrierter Grafiken (Plots der
Eigenwerte, der kanonischen Korrelationen, Scatterplots der kanonischen
Variablen und viele weitere). Konfirmatorische Analysen struktureller
Beziehungen zwischen latenten Variablen können mit
SEPATH (Structural Equation Modeling
and Path Analysis) der Modulgruppe
Höhere Modelle durchgeführt werden. Fortgeschrittene
Verfahren zur schrittweisen und Beste-Subset-Auswahl von
Prädiktorvariablen für MANOVA/MANCOVA-Designs (mit mehreren
abhängigen Variablen) sind im Modul
Allgemeine Regressionsmodelle
(ARM) im Teilmodul
Höhere
Modelle verfügbar.
Dieses Modul
beinhaltet eine umfassende Auswahl von Verfahren für die Entwicklung und
Bewertung von Umfragen und Fragebögen. Wie in allen anderen Modulen von
STATISTICA, können hier extrem große Designs analysiert
werden. Der Benutzer kann Statistiken der Reliabilität für alle Items
einer Skala berechnen, interaktiv Teilmengen auswählen oder Vergleiche
zwischen Teilmengen von Items anstellen, indem die Verfahren "Split-Half" oder
"Split-Part" eingesetzt werden. In einem einzigen Run kann der Benutzer sowohl
die Reliabilität einer Summenskala als auch die von Subskalen bewerten.
Werden Items interaktiv eliminiert, wird sofort die neue Reliabilität
berechnet, ohne dass die Datendatei nochmals verarbeitet werden muss. Die
Ausgabe beinhaltet Korrelationsmatrizen und deskriptive Statistiken für
die Items, Cronbachs
Alpha, das standardisierte
Alpha, die
mittlere Inter-Item-Korrelation, die vollständige ANOVA-Tabelle für
die Skala, den vollständigen Satz der Item-Gesamt-Statistik
(einschließlich multipler Item-Gesamt
Rs), die
Split-Half-Reliabilität und die Korrelation zwischen den beiden Listen mit
Abschwächungskorrektur. Eine Reihe von Grafiken, einschließlich
verschiedener integrierter Scatterplots, Histogramme und Linienplots, sowie
eine Auswahl an interaktiven
Was-wäre-wenn-Prozeduren
unterstützt die Entwicklung der Skalen. So kann der Benutzer
beispielsweise die erwartete Reliabilität berechnen, wenn eine bestimmte
Anzahl von Items der Skala hinzugefügt würde. Auf diese Weise kann
die Anzahl der für das Erreichen einer bestimmten Reliabilität der
Skala hinzuzufügenden Items geschätzt werden. Außerdem kann der
Benutzer die abschwächungskorrigierte Korrelation (aufgrund nicht
vollständiger Reliabilität der Messungen) zwischen der aktuellen
Skala (bei gegebener aktueller Reliabilität) mit einem externen Kriterium
(bei gegebener benutzerdefinierter Reliabilität) schätzen.
Das
Modul
Klassifikations- und Regressionsbäume bietet eine umfassende
Implementation der aktuellsten Algorithmen für die effektive Erstellung
und für das Testen der Robustheit von Klassifikationsbäumen. Ein
Klassifikationsbaum ist eine Regel für die Prognose der
Klassenzugehörigkeit eines Objektes aus den Werten seiner
Prädiktor-Variablen. (Höhere Methoden für
Klassifikationsbäume, einschließlich flexibler Optionen zur
Modellentwicklung und interaktive Werkzeuge zur Exploration von Bäumen
sind im
STATISTICA Data Miner mit den
General Classification and Regression Tree Models (GTrees)
und
General CHAID (Chi-square Automatic Interaction
Detection) 
enthalten.) Klassifikationsbäume können auf der
Basis von kategorialen oder ordinalen Prädiktor-Variablen erstellt werden.
Dabei können sowohl univariate als auch multivariate Splits oder
Linearkombinationen von Splits eingesetzt werden. Die Optionen der Analyse
enthalten die Durchführung von umfassenden Splits
(exhaustive
splits, wie in
THAID und
CART) oder auf Diskrimination
basierende Splits; unverzerrte (
unbiased) Variablenauswahl (wie in
QUEST); direkte Stopregeln (
direct stopping rules, wie in
FACT) oder "Aufwärtsabschneiden" (
bottom-up pruning, wie in
CART); Abschneiden basierend auf Fehlklassifikationsraten oder der
"Deviance"-Funktion; verallgemeinerte
Chi-Quadrat-,
G-Quadrat-
oder
Gini-Index-Maße für die Güte der Anpassung.
Priors und Fehlklassifikationskosten können als identisch spezifiziert,
aus den Daten geschätzt oder benutzerspezifiziert werden. Der Benutzer
kann außerdem den v-Wert für v-fache Kreuzvalidierung während
der Baumerstellung, den
v-Wert für v-fache Kreuzvalidierung
für die Fehlerschätzung, die Größe der SE-Regel, die
minimale Knotengröße vor dem Abschneiden, Startwerte für die
Zufallszahlengenerierung und
Alpha-Werte für die Variablenselektion
spezifizieren. Für die Unterstützung der Analysen stehen integrierte
Grafikoptionen zur Verfügung.
Dieses Modul bietet eine
vollständige Implementation von Verfahren der einfachen und multiplen
Korrespondenzanalyse, wobei auch Tabellen extremer Größe analysiert
werden können. Die Software akzeptiert als Input für die Analyse
Datendateien mit Gruppierungs- (Code-)Variablen für die Berechnung von
Kontingenztabellen. Zulässig sind auch Datendateien mit Häufigkeiten
(bzw. anderen Korrespondenz-, Assoziations-, Ähnlichkeitsmaßen ) und
Kodierungsvariablen zur Kennzeichnung der Zellen in der Tabelle. Darüber
hinaus werden außerdem Datendateien akzeptiert, die nur Häufigkeiten
(oder andere Korrespondenzmaße) enthalten. Hierbei kann man direkt eine
Häufigkeitstabelle eingeben und analysieren lassen. Für die multiple
Korrespondenzanalyse kann auch direkt eine
Burt-Tabelle für die
Eingabe spezifiziert werden. Die Software berechnet verschiedene Tabellen:
Zeilen-Prozente, Spalten-Prozente, Gesamt-Prozente, erwartete Werte,
beobachtete minus erwartete Werte, standardisierte Abweichungen und
Beiträge zum
Chi-Quadrat-Wert. Diese Statistiken können in
3D-Histogrammen grafisch dargestellt und mit Hilfe der Funktion
Schichtweise
Animation betrachtet werden. Das Modul
Korrespondenzanalyse
berechnet die verallgemeinerten Eigenwerte und Eigenvektoren und liefert als
Ergebnisse außerdem alle üblichen Diagnose-Kenngrößen wie
Singulärwerte, Eigenwerte und prozentuale Anteile an der Trägheit
für jede Dimension. Sie können entweder manuell die Anzahl der
Dimensionen wählen oder einen "Cut-off-Wert" für den maximalen
kumulierten Prozentanteil der Trägheit festlegen. Die Software berechnet
die standardisierten Koordinatenwerte für alle Zeilen- und Spaltenpunkte.
Sie haben bei der Standardisierung die Wahl zwischen den Optionen
Zeilenprofile, Spaltenprofile, Zeilen- und Spaltenprofile und
Kanonisch. Für jede Dimension und jeden Zeilen- oder Spaltenpunkt
berechnet die Software Trägheit, Qualität und Kosinus²-Werte.
Außerdem können Sie sich in Ergebnistabellen die Matrizen der
verallgemeinerten Singulärvektoren anzeigen lassen. Wie bei allen anderen
Ergebnistabellen kann auf diese Werte mit Hilfe von
STATISTICA Visual
Basic zugegriffen werden, um beispielsweise eine nicht übliche Methode
zur Berechnung der Koordinaten zu verwenden. Sie können Koordinatenwerte
und zugehörige Statistiken (Qualität und
Kosinus²-Werte)
für ergänzende Punkte (Zeile oder Spalte) berechnen lassen und die
Ergebnisse mit den regulären Zeilen- und Spaltenpunkten vergleichen.
Ergänzende Punkte können auch für eine multiple
Korrespondenzanalyse spezifiziert werden. Neben den 3D-Histogrammen, die
für alle Tabellen berechnet werden können, ist auch die Erzeugung
eines Linienplots für die Eigenwerte und die Erzeugung von 1D-, 2D- und
3D-Plots für die Zeilen- oder Spaltenpunkte möglich. Zeilen- und
Spaltenpunkte können auch in einer gemeinsamen Grafik kombiniert werden -
zusammen mit möglichen ergänzenden Punkten. Jeder Punkttyp besitzt
eine andere Farbe und Markierung, so dass verschiedene Punkttypen in den Plots
leicht identifizierbar sind. Alle Punkte erhalten Labels. Hierzu ist eine
Option verfügbar, mit der die Namen für die Punkte auf eine
benutzerdefinierte Anzahl von Zeichen gestutzt werden können.
Das Modul
Multidimensionale Skalierung beinhaltet eine vollständige
Implementation der nichtmetrischen Multidimensionalen Skalierung. Hier
können Matrizen mit Ähnlichkeiten, Unähnlichkeiten oder
Korrelationen analysiert werden, wobei bis zu neun Dimensionen spezifiziert
werden können. Die Start-Konfiguration kann entweder vom Programm
über eine Hauptkomponentenanalyse berechnet oder vom Benutzer spezifiziert
werden. Die Software verwendet ein iteratives Verfahren zur Minimierung des
Stress-Wertes und des Unschärfemaßes (
coefficient of
alienation). Der Benutzer kann den Iterationsprozess überwachen und
die Veränderungen in diesen zu minimierenden Werten beobachten. Die
Endkonfigurationen können sowohl in Ergebnistabellen als mittels 2D- und
3D-Scatterplots des Raumes der Dimensionen mit durch Labels gekennzeichneten
Item-Punkten ausgewertet werden. Die Ausgabe beinhaltet darüber hinaus die
Werte für den Stress (raw
F), Kruskals Stress-Koeffizient
S
und das Unschärfemaß (
coefficient of alienation). Die
Güte der Anpassung kann anhand von Shepard-Diagrammen (
d-Dach und
d-Stern) bewertet werden. Wie in
STATISTICA üblich kann die
Endkonfiguration in einer Datendatei gespeichert werden.
Das Modul
Diskriminanzanalyse enthält eine vollständige Implementation
der multiplen schrittweisen Analyse von Diskriminanzfunktionen.
STATISTICA enthält auch das Modul
Allgemeine
Diskriminanzanalytische Modelle (ADM). (unten) zur Anpassung von
ANOVA/ANCOVA-ähnlichen Designs mit kategorialen abhängigen Variablen
und zur Durchführung vieler fortgeschrittener Analyseformen (z.B.
Beste-Subset-Auswahl von Prädikoren, Profilieren von posterioren
Wahrscheinlichkeiten). Die Software führt schrittweise Analysen
vorwärts/rückwärts oder für benutzerspezifizierte
Blöcke von Variablen durch. Zusätzlich zu den zahlreichen Grafiken
und Kenngrößen zur Beschreibung der Diskriminanzfunktionen stellt
das Programm eine breite Auswahl an Optionen für die Klassifikation
alter bzw.
neuer Fälle für die Bewertung des Modells
bereit. Die Ausgabe umfasst Wilks
Lambdas, partielle
Lambdas,
F-für-Aufnahme (oder für Ausschluss), die
p-Niveaus, die Toleranzwerte und
R-Quadrat. Das Programm
führt eine vollständige kanonische Analyse durch und gibt die
Eigenwerte, die kumulierten Eigenwerte für alle Roots und deren
p-Niveaus, die Koeffizienten der standardisierten und
nichtstandardisierten Diskriminanzfunktionen, die Matrix der
Strukturkoeffizienten (Faktorladungen), die Mittelwerte für die
Diskriminanzfunktionen und die Werte der Diskriminanzfunktionen (Scores)
für jeden Fall aus, die der Datendatei automatisch angefügt werden
können. Die integrierten Grafiken beinhalten Histogramme der Scores
innerhalb jeder Gruppe und für alle Gruppen gemeinsam, spezielle
Scatterplots für Paare kanonischer Variablen, in denen die
Gruppenzugehörigkeit der einzelnen Fälle sichtbar ist, eine
umfassende Auswahl von Grafiken in Kategorien, die es dem Benutzer
ermöglichen, die Verteilungen und die Beziehungen zwischen den
abhängigen Variablen über die Gruppen zu untersuchen. Dazu
zählen Box-Whisker-Plots, Histogramme, Scatterplots, Verteilungsplots und
viele weitere. Das Modul
Diskriminanzanalyse berechnet außerdem
die Klassifikationsfunktionen für jede Gruppe. Die Klassifikation der
Fälle kann in Abhängigkeit von den Werten der Mahalanobis-Distanzen,
den
Posteriori-Wahrscheinlichkeiten oder den tatsächlichen
Klassifikationen vorgenommen werden. Die Scores für die einzelnen
Fälle können anhand von Iconplots und weiteren "mehrdimensionalen"
Grafiken veranschaulicht werden, die direkt in die Tabelle der Ergebnisse
integriert sind. Alle diese Werte können der aktuellen Datendatei für
weitere Analysen automatisch angefügt werden. Auch die
Klassifikationsmatrix mit der jeweiligen Anzahl und dem prozentualen Anteil
korrekt klassifizierter Fälle kann angefordert werden. Der Benutzer
verfügt über verschiedene Optionen zur Spezifikation der
a-priori-Wahrscheinlichkeiten für die Gruppenzugehörigkeit. Er
kann weiter Auswahlbedingungen angeben, um ausgewählte Fälle von der
Klassifikation auszuschließen bzw. diese Fälle in die Klassifikation
aufzunehmen.
Das
Modul
STATISTICA Allgemeine Diskriminanzanalytische Modelle (ADM) ist
eine Anwendung und Erweiterung des allgemeinen linearen Modells auf
Klassifikationsprobleme. Ähnlich wie das Modul
Diskriminanzanalyse,
dient
ADM zur standardmäßigen und schrittweisen
Diskriminanzanalyse.
ADM implementiert das diskriminanzanalytische
Problem als Spezialfall des allgemeinen linearen Modells und bietet darum
äußerst brauchbare Analyseverfahren, die innovativ, effizient und
sehr mächtig sind. Wie bei der traditionellen Diskriminanzanalyse, erlaubt
ADM die Spezifikation einer kategorialen abhängigen Variablen.
Für die Analyse wird die Gruppenzugehörigkeit (in Hinblick auf die
abhängige Variable) dann in Form von Indikatorvariablen kodiert, so dass
alle Verfahren der
ARM anwendbar sind. In den Ergebnisdialogen von
ADM ist eine breite Auswahl von Residualstatistiken von
ARM und
ALM ebenfalls verfügbar.
ADM bietet mächtige und
effiziente Werkzeuge für Data-Mining und angewandte Forschungen an.
ADM berechnet alle Standardergebnisse für Diskriminanzanalysen,
einschließlich Koeffizienten der Diskriminanzfunktion, Resultaten der
kanonischen Analyse (standardisierte und rohe Koeffizienten, Step-Down-Tests
für kanonische Roots, usw.), Klassifikationsstatistiken
(einschließlich Mahalanobis-Distanzen, posteriorer Wahrscheinlichkeiten,
aktueller Klassifikation von Fällen in der Analyse- und
Validierungsstichprobe, Fehlklassifikationsmatrix, usw.).
Weitere Informationen zu ADM finden Sie
hier 
.
Modulgruppe Poweranalyse
StatSoft hat auf der Basis der Technologie seiner bewährten
Statistiksysteme ein neues Werkzeug zur effizienten Planung und Analyse von
Forschungsstudien entwickelt: Das Teimodul
Poweranalyse ist ein
umfassendes Softwaretool, das den Anwender bei der Planung von
Stichprobengrößen für Forschungsvorhaben unterstützt. Es
bietet darüber hinaus eine Vielzahl von Hilfsmitteln, um alle Aspekte der
Macht (Power) von statistischen Testverfahren und der Berechnung von
Stichprobengrößen abzudecken.
Poweranalyse deckt folgende Fragestellungen ab:
Berechnung von Stichprobengrößen: Poweranalyse berechnet Stichprobengrößen als Funktion des
sogenannten Fehlers erster Art und Effektstärken in einer Vielzahl
statistischer Tests (z.B. Ein- und Zweistichproben-Tests, Kontraste,
Varianzanalysen, Chi-Quadrat, F-Tests oder Rang-Tests).
Schätzung von Vertrauensintervallen: Neuerdings wird in der
Statistik der Schätzung von Vertrauensbereichen starke Beachtung
geschenkt, und zwar sowohl in der Planung als auch in der Auswertung von
Ergebnissen. Die Software kann für viele wichtige statistische
Größen (z.B. standardisierte Effektstärke in der
Varianzanalyse, Korrelationskoeffizienten oder Unterschiede zwischen
Stichprobenanteilen) solche Vertrauensbereiche berechnen. Diese
geschätzten Werte können ihrerseits wieder für die Berechnung
von Stichprobengrößen in Folgestudien benutzt werden.
Berechnung von StatistischenVerteilungen: Neben den bereits in
STATISTICA verfügbaren Verteilungen bietet Poweranalyse spezielle Optionen für die Güte-Berechnungen
(nicht-zentrales t, F und Chi-Quadrat, Binomial, exakte Verteilung von
Korrelationskoeffizienten und mehr).
Durch den Einsatz von Poweranalyse kann man stets
sicherstellen, daß die Resourcen durch den Einsatz optimaler
Stichprobengrößen effizient genutzt werden. Man vermeidet, daß
die Forschungsergebnisse aufgrund zu geringer Zahlen unpräzise werden,
verschwendet auf der anderen Seite aber auch keine Mittel mit zu großen
Untersuchungsgruppen. Die Berechnung von Güte- und Vertrauensbereichen
stellt darüber hinaus eine weitere Bereicherung der Forschungsergebnisse
dar.
Detaillierte Informationen zu der Modulgruppe Poweranalyse finden Sie hier
.