STATISTICA Professionell
STATISTICA Basis wird für anspruchsvollere Anwendungen durch das Zusatzprodukt STATISTICA Professionell komplettiert. Es verbindet vertiefende statistische Verfahren und spezielle Grafiken mit der Leistungsfähigkeit und leichten Bedienbarkeit der STATISTICA-Technologie.
Damit Sie das Potenzial unserer Software voll ausschöpfen können, bieten wir regelmäßig Kurse in unseren Schulungsräumlichkeiten in Hamburg und Inhouse-Schulungen beim Kunden an (siehe Kursangebot).
Informationen zu den Modulgruppen von STATISTICA Professionell:
Modulgruppe Höhere Modelle
Höhere Modelle bietet ein breites Spektrum von hochentwickelten linearen und nichtlinearen Modellierungswerkzeugen, unterstützt stetige und kategoriale Prädiktoren, Interaktionen, hierarchische Modelle, Einrichtungen zur automatischen Modellwahl, außerdem Varianzkomponenten, Zeitreihenanalyse und viele andere Verfahren. Alle Analysen sind mit interaktiven Grafiken und eingebautem Visual Basic-Skripting ausgestattet. Folgende Module sind enthalten:
- Varianzkomponenten und Gemischte-Modelle-ANOVA/ANCOVA
- Survival- und Ausfallzeitenanalyse
- Allgemeine nicht-lineare Regression
- Loglineare Analyse
- Zeitreihenanalyse / Prognose
- Modellierung von Strukturgleichungen und Pfadanalyse (SEPATH)
- Allgemeine Lineare Modelle (ALM)
- Allgemeine Regressionsmodelle (ARM)
- Verallgemeinerte Lineare/Nichtlineare Modelle (VLM)
- Modelle Partieller Kleinster Quadrate (PKQ)
Varianzkomponenten und
Gemischte-Modelle-ANOVA/ANCOVA
Varianzkomponenten und
Gemischte-Modelle-ANOVA/ANCOVA ist ein spezielles Modul für Designs
mit zufälligen Effekten und/oder Faktoren mit vielen Stufen. Optionen zur
Behandlung von zufälligen Effekten und Schätzung von
Varianzkomponenten werden auch im Modul Allgemeine Lineare Modelle
angeboten. Solche Faktoren treten häufig in der industriellen
Forschung bei der Realisierung einer zufälligen Variablen als Faktorstufen
auf, so dass letztere nicht vom Experimentator oder Ingenieur gezielt
eingestellt werden können. Das Modul Varianzkomponenten erlaubt die
Analyse von Designs mit beliebigen Kombinationen fester/zufälliger Effekte
und mit Kovariablen. Es können ANOVA/ANCOVA-Designs selbst extremer
Größe effektiv analysiert werden. Die Faktoren können Hunderte
von Stufen besitzen. Die Software analysiert gewöhnliche faktorielle
kreuzklassifizierte Designs und berechnet die üblichen Typ I-, II-
und III-Quadratsummen der Varianzanalyse sowie die mittleren Quadrate
für die im Modell befindlichen Effekte. Außerdem können Sie die
Tabelle der erwarteten mittleren Quadrate für die im Modell befindlichen
Effekte, die Varianzkomponenten für die zufälligen Effekte im Modell,
die Koeffizienten der Nenner-Synthese (denominator synthesis) und die
vollständige ANOVA-Tabelle mit den auf den zusammengesetzten
(synthetisierten) Fehlertermen und den entsprechenden Freiheitsgraden
basierenden Tests berechnen (unter Verwendung von Satterthwaites Methode).
Darüber hinaus werden weitere Methoden zur Schätzung der
Varianzkomponenten unterstützt (z.B. MIVQUE(0), Maximum-Likelihood
(ML), Restringierte Maximum-Likelihood (REML)). Für die
Maximum-Likelihood-Schätzung werden der Newton-Raphson- und der
Fisher-Scoring-Algorithmus verwendet. Für die Anzeige der gewichteten und
ungewichteten Randmittelwerte und deren Konfidenzintervallen stehen
verschiedene Optionen zur Verfügung. Umfangreiche Grafik-Optionen
können für die Visualisierung der Ergebnisse eingesetzt
werden.
Survival- und Ausfallzeitenanalyse
Dieses Modul
enthält eine umfassende Implementation einer Vielzahl von Verfahren zur
Analyse zensierter Daten sowohl aus der biologischen, medizinischen und
Sozialforschung als auch aus den Ingenieurwissenschaften und der
Marktforschung. Neben der Berechnung von Sterbetafeln mit verschiedenen
deskriptiven Statistiken und Kaplan-Meier-Schätzern kann der Benutzer die
Survival-Funktionen in verschiedenen Gruppen unter Verwendung einer Reihe von
Testverfahren vergleichen. Dazu gehören Gehan-Test, Cox' F-Test,
Cox-Mantel-Test, Log-Rang-Test und Peto & Petos verallgemeinerter
Wilcoxon-Test. Außerdem können Kaplan-Meier-Plots für Gruppen
erstellt werden, wobei die unzensierten Beobachtungen in den Grafiken durch
verschiedene Punktmuster gekennzeichnet werden. Die Software bietet weiter eine
Auswahl von Verfahren zur Anpassung von Survival-Funktionen an die Daten
(Exponential, Linear-Hazard, Gompertz und Weibull), die auf
ungewichteten oder gewichteten KQ-Methoden basieren.
Maximum-Likelihood-Schätzungen der Parameter für verschiedene
Verteilungen, einschließlich der Weibull-Verteilung, können in der
Prozessanalyse
von STATISTICA Industriell durchgeführt werden. Schließlich enthält die Software
vollständige Implementationen der vier allgemeinen Modelle (Cox
Proportional Hazard Modell, exponentielle Regression, lognormale und normale
Regressionsmodelle) mit ausführlichen Diagnose-Kenngrößen,
einschließlich geschichteter Analysen und Grafiken der Survival-Funktion
für benutzerspezifizierte Werte der Prädiktor-Variablen. Für die
Cox-Regression kann der Benutzer die Stichprobe schichten, um verschiedene
Grundlinienfunktionen (baseline hazards) und Koeffizientenvektoren in
verschiedenen Schichten behandeln zu können. Darüber hinaus stehen
Funktionen für die Definition einer oder mehrerer zeitabhängiger
Kovariablen zur Verfügung. Diese zeitabhängigen Kovariablen
können mit Hilfe eines flexiblen Formelinterpreters definiert werden, der
es dem Benutzer ermöglicht, die Kovariablen über arithmetische
Ausdrücke zu spezifizieren, die sowohl die Zeit als auch logische
Funktionen (z.B. timdep=age+age*log(t)*(age>45), wobei t die Zeit
beschreibt) sowie Verteilungsfunktionen enthalten können. Wie in allen
anderen Modulen von STATISTICA auch kann der Benutzer auf die
technischen Parameter aller Verfahren zugreifen, um diese ggf. zu
verändern. Das Modul enthält schließlich eine umfassende
Auswahl an Grafiken und speziellen Diagrammen, um die Interpretation der
Ergebnisse zu unterstützen, wie z.B. Plots der Survival-Funktion, Muster
der zensierten Daten, Hazard- und kumulierte Hazard-Funktionen,
Wahrscheinlichkeitsdichten, Plots zum Vergleich von Gruppen, Plots zur
Verteilungsanpassung, verschiedene Residuenplots und viele weitere. Für
ingenieurtechnische Anwendungen siehe auch Weibull-Analyse.
Allgemeine nichtlineare Regression (und Logit/Probit).
Das Modul Nichtlineare Regression ermöglicht
dem Benutzer die Anpassung beliebiger Typen nichtlinearer Modelle. Eine der
speziellen Eigenschaften dieses Moduls besteht darin, dass im
Unterschied zu traditionellen Programmen der nichtlinearen Regression
die Größe der Datendatei keine Rolle spielt.
Schätzmethoden. Die Modelle können unter Verwendung von
KQ- oder Maximum-Likelihood-Schätzverfahren bzw. basierend auf
benutzerdefinierten Verlustfunktionen angepasst werden. Auf der Basis des
Kleinste-Quadrate-Kriteriums lassen sich der hocheffiziente
Levenberg-Marquardt- und der Gauss-Newton-Algorithmus zur
Parameterschätzung für beliebige lineare und nichtlineare
Regressionsprobleme einsetzen. Für große Datensätze oder
schwierige nichtlineare Regressionsprobleme auf der Basis Kleinster Quadrate
ist dies die empfohlene Methode zur Berechnung präziser
Parameterschätzwerte. Der Benutzer kann aus vier leistungsfähigen
Optimierungsverfahren zur konkreten Parameterschätzung auswählen:
Quasi-Newton, Simplex, Koordinatensuche nach Hooke-Jeeves sowie
Rosenbrock-Suchverfahren der rotierenden Koordinaten. Damit erhält man
stabile Parameterschätzungen in nahezu allen Fällen, selbst bei
numerisch anspruchsvollen Problemen (siehe Validation
Benchmarks
).
Modelle. Der Benutzer kann die Modellgleichung einfach dadurch spezifizieren, dass er die Gleichung in einem speziellen Editor eingibt. Die Gleichungen können logische Operatoren enthalten, wodurch es möglich wird, unstetige, d.h. stückweise definierte, Regressionsmodelle und Modelle mit Indikatorvariablen zu spezifizieren. In den Gleichungen kann auf eine breite Auswahl von Verteilungen Bezug genommen werden. Dazu gehören Beta-, Binomial-, Cauchy-, Chi-Quadrat-, Exponential-, Extremwert-, F-, Gamma-, Geometrische, Laplace-, Logistische, Normal-, Lognormal-, Pareto-, Poisson-, Rayleigh-, Students t- sowie Weibull-Verteilung (Dichte- bzw. Wahrscheinlichkeitsfunktion, Verteilungsfunktion und deren Inverse). Der Benutzer kann alle Aspekte des Schätzverfahrens, wie z.B. Startwerte, Schrittweiten, Konvergenzkriterien, in vollem Umfang kontrollieren. Die am häufigsten benötigten Regressionsmodelle sind im Modul Nichtlineare Regression vordefiniert und können einfach als Menüoptionen abgerufen werden. Diese Modelle schließen schrittweise Probit- und Logit-Regression, das exponentielle Regressionsmodell und stückweise lineare Regression (mit Strukturbruch) ein. Zu beachten ist, dass STATISTICA auch Implementierungen mächtiger Algorithmen zur Anpassung von verallgemeinerten linearen Modellen enthält, einschließlich Probit und multinomialer Logit-Modelle, sowie verallgemeinerte additive Modelle.
Ergebnisse. Zusätzlich zu verschiedenen deskriptiven
Statistiken enthält die Standardausgabe die Parameterschätzungen,
deren Standardfehler, die unabhängig von den Schätzungen selbst
berechnet werden (siehe Validation Benchmarks
), die Kovarianzmatrix der
Parameterschätzungen, die Prognosewerte, Residuen und Maße für
die Anpassungsgüte (z.B. die Log-Likelihood der
geschätzten/Nullmodelle und den Chi-Quadrat-Test der Differenz an
erklärter Varianz, Klassifikation der Fälle und Odds-Ratios für
Logit- und Probit-Modelle). Die Prognosewerte und die Residuen können der
Datendatei für weitere Analysen hinzugefügt werden. Für Probit-
und Logit-Modelle wird der Gewinn bzw. Verlust an Anpassung automatisch
berechnet, wenn Parameter dem Modell hinzugefügt oder aus diesem entfernt
werden, d.h. der Benutzer kann die Modelle anhand schrittweiser nichtlinearer
Verfahren an die Daten erkunden. Optionen zur automatischen schrittweisen
Regression (vorwärts und rückwärts) sowie Beste-Subset-Auswahl
von Prädiktoren in Logit- und Probit-Modellen werden im Modul Verallgemeinerte Lineare/Nichtlineare Modelle
angeboten.
Grafiken. In die Ausgabe der Ergebnisse ist eine umfassende Auswahl von Grafiken integriert. Dazu gehören 2D- und 3D-Flächenplots, die dem Benutzer die Güte der Anpassung verdeutlichen und die Identifikation von Ausreißern ermöglichen. Der Benutzer kann interaktiv die Gleichung der angepassten Funktion korrigieren, ohne die Daten neu verarbeiten zu müssen, und nahezu alle Aspekte des Schätzprozesses visualisieren. Viele weitere spezielle Grafiken dienen der Bewertung der Güte der Anpassung und der Visualisierung der Ergebnisse, wie z.B. Histogramme aller ausgewählten Variablen und der Residuen, Scatterplots der Beobachtungswerte gegen die Prognosewerte sowie Prognosewerte gegen Residuen, einfache und einseitige Normalverteilungsplots der Residuen und weitere.
Loglineare Analyse
Dieses Modul enthält eine
vollständige Implementation von Verfahren der Modellierung loglinearer
Ansätze für mehrdimensionale Häufigkeitstabellen. Zu beachten
ist, dass STATISTICA auch das Modul Verallgemeinerte
Lineare/Nichtlineare Modelle enthält, welches Optionen zur Analyse
von binomialen und multinomialen Logit-Modellen mit kodierten
ANOVA/ANCOVA-ähnlichen Designs anbietet. Die Software analysiert Tabellen
mit bis zu sieben Dimensionen. Sowohl vollständige als auch
unvollständige Tabellen mit strukturellen Nullen können analysiert
werden. Häufigkeitstabellen können aus Einzeldaten erstellt oder im
Programm direkt eingegeben werden. Das Modul Loglineare Analyse bietet
eine umfassende Auswahl von anspruchsvollen Verfahren zur Modellierung in einer
interaktiven und flexiblen Umgebung, die explorative und konfirmatorische
Analysen selbst komplexer Tabellen in hohem Maße unterstützt. Der
Benutzer kann an jeder Stelle der Analyse sowohl die vollständige Tabelle
als auch die Marginaltabellen betrachten. Darüber hinaus können die
erwarteten Häufigkeiten ausgegeben werden. Die Anpassung aller marginalen
und partiellen Assoziationsmodelle kann bewertet werden; es können
außerdem spezielle Modelle an die beobachteten Daten angepasst werden.
Für die Auswahl des bestangepassten Modells beinhaltet die Software eine
intelligente Prozedur zur automatischen Modellwahl, die zunächst die
für die Anpassung erforderliche Ordnung der Interaktionen bestimmt, um
anschließend über Rückwärts-Elimination das beste Modell
zu finden, das an die Daten hinreichend gut angepasst ist. Die Kriterien
für die Güte der Anpassung werden vom Benutzer spezifiziert. Die
Standardausgabe beinhaltet u.a. G-Quadrat
(Maximum-Likelihood-Chi-Quadrat), die gewöhnliche
Pearsonsche Chi-Quadrat-Statistik mit entsprechenden Freiheitsgraden und
Signifikanzniveaus, die Tabellen mit den beobachteten und erwarteten
Häufigkeiten. Die im Modul Loglineare Analyse verfügbaren
Grafikoptionen schließen eine Vielzahl von 2D- und 3D-Grafiken ein, die
speziell für die Visualisierung von zwei- und mehrdimensionalen
Häufigkeitstabellen konzipiert wurden, z.B. interaktive,
benutzerkontrollierte Stapel von Histogrammen in Kategorien und
3D-Histogrammen, die Schichten der mehrdimensionalen Tabellen darstellen, Plots
von beobachteten und erwarteten Häufigkeiten, Plots verschiedener Residuen
(standardisiert, Komponenten der
Maximum-Likelihood-Chi-Quadrat-Statistik, Freeman-Tukey-Reste ) und
weitere.
Zeitreihenanalyse / Prognose
Das Modul
Zeitreihen enthält eine ganze Reihe von verschiedenen Verfahren:
deskriptive Verfahren, Modellierung, Zerlegung und Prognose sowohl für
Modelle in der Zeit als auch für Modelle im Frequenzbereich. Alle diese
Prozeduren sind integriert, d.h. dass die Ergebnisse einer Analyse, z.B. die
Residuen eines ARIMA-Modells, direkt in der folgenden Analyse verwendet werden
können, um z.B. die Autokorrelation der Residuen zu berechnen.
Außerdem stehen flexible Optionen für die grafische Darstellung
einzelner oder mehrerer Zeitreihen zur Verfügung. Im aktiven
Arbeitsbereich können mehrere Reihen, z.B. aus der Eingabe oder
verschiedenen Stadien der Analyse, verwaltet werden; diese Zeitreihen
können betrachtet und verglichen werden. Das Programm verfolgt automatisch
aufeinanderfolgende Analysen und verwaltet ein Protokoll der Transformationen
und weiterer Ergebnisse, wie z.B. ARIMA-Residuen, Saison-Komponenten Der
Benutzer kann folglich stets zu vorangegangenen Transformationen
zurückkehren oder die Originalreihe mit ihren Transformationen, z.B.
anhand von Plots, vergleichen. Informationen über die Transformationen
werden in Form von langen Variablen-Labels abgelegt, so dass beim Speichern der
neu erzeugten Variablen die gesamte "Vorgeschichte" der Zeitreihe erhalten
bleibt. Die speziellen Verfahren des Moduls Zeitreihen werden in den
folgenden Unterabschnitten beschrieben.
Transformationen, Modellierung, Plots, Autokorrelationen. Die verfügbaren Transformationen ermöglichen dem Benutzer die vollständige Untersuchung von Mustern in der eingegebenen Zeitreihe und die Durchführung aller gebräuchlichen Transformationen von Zeitreihen einschließlich: Trendbereinigung, Elimination von Autokorrelationen, Glättung über gleitende Mittel (ungewichtet und gewichtet, mit benutzerdefinierten oder Daniell-, Tukey-, Hamming-, Parzen- oder Bartlett-Gewichten), Glättung anhand gleitender Mediane, einfaches exponentielles Glätten (siehe auch die Beschreibung aller Optionen des exponentiellen Glättens weiter unten), Differenzieren, Integrieren, Residuenbildung, Shifting, 4253H-Filter, Tapering, Fourier- (und inverse) Transformationen und weitere. Analysen der Autokorrelation, der partiellen Autokorrelation und der Kreuzkorrelation können außerdem durchgeführt werden.
ARIMA und Zeitreihen mit Strukturbruch, Interventionsanalyse. Das Modul Zeitreihen bietet eine vollständige Implementation von ARIMA-Verfahren. Die Modelle können eine Konstante enthalten und die Reihe kann vor dem Beginn der Analyse transformiert werden. Diese Transformationen werden automatisch "rückgängig" gemacht, nachdem die ARIMA-Prognosen berechnet wurden, so dass die Prognosen und deren Standardfehler in Abhängigkeit von den Werten der Originalreihe beschrieben werden. Es können approximative und exakte bedingte Maximum-Likelihood-Quadratsummen berechnet werden. Die ARIMA-Implementation im Modul Zeitreihen ist speziell für die Anpassung von Modellen mit langen Saisonperioden (z.B. Perioden von 30 Tagen) ausgelegt. Die Standardausgabe umfasst die Parameterschätzungen, deren Standardfehler und die Korrelationen der Parameter. Weiter können Prognosen und deren Standardfehler berechnet, geplottet und an die Datendatei angefügt werden. Darüber hinaus stehen zahlreiche Optionen für die Untersuchung der ARIMA-Residuen zur Verfügung, einschließlich einer großen Auswahl an Grafiken. Die Implementation von ARIMA im Modul Zeitreihen erlaubt dem Benutzer die Behandlung von Zeitreihen mit Strukturbruch (Interventionsanalyse). Verschiedene gleichzeitig auftretende Interventionen können modelliert werden, die entweder einparametrische abrupt-permanente Interventionen, zweiparametrische graduelle oder temporäre Interventionen darstellen können. Für die Betrachtung der verschiedenen Wirkungsmuster können Grafiken herangezogen werden. Prognosen können für alle Interventionsmodelle berechnet werden, die anschließend sowohl grafisch dargestellt als auch an die Datendatei angefügt werden können.
Exponentielles Glätten mit und ohne Saisonkomponente. Das Modul Zeitreihen enthält eine vollständige Implementation aller zwölf gebräuchlichen Modelle zur exponentiellen Glättung. Für die Modelle kann eine additive oder multiplikative Saison-Komponente und/oder ein linearer, exponentieller oder gedämpfter Trend spezifiziert werden; folglich sind auch die häufig verwendeten Holt-Winter-Modelle mit linearem Trend enthalten. Der Benutzer kann den Startwert für die geglättete Reihe, den Startwert für den Trend und ggf. Startwerte für die Saison-Faktoren spezifizieren. Außerdem kann der Benutzer eine Gittersuche im Parameterraum veranlassen, um die optimalen Glättungsparameter zu bestimmen. Die Tabellen mit den Ergebnissen der Suche enthalten den mittleren Fehler, den mittleren absoluten Fehler, die Summen der Quadrate für den Fehler, den mittleren quadratischen Fehler, den mittleren prozentualen Fehler und den mittleren absoluten prozentualen Fehler für alle Kombinationen der Parameterwerte. Der kleinste Werte dieser Indizes wird in der Ergebnistabelle markiert. Darüber hinaus kann der Benutzer eine automatische Suche nach den besten Parametern in Bezug auf den mittleren quadratischen Fehler, den mittleren absoluten Fehler oder den mittleren absoluten prozentualen Fehler anfordern. Für diese Minimumsuche steht ein allgemeines Optimierungsverfahren zur Verfügung. Die Ergebnisse des jeweiligen exponentiellen Glättens, die Residuen und die geforderte Anzahl an Prognosen, stehen für weitere Analysen und Plots bereit. Ein zusammenfassender Plot dient der Bewertung der Adäquatheit des jeweiligen Modells der exponentiellen Glättung; dieser Plot zeigt die Originalreihe gemeinsam mit den geglätteten Werten und Prognosen, während die Residuen separat gegen die rechte Y-Achse geplottet werden.
Klassische Saisonbereinigung (Census I-Methode). Der Benutzer kann die Länge der Saison-Periode spezifizieren und zwischen dem additiven oder multiplikativen Saison-Modell wählen. Die Software berechnet gleitende Mittelwerte, Quotienten oder Differenzen, Saison-Faktoren, die saisonbereinigte Reihe, den geglätteten Trend-Zyklus und die irreguläre Komponente. Diese Komponenten stehen für weitere Analysen zur Verfügung; so können z.B. Histogramme, Normalverteilungsplots für ausgewählte oder alle Komponenten erstellt werden, um die Adäquatheit des Modells zu überprüfen.
X11-Verfahren zur Saisonbereinigung für Monate und Quartale (Census II-Methode). Das Modul Zeitreihen enthält die vollständige Implementation einer X11-Variante des US Bureau of the Census der Census II-Methode zur Saisonbereinigung. Obwohl der ursprüngliche X-11-Algorithmus nicht Jahr-2000-kompatibel war (nur Daten bis vor Januar 2000 konnten analysiert werden), kann die STATISTICA-Implementierung von X11 sowohl Daten vor als auch nach dem 1. Januar 2000 behandeln. Die Anordnung der Dialoge und Optionen ist an die Definitionen und Konventionen angelehnt, die in der Dokumentation des Bureau of the Census beschrieben sind. Es können additive und multiplikative Saison-Modelle spezifiziert werden. Der Benutzer kann außerdem Faktoren für Arbeitstage und die Saisonbereinigung spezifizieren. Die Variabilität aufgrund der Arbeitstage kann mittels Regression geschätzt und zur Bereinigung der Reihe eingesetzt werden. Für die Bewertung extremer Beobachtungen, für die Berechnung der Saison-Faktoren und der Trend-Zyklus-Komponente stehen die Standard-Optionen zur Verfügung. Der Benutzer kann dabei aus verschiedenen Typen gleitender Mittel auswählen; wobei die optimale Länge und der Typ des gleitenden Mittels vom Programm auch automatisch gewählt werden kann. Die Komponenten der Bereinigung (Saison, Trend-Zyklus, irregulär) und die saisonbereinigte Reihe stehen für weitere Analysen und Plots zur Verfügung. Diese Komponenten können für weitere Analysen in anderen Programmen gespeichert werden. Die Software erstellt Plots der verschiedenen Komponenten, einschließlich Plots in Kategorien für Monate oder Quartale.
Polynomial-Distributed-Lags-Analyse. Die Implementation der Distributed-Lags-Verfahren im Modul Zeitreihen schätzt sowohl Modelle mit unrestringierten Lags (zeitverschobenen Werten) als auch Modelle für (restringierte) Distributed Lags nach Almon. Für die Untersuchung der Verteilungen der Variablen des Modells steht eine Auswahl von Grafiken zur Verfügung.
Spektralanalyse (Fourier-Analyse) und Kreuzspektralanalyse. Das Modul Zeitreihen enthält eine vollständige Implementation von Verfahren der Spektralanalyse (Fourier-Zerlegung) und Kreuzspektralanalyse. Die Software ist speziell für die Analyse auch ungewöhnlich langer Zeitreihen mit z.B. über 250 000 Beobachtungen ausgelegt. Es werden keinerlei Bedingungen an die Länge der Reihe gestellt; die Länge der Reihe muss beispielsweise keine Potenz von 2 sein. Der Benutzer kann sich jedoch auch für Padding (Anfügen von Nullen am Ende) oder Abschneiden der Reihe entscheiden. Die vor der Analyse durchführbaren Standard-Transformationen beinhalten Tapering, Subtraktion des Mittelwertes und Trendbereinigung. Bei einfacher Spektralanalyse beinhalten die Ergebnisse Frequenzen, Perioden, Sinus- und Kosinus-Koeffizienten, Werte des Periodogramms und Spektraldichteschätzungen. Die Dichteschätzungen können anhand von vordefinierten Datenfenstern (Daniell, Hamming, Bartlett, Tukey, Parzen) oder benutzerdefinierten Datenfenstern gewonnen werden. Für besonders lange Reihen steht eine nützliche Option zur Verfügung. Diese Option veranlasst, dass nur eine benutzerdefinierte Anzahl der größten Periodogramm- oder Dichtewerte in absteigender Reihenfolge angezeigt wird. So können die größten Peaks in Periodogramm oder Spektraldichte bei langen Zeitreihen leichter identifiziert werden. Der Benutzer kann den Kolmogorov-Test für die Werte des Periodogramms anfordern, um zu testen, ob diese Werte exponentialverteilt sind, d.h. ob die Originalreihe ein weißes Rauschen darstellt. Zahlreiche Plots stehen zur Visualisierung der Ergebnisse zur Verfügung; es können die Sinus- und Kosinus-Koeffizienten, die Werte von Periodogramm, Log-Periodogramm, Spektraldichte und Log-Dichte gegen die Frequenzen, Perioden oder Log-Perioden geplottet werden. Für lange Zeitreihen kann der Benutzer das Segment (die Periode) auswählen, für das Periodogramm oder Spektraldichte darzustellen sind, wodurch die "Auflösung" des jeweiligen Plots erhöht wird. Bei der Kreuzspektralanalyse werden zu den Ergebnissen der einfachen Spektralanalyse für jede einzelne Reihe Kreuz-Periodogramm (Real- und Imaginärteil), Kospektraldichte, Quadraturspektrum, Kreuz-Amplitude, Kohärenzwerte, Gainwerte und das Phasenspektrum ausgegeben. Alle diese Statistiken können gegen die Frequenz, Periode oder Log-Periode geplottet werden; entweder für alle Perioden (Frequenzen) oder nur für einen benutzerdefinierten Ausschnitt. Eine benutzerdefinierte Anzahl der größten Werte des Kreuz-Periodogramms (real oder imaginär) kann in einer Ergebnistabelle in absteigender Ordnung dargestellt werden, um die größten Peaks bei der Auswertung langer Zeitreihen leichter identifizieren zu können. Wie bei allen Prozeduren des Moduls Zeitreihen auch können die resultierenden Zeitreihen dem aktiven Arbeitsbereich hinzugefügt werden, wodurch sie für weitere Analysen mit anderen Verfahren der Zeitreihenanalyse oder anderen Modulen von STATISTICA verfügbar sind.
Verfahren zur Prognose auf Regressionsbasis. Schließlich bietet STATISTICA Verfahren der Zeitreihenanalyse, die auf Verfahren der Regressionsanalyse basieren (einschließlich Regression durch den Ursprung, nichtlinearer Regression und interaktiver Was-wäre-wenn-Prognose).
Modellierung von
Strukturgleichungen und Pfadanalyse (SEPATH)
STATISTICA enthält eine umfassende
Implementation von Verfahren zur Modellierung von Strukturgleichungen, die von
einer flexiblen Funktionalität zur Durchführung von Monte
Carlo-Studien ergänzt wird (SEPATH). Das Modul SEPATH
ist ein "State-of-the-Art"-Programm mit einer intelligenten
Benutzeroberfläche. Es bietet eine umfassende Auswahl von
Modellierungsverfahren, wobei die Spezifikation selbst komplexer Modelle ohne
Verwendung einer Befehlssyntax möglich ist. Mit Hilfe der Assistenten
und des Pfadedítors können Sie die Analyse in einfacher
Weise unter Verwendung von Menüs und Dialogen spezifizieren; die
Beherrschung einer "Sprache" ist, anders als bei anderen Programmen zur
Modellierung von Strukturgleichungen, nicht erforderlich. SEPATH stellt
eine vollständige Implementation dar, die zahlreiche fortgeschrittene
Verfahren enthält. Die Software kann Matrizen von Korrelationen,
Kovarianzen und Momenten (strukturelle Mittelwerte, Modelle mit Konstanten)
analysieren. Alle Modelle können mit Hilfe des Pfad-Assistenten,
des Faktorenanalyse-Assistenten und des Pfadeditors spezifiziert
werden; diese Funktionalitäten arbeiten sehr effektiv und ermöglichen
es dem Benutzer, selbst komplexe Modelle in wenigen Minuten zu spezifizieren,
indem in den jeweiligen Dialogen eine Auswahl getroffen wird. Das Modul
SEPATH berechnet, unter Verwendung von Verfahren zur Optimierung unter
Nebenbedingungen, die jeweiligen Standardfehler für standardisierte
Modelle und für Modelle, die an Korrelationsmatrizen angepasst wurden. Die
Ergebnisse beinhalten sowohl einen umfangreichen Satz von
Diagnose-Kenngrößen, einschließlich der Standardindizes
für die Güte der Anpassung als auch Nichtzentralitäts-Indizes,
die auf jüngste Untersuchungen auf dem Gebiet der Modellierung von
Strukturgleichungen zurückgehen. Der Benutzer kann Modelle an mehrere
Stichproben (Gruppen) anpassen, wobei für jede Gruppe feste, freie oder
restringierte (identisch über die Gruppen) Parameter spezifiziert werden
können. Die Analyse von Moment-Matrizen ermöglicht Ihnen die Software
das Testen komplexer Hypothesen über strukturelle Mittelwerte in
verschiedenen Gruppen. Die Dokumentation des Moduls SEPATH enthält
zahlreiche detaillierte Beschreibungen von Beispielen aus der Literatur zur
Konfirmatorischen Faktorenanalyse, zur Pfadanalyse, zu Modellen zur Testtheorie
für Sets von Congeneric Tests, zu einem Multi-Trait Multi-Method Modell,
zur longitudinalen Faktorenanalyse, zu Tests auf verbundene Symmetrie,
strukturellen Mittelwerten und zu weiteren Themen.
SEPATH Monte Carlo-Studien. Das Modul Modellierung von Strukturgleichungen (SEPATH) enthält leistungsstarke Optionen zur Durchführung von Monte Carlo-Experimenten: Der Benutzer kann Datensätze für vordefinierte Modelle generieren und speichern, die auf normalen oder schiefen Verteilungen basieren. Es können sowohl Bootstrap-Schätzungen berechnet als auch Verteilungen für verschiedene Diagnose-Kenngrößen, Parameterschätzungen usw. anhand von Monte Carlo-Experimenten bestimmt werden. Darüber hinaus stehen zahlreiche Grafikoptionen zur Visualisierung der Ergebnisse zur Verfügung.
Allgemeine Lineare Modelle (ALM)
Das Modul Allgemeine Lineare Modelle (ALM) analysiert Wirkungen von kategorialen oder
stetigen unabhängigen Variables auf eine oder mehrere stetige
abhängige Variablen. ALM ist nicht nur das hochentwickeltste der
gegenwärtig auf dem Markt verfügbaren ALM-Werkzeuge, sondern auch das
umfassenste mit breiten Anwendungsmöglichkeiten. Es enthält ein
große Auswahl von Optionen, Grafiken, begleitet von Statistiken und
ausgedehnten Diagnosewerkzeugen. ALM bietet ein breites Spektrum von
Optionen zur Handhabung von sogenannten "kontroversen Problemen", für die
es keine übereinstimmende Lösung gibt. ALM berechnet alle
Standardergebnisse, einschließlich ANOVA-Tabellen mit univariaten und
multivariaten Tests, deskriptiven Statistiken, usw. ALM bietet viele
Optionen für Ergebnisse und Grafiken, die in anderen Programmen zumeist
nicht verfügbar sind. Darüber hinaus bietet ALM einfache Wege
zum Test von Linearkombinationen von Parameterschätzwerten,
Spezifikationen von benutzerdefinierten Fehlertermen und Effekten, umfassende
Verfahren von Post-Hoc-Vergleichen für Zwischengruppeneffekte und
Messwiederholungseffekte sowie deren Interaktionen.
Weitere
Informationen über ALM
Allgemeine Regressionsmodelle (ARM).
STATISTICA
Allgemeine Regressionsmodelle (ARM) bietet dem Anwender eine hochflexible
Implementierung der Optionen für Standardergebnisse und spezielle
Ergebnisse im allgemeinen linearen Modell, ebenso wie einen umfassenden Satz
von Verfahren der schrittweisen Regression und des besten Subsets zur
Modellentwicklung für Effekte von stetigen und kategorialen
Prädiktorvariablen. Das "Allgemein" in Allgemeine
Regressionsmodelle bezieht sich also sowohl auf den Einsatz des allgemeinen
linearen Modells, als auch auf die Aufhebung der Beschränkung auf Analysen
von Designs mit stetigen Prädiktorvariablen, welcher die meisten anderen
Programme zur schrittweisen Regression unterliegen. Außerdem enthält
ARM spezielle Ergebnisoptionen für Regressionsanalysen wie
Paretodiagramme von Parameterschätzwerten, Gesamtmodelltests mit diversen
Verfahren zur Bestimmung von Modellen ohne Achsenabschnitt, partielle und
semi-partielle Korrelation, usw.
Weitere
Informationen über ARM
Verallgemeinerte Lineare/Nichtlineare Modelle (VLM).
Die Verallgemeinerten Linearen/Nichtlinearen Modelle (VLM)
dienen zum Aufspüren von linearen und nichtlinearen Beziehungen zwischen
einer Wirkungsvariablen und kategorialen oder stetigen Prädiktorvariablen.
Zu den spezielle Anwendungen der verallgemeinerten linearen Modelle zählen
die binomiale und multinomiale Logit-Regression und die Probit-Regression oder
Signalerfassungsmodelle. Das Modul VLM wird Statistiken für alle
Standardergebnisse berechnen, einschließlich Likelihood-Ratio-Tests,
sowie Wald- und Score-Tests für signifikante Effekte,
Parameterschätzwerte samt ihren Standardfehlern und Konfidenzintervallen,
usw. Die Benutzeroberflächen und Verfahren zur Designspezifikation
entsprechen denen in ALM, ARM und PKQ. Der Benutzer kann auf
einfache Weise beispielsweise ANOVA- oder ANCOVA-ähnliche Designs,
Wirkungsflächendesigns, Simplexdesigns für Mischungen spezifizieren.
Somit dürften auch Neueinsteiger keine Schwierigkeiten in der Anwendung
von verallgemeinerten linearen Modelle bei der Analyse ihrer Daten haben.
Außerdem enthält VLM eine breite Auswahl von Werkzeugen zur
Modellprüfung wie Tabellen und Grafiken für diverse
Residualstatistiken und zur Diagnose von Ausreißern, einschließlich
roher Residuen, Pearson-Residuen, Deviance-Residuen, studentisierter
Pearson-Residuen, studentisierter Deviance-Residuen, Likelihood-Residuen,
differenzieller Chi-Quadrat-Statistiken, differentieller Deviance und
generalisierter Cook-Distanzen, usw.
Weitere
Informationen über VLM
Modelle Partieller Kleinster Quadrate (PKQ).
Modelle Partieller Kleinster Quadrate (PKQ) enthält eine umfassende
Auswahl von Algorithmen für univariate und multivariate Probleme der
partiellen kleinsten Quadrate. PKQ berechnet alle Standardresultate für
Analysen mit partiellen kleinsten Quadraten. Außerdem bietet es viele
Ergebnisoptionen und insbesondere Grafikoptionen, die in anderen
Implementierungen zumeist nicht enthalten sind. Beispielsweise Grafiken von
Parameterwerten als Funktion der Komponentenanzahl, zweidimensionale Plots
für alle Ausgabestatistiken (Parameter, Faktorladungen, usw.),
zweidimensionale Plots für alle Residualstatistiken, usw. Weil PKQ
eine den ALM, ARM und VLM entsprechende flexible
Benutzeroberfläche bietet, können auf einfache Weise in einem Modul
bestimmte Modelle entwickelt und danach in PLS ausgewertet werden. Diese
einzigartige Flexibilität ermöglicht auch Neueinsteigern den Einsatz
dieser mächtigen Verfahren bei der Analyse ihrer Daten. Die Methode
partieller kleinster Quadrate ist auch ein mächtiges Verfahren für
Data-Mining, insbesondere bei der Bestimmung einer kleinen Anzahl von
Dimensionen für eine große Anzahl von Prädiktoren und
Response-Variablen. Diese Methode zur Analyse von linearen Systemen ist in den
letzten Jahren sehr populär geworden, so dass viele der Algorithmen und
Statistiken sich noch in der Entwicklung befinden.
Weitere
Informationen über PKQ
Modulgruppe Explorative Verfahren
Explorative Verfahren bietet eine breite Auswahl explorativer Verfahren, von der Clusteranalyse bis zu höheren Methoden wie den Klassifikationsbäumen. Die Verfahren enthalten viele Werkzeuge der interaktiven Visualisierung zur Exploration von Beziehungen und Mustern in Daten sowie ein integriertes Visual Basic-Skripting. Explorative Verfahren umfasst folgende Module:
- Clusteranalyse
- Faktorenanalyse
- Hauptkomponenten- und Klassifikationsanalyse
- Kanonische Analyse
- Reliabilitäts- und Itemanalyse
- Klassifikations- und Regressionsbäume
- Korrespondenzanalyse
- Multidimensionale Skalierung
- Diskriminanzanalyse
- Allgemeine Diskriminanzanalytische Modelle (ADM)
Clusteranalyse
Dieses Modul enthält eine
umfassende Implementation von Methoden zur Clusterung (k-Means,
hierarchisch, 2-fach agglomerativ). Die Software kann sowohl Einzeldaten als
auch Distanzmatrizen wie z.B. Korrelationsmatrizen verarbeiten. Der Benutzer
kann Fälle, Variablen oder beides basierend auf einer Vielzahl von
Distanzmaßen [Euklidisch, quadriert Euklidisch, City-block (Manhattan),
Chebychev, Power-Distanzen, Prozent Nichtübereinstimmung und 1-Pearsons
r] clustern. Als Fusionregeln stehen Single Linkage, Complete Linkage,
Weighted und Unweighted Group Average oder Centroid, Ward-Methode und weitere
Verfahren zur Verfügung. Die Distanzmatrizen können für weitere
Analysen gespeichert werden. Beim k-Means-Verfahren hat der Benutzer die
vollständige Kontrolle über die anfänglichen Cluster-Zentren.
Dabei können Designs von extremer Größe verarbeitet werden: Die
hierarchischen Verfahren können Matrizen von 1000 Variablen oder einer
Million Distanzen behandeln. Zusätzlich zu den üblichen Ergebnissen
einer Clusteranalyse ist ein breiter Satz deskriptiver Statistiken und
Diagnose-Kenngrößen verfügbar. So wird z.B. das
vollständige Fusionsprotokoll bei hierarchischen Verfahren oder die
ANOVA-Tabelle bei k-Means ausgegeben. Die Information über die
Clusterzugehörigkeit kann der Datendatei zur weiteren Bearbeitung
angefügt werden. Die Grafikoptionen des Moduls beinhalten Baumdiagramme,
diskrete Matrixplots, grafische Darstellungen des Fusionsprotokolls, Plots der
Mittelwerte bei k-Means-Verfahren und viele weitere.
Faktorenanalyse
Das Modul Faktorenanalyse
stellt eine umfassende Implementation von Verfahren der Faktorenanalyse bereit,
die durch zahlreiche Diagnose-Kenngrößen und eine breite Auswahl
analytischer und explorativer Grafiken ergänzt wird. Die Software
führt Hauptkomponentenanalysen, gewöhnliche und hierarchische
(schiefwinklige) Faktorenanalyse mit bis zu 300 Variablen durch. Umfangreichere
Modelle können mit (SEPATH) Structural Equation Modeling and Path Analysis durchgeführt werden, welches in der Modulgruppe Höhere Modelle
enthalten ist.
Hauptkomponenten- und Klassifikationsanalyse
STATISTICA enthält auch ein spezielles Programm zur
Hauptkomponenten- und Klassifikationsanalyse. Die Ausgaben umfassen die
Eigenwerte (gewöhnliche, kumulierte, relative), Faktorladungen,
Faktorwerte, die der Eingabedatendatei angefügt werden können
(grafisch als Symbole gekennzeichnet und interaktiv rekodiert) sowie eine
Anzahl eher technischer Statistiken und Kenngrößen. An
Rotationsverfahren stehen Varimax, Equimax, Quartimax, Biquartimax (einfach
oder standardisiert) und schiefwinklige Rotationen zur Verfügung. Der
Faktorenraum kann geplottet und anhand von 2D- oder 3D-Scatterplots mit
gelabelten Variablenpunkten projiziert dargestellt werden. Weitere integrierte
Grafiken beinhalten Scree-Plots, verschiedene Scatterplots, Balken- und
Linienplots. Nachdem eine Faktorenlösung gefunden wurde, kann der Benutzer
die Korrelationsmatrix aus der entsprechenden Anzahl an Faktoren neu berechnen,
um die Güte der Anpassung des Faktorenmodells bewerten zu können.
Sowohl Einzeldaten als auch Korrelationsmatrizen können als Eingabe
für das Verfahren dienen. Konfirmatorische Faktorenanalyse und andere
verwandte Analysen können mit Hilfe von (SEPATH) Structural Equation Modeling and Path
Analysis der Modulgruppe Höhere Modelle aufgerufen werden, in dem ein spezieller Assistent
für die Konfirmatorische Faktorenanalyse Sie Schritt für
Schritt durch den Prozess der Spezifikation des Modells führt.
Kanonische Analyse
Dieses Modul bietet eine
umfassende Implementation von Verfahren der kanonischen Analyse und bildet
damit eine sinnvolle Ergänzung der in andere Module (ANCOVA / MANCOVA oder Diskriminanzanalyse) integrierten Verfahren. Es
können sowohl Einzeldaten als auch Korrelationsmatrizen verarbeitet
werden. Im Ergebnis der Analyse werden alle Statistiken der kanonischen
Korrelationsanalyse berechnet, wie Eigenwerte, Eigenvektoren,
Redundanzkoeffizienten, kanonische Gewichte, Ladungen, extrahierte Varianzen,
Signifikanztests für jede Root usw. Dazu wird eine umfangreiche Anzahl von
Diagnose-Kenngrößen ausgegeben. Die Scores der kanonischen Variablen
können für jeden Fall berechnet, ggf. an die Datendatei angefügt
und über integrierte Iconplots veranschaulicht werden. Das Modul
beinhaltet außerdem eine Vielzahl integrierter Grafiken (Plots der
Eigenwerte, der kanonischen Korrelationen, Scatterplots der kanonischen
Variablen und viele weitere). Konfirmatorische Analysen struktureller
Beziehungen zwischen latenten Variablen können mit SEPATH (Structural Equation Modeling
and Path Analysis) der Modulgruppe Höhere Modelle durchgeführt werden. Fortgeschrittene
Verfahren zur schrittweisen und Beste-Subset-Auswahl von
Prädiktorvariablen für MANOVA/MANCOVA-Designs (mit mehreren
abhängigen Variablen) sind im Modul Allgemeine Regressionsmodelle
(ARM) im Teilmodul Höhere
Modelle verfügbar.
Reliabilitäts- und Item-Analyse
Dieses Modul
beinhaltet eine umfassende Auswahl von Verfahren für die Entwicklung und
Bewertung von Umfragen und Fragebögen. Wie in allen anderen Modulen von
STATISTICA, können hier extrem große Designs analysiert
werden. Der Benutzer kann Statistiken der Reliabilität für alle Items
einer Skala berechnen, interaktiv Teilmengen auswählen oder Vergleiche
zwischen Teilmengen von Items anstellen, indem die Verfahren "Split-Half" oder
"Split-Part" eingesetzt werden. In einem einzigen Run kann der Benutzer sowohl
die Reliabilität einer Summenskala als auch die von Subskalen bewerten.
Werden Items interaktiv eliminiert, wird sofort die neue Reliabilität
berechnet, ohne dass die Datendatei nochmals verarbeitet werden muss. Die
Ausgabe beinhaltet Korrelationsmatrizen und deskriptive Statistiken für
die Items, Cronbachs Alpha, das standardisierte Alpha, die
mittlere Inter-Item-Korrelation, die vollständige ANOVA-Tabelle für
die Skala, den vollständigen Satz der Item-Gesamt-Statistik
(einschließlich multipler Item-Gesamt Rs), die
Split-Half-Reliabilität und die Korrelation zwischen den beiden Listen mit
Abschwächungskorrektur. Eine Reihe von Grafiken, einschließlich
verschiedener integrierter Scatterplots, Histogramme und Linienplots, sowie
eine Auswahl an interaktiven Was-wäre-wenn-Prozeduren
unterstützt die Entwicklung der Skalen. So kann der Benutzer
beispielsweise die erwartete Reliabilität berechnen, wenn eine bestimmte
Anzahl von Items der Skala hinzugefügt würde. Auf diese Weise kann
die Anzahl der für das Erreichen einer bestimmten Reliabilität der
Skala hinzuzufügenden Items geschätzt werden. Außerdem kann der
Benutzer die abschwächungskorrigierte Korrelation (aufgrund nicht
vollständiger Reliabilität der Messungen) zwischen der aktuellen
Skala (bei gegebener aktueller Reliabilität) mit einem externen Kriterium
(bei gegebener benutzerdefinierter Reliabilität) schätzen.
Klassifikations- und Regressionsbäume
Das
Modul Klassifikations- und Regressionsbäume bietet eine umfassende
Implementation der aktuellsten Algorithmen für die effektive Erstellung
und für das Testen der Robustheit von Klassifikationsbäumen. Ein
Klassifikationsbaum ist eine Regel für die Prognose der
Klassenzugehörigkeit eines Objektes aus den Werten seiner
Prädiktor-Variablen. (Höhere Methoden für
Klassifikationsbäume, einschließlich flexibler Optionen zur
Modellentwicklung und interaktive Werkzeuge zur Exploration von Bäumen
sind im STATISTICA Data Miner mit den General Classification and Regression Tree Models (GTrees)
Korrespondenzanalyse
Dieses Modul bietet eine
vollständige Implementation von Verfahren der einfachen und multiplen
Korrespondenzanalyse, wobei auch Tabellen extremer Größe analysiert
werden können. Die Software akzeptiert als Input für die Analyse
Datendateien mit Gruppierungs- (Code-)Variablen für die Berechnung von
Kontingenztabellen. Zulässig sind auch Datendateien mit Häufigkeiten
(bzw. anderen Korrespondenz-, Assoziations-, Ähnlichkeitsmaßen ) und
Kodierungsvariablen zur Kennzeichnung der Zellen in der Tabelle. Darüber
hinaus werden außerdem Datendateien akzeptiert, die nur Häufigkeiten
(oder andere Korrespondenzmaße) enthalten. Hierbei kann man direkt eine
Häufigkeitstabelle eingeben und analysieren lassen. Für die multiple
Korrespondenzanalyse kann auch direkt eine Burt-Tabelle für die
Eingabe spezifiziert werden. Die Software berechnet verschiedene Tabellen:
Zeilen-Prozente, Spalten-Prozente, Gesamt-Prozente, erwartete Werte,
beobachtete minus erwartete Werte, standardisierte Abweichungen und
Beiträge zum Chi-Quadrat-Wert. Diese Statistiken können in
3D-Histogrammen grafisch dargestellt und mit Hilfe der Funktion Schichtweise
Animation betrachtet werden. Das Modul Korrespondenzanalyse
berechnet die verallgemeinerten Eigenwerte und Eigenvektoren und liefert als
Ergebnisse außerdem alle üblichen Diagnose-Kenngrößen wie
Singulärwerte, Eigenwerte und prozentuale Anteile an der Trägheit
für jede Dimension. Sie können entweder manuell die Anzahl der
Dimensionen wählen oder einen "Cut-off-Wert" für den maximalen
kumulierten Prozentanteil der Trägheit festlegen. Die Software berechnet
die standardisierten Koordinatenwerte für alle Zeilen- und Spaltenpunkte.
Sie haben bei der Standardisierung die Wahl zwischen den Optionen
Zeilenprofile, Spaltenprofile, Zeilen- und Spaltenprofile und
Kanonisch. Für jede Dimension und jeden Zeilen- oder Spaltenpunkt
berechnet die Software Trägheit, Qualität und Kosinus²-Werte.
Außerdem können Sie sich in Ergebnistabellen die Matrizen der
verallgemeinerten Singulärvektoren anzeigen lassen. Wie bei allen anderen
Ergebnistabellen kann auf diese Werte mit Hilfe von STATISTICA Visual
Basic zugegriffen werden, um beispielsweise eine nicht übliche Methode
zur Berechnung der Koordinaten zu verwenden. Sie können Koordinatenwerte
und zugehörige Statistiken (Qualität und Kosinus²-Werte)
für ergänzende Punkte (Zeile oder Spalte) berechnen lassen und die
Ergebnisse mit den regulären Zeilen- und Spaltenpunkten vergleichen.
Ergänzende Punkte können auch für eine multiple
Korrespondenzanalyse spezifiziert werden. Neben den 3D-Histogrammen, die
für alle Tabellen berechnet werden können, ist auch die Erzeugung
eines Linienplots für die Eigenwerte und die Erzeugung von 1D-, 2D- und
3D-Plots für die Zeilen- oder Spaltenpunkte möglich. Zeilen- und
Spaltenpunkte können auch in einer gemeinsamen Grafik kombiniert werden -
zusammen mit möglichen ergänzenden Punkten. Jeder Punkttyp besitzt
eine andere Farbe und Markierung, so dass verschiedene Punkttypen in den Plots
leicht identifizierbar sind. Alle Punkte erhalten Labels. Hierzu ist eine
Option verfügbar, mit der die Namen für die Punkte auf eine
benutzerdefinierte Anzahl von Zeichen gestutzt werden können.
Multidimensionale Skalierung
Das Modul
Multidimensionale Skalierung beinhaltet eine vollständige
Implementation der nichtmetrischen Multidimensionalen Skalierung. Hier
können Matrizen mit Ähnlichkeiten, Unähnlichkeiten oder
Korrelationen analysiert werden, wobei bis zu neun Dimensionen spezifiziert
werden können. Die Start-Konfiguration kann entweder vom Programm
über eine Hauptkomponentenanalyse berechnet oder vom Benutzer spezifiziert
werden. Die Software verwendet ein iteratives Verfahren zur Minimierung des
Stress-Wertes und des Unschärfemaßes (coefficient of
alienation). Der Benutzer kann den Iterationsprozess überwachen und
die Veränderungen in diesen zu minimierenden Werten beobachten. Die
Endkonfigurationen können sowohl in Ergebnistabellen als mittels 2D- und
3D-Scatterplots des Raumes der Dimensionen mit durch Labels gekennzeichneten
Item-Punkten ausgewertet werden. Die Ausgabe beinhaltet darüber hinaus die
Werte für den Stress (raw F), Kruskals Stress-Koeffizient S
und das Unschärfemaß (coefficient of alienation). Die
Güte der Anpassung kann anhand von Shepard-Diagrammen (d-Dach und
d-Stern) bewertet werden. Wie in STATISTICA üblich kann die
Endkonfiguration in einer Datendatei gespeichert werden.
Diskriminanzanalyse
Das Modul
Diskriminanzanalyse enthält eine vollständige Implementation
der multiplen schrittweisen Analyse von Diskriminanzfunktionen.
STATISTICA enthält auch das Modul Allgemeine
Diskriminanzanalytische Modelle (ADM). (unten) zur Anpassung von
ANOVA/ANCOVA-ähnlichen Designs mit kategorialen abhängigen Variablen
und zur Durchführung vieler fortgeschrittener Analyseformen (z.B.
Beste-Subset-Auswahl von Prädikoren, Profilieren von posterioren
Wahrscheinlichkeiten). Die Software führt schrittweise Analysen
vorwärts/rückwärts oder für benutzerspezifizierte
Blöcke von Variablen durch. Zusätzlich zu den zahlreichen Grafiken
und Kenngrößen zur Beschreibung der Diskriminanzfunktionen stellt
das Programm eine breite Auswahl an Optionen für die Klassifikation
alter bzw. neuer Fälle für die Bewertung des Modells
bereit. Die Ausgabe umfasst Wilks Lambdas, partielle
Lambdas, F-für-Aufnahme (oder für Ausschluss), die
p-Niveaus, die Toleranzwerte und R-Quadrat. Das Programm
führt eine vollständige kanonische Analyse durch und gibt die
Eigenwerte, die kumulierten Eigenwerte für alle Roots und deren
p-Niveaus, die Koeffizienten der standardisierten und
nichtstandardisierten Diskriminanzfunktionen, die Matrix der
Strukturkoeffizienten (Faktorladungen), die Mittelwerte für die
Diskriminanzfunktionen und die Werte der Diskriminanzfunktionen (Scores)
für jeden Fall aus, die der Datendatei automatisch angefügt werden
können. Die integrierten Grafiken beinhalten Histogramme der Scores
innerhalb jeder Gruppe und für alle Gruppen gemeinsam, spezielle
Scatterplots für Paare kanonischer Variablen, in denen die
Gruppenzugehörigkeit der einzelnen Fälle sichtbar ist, eine
umfassende Auswahl von Grafiken in Kategorien, die es dem Benutzer
ermöglichen, die Verteilungen und die Beziehungen zwischen den
abhängigen Variablen über die Gruppen zu untersuchen. Dazu
zählen Box-Whisker-Plots, Histogramme, Scatterplots, Verteilungsplots und
viele weitere. Das Modul Diskriminanzanalyse berechnet außerdem
die Klassifikationsfunktionen für jede Gruppe. Die Klassifikation der
Fälle kann in Abhängigkeit von den Werten der Mahalanobis-Distanzen,
den Posteriori-Wahrscheinlichkeiten oder den tatsächlichen
Klassifikationen vorgenommen werden. Die Scores für die einzelnen
Fälle können anhand von Iconplots und weiteren "mehrdimensionalen"
Grafiken veranschaulicht werden, die direkt in die Tabelle der Ergebnisse
integriert sind. Alle diese Werte können der aktuellen Datendatei für
weitere Analysen automatisch angefügt werden. Auch die
Klassifikationsmatrix mit der jeweiligen Anzahl und dem prozentualen Anteil
korrekt klassifizierter Fälle kann angefordert werden. Der Benutzer
verfügt über verschiedene Optionen zur Spezifikation der
a-priori-Wahrscheinlichkeiten für die Gruppenzugehörigkeit. Er
kann weiter Auswahlbedingungen angeben, um ausgewählte Fälle von der
Klassifikation auszuschließen bzw. diese Fälle in die Klassifikation
aufzunehmen.
Allgemeine Diskriminanzanalytische Modelle (ADM)
Das
Modul STATISTICA Allgemeine Diskriminanzanalytische Modelle (ADM) ist
eine Anwendung und Erweiterung des allgemeinen linearen Modells auf
Klassifikationsprobleme. Ähnlich wie das Modul Diskriminanzanalyse,
dient ADM zur standardmäßigen und schrittweisen
Diskriminanzanalyse. ADM implementiert das diskriminanzanalytische
Problem als Spezialfall des allgemeinen linearen Modells und bietet darum
äußerst brauchbare Analyseverfahren, die innovativ, effizient und
sehr mächtig sind. Wie bei der traditionellen Diskriminanzanalyse, erlaubt
ADM die Spezifikation einer kategorialen abhängigen Variablen.
Für die Analyse wird die Gruppenzugehörigkeit (in Hinblick auf die
abhängige Variable) dann in Form von Indikatorvariablen kodiert, so dass
alle Verfahren der ARM anwendbar sind. In den Ergebnisdialogen von
ADM ist eine breite Auswahl von Residualstatistiken von ARM und
ALM ebenfalls verfügbar. ADM bietet mächtige und
effiziente Werkzeuge für Data-Mining und angewandte Forschungen an.
ADM berechnet alle Standardergebnisse für Diskriminanzanalysen,
einschließlich Koeffizienten der Diskriminanzfunktion, Resultaten der
kanonischen Analyse (standardisierte und rohe Koeffizienten, Step-Down-Tests
für kanonische Roots, usw.), Klassifikationsstatistiken
(einschließlich Mahalanobis-Distanzen, posteriorer Wahrscheinlichkeiten,
aktueller Klassifikation von Fällen in der Analyse- und
Validierungsstichprobe, Fehlklassifikationsmatrix, usw.).
Weitere Informationen zu ADM finden Sie hier
Modulgruppe Poweranalyse
StatSoft hat auf der Basis der Technologie seiner bewährten Statistiksysteme ein neues Werkzeug zur effizienten Planung und Analyse von Forschungsstudien entwickelt: Das Teimodul Poweranalyse ist ein umfassendes Softwaretool, das den Anwender bei der Planung von Stichprobengrößen für Forschungsvorhaben unterstützt. Es bietet darüber hinaus eine Vielzahl von Hilfsmitteln, um alle Aspekte der Macht (Power) von statistischen Testverfahren und der Berechnung von Stichprobengrößen abzudecken.Poweranalyse deckt folgende Fragestellungen ab:
Berechnung von Stichprobengrößen: Poweranalyse berechnet Stichprobengrößen als Funktion des sogenannten Fehlers erster Art und Effektstärken in einer Vielzahl statistischer Tests (z.B. Ein- und Zweistichproben-Tests, Kontraste, Varianzanalysen, Chi-Quadrat, F-Tests oder Rang-Tests).
Schätzung von Vertrauensintervallen: Neuerdings wird in der Statistik der Schätzung von Vertrauensbereichen starke Beachtung geschenkt, und zwar sowohl in der Planung als auch in der Auswertung von Ergebnissen. Die Software kann für viele wichtige statistische Größen (z.B. standardisierte Effektstärke in der Varianzanalyse, Korrelationskoeffizienten oder Unterschiede zwischen Stichprobenanteilen) solche Vertrauensbereiche berechnen. Diese geschätzten Werte können ihrerseits wieder für die Berechnung von Stichprobengrößen in Folgestudien benutzt werden.
Berechnung von StatistischenVerteilungen: Neben den bereits in STATISTICA verfügbaren Verteilungen bietet Poweranalyse spezielle Optionen für die Güte-Berechnungen (nicht-zentrales t, F und Chi-Quadrat, Binomial, exakte Verteilung von Korrelationskoeffizienten und mehr).
Durch den Einsatz von Poweranalyse kann man stets sicherstellen, daß die Resourcen durch den Einsatz optimaler Stichprobengrößen effizient genutzt werden. Man vermeidet, daß die Forschungsergebnisse aufgrund zu geringer Zahlen unpräzise werden, verschwendet auf der anderen Seite aber auch keine Mittel mit zu großen Untersuchungsgruppen. Die Berechnung von Güte- und Vertrauensbereichen stellt darüber hinaus eine weitere Bereicherung der Forschungsergebnisse dar.
Detaillierte Informationen zu der Modulgruppe Poweranalyse finden Sie hier
.
