Dimensionsreduktion bezieht sich auf die Methodik und den Prozess in der Statistik und der maschinellen Datenverarbeitung, mit dem Ziel, die Anzahl der betrachteten Variablen in einem Datensatz zu verringern. Dieses Verfahren wird häufig in Bereichen wie Maschinellem Lernen, Mustererkennung, Bildverarbeitung und Signalverarbeitung angewendet, um die Komplexität von Modellen zu reduzieren, Berechnungen zu vereinfachen, Speicherplatz zu sparen und die Interpretierbarkeit zu verbessern, ohne dabei signifikant an relevanter Information zu verlieren.
Die Notwendigkeit der Dimensionsreduktion ergibt sich aus dem sogenannten „Fluch der Dimensionalität“ (engl. „curse of dimensionality“), der beschreibt, wie mit zunehmender Anzahl an Merkmalen (Dimensionen) die für verlässliche statistische oder maschinelle Lernanalysen erforderliche Datenmenge exponentiell wächst. Zudem können hochdimensionale Daten zu Überanpassung (Overfitting) führen und die Performanz von Algorithmen beeinträchtigen.
Es gibt verschiedene Techniken der Dimensionsreduktion, die in zwei Hauptkategorien eingeteilt werden können: lineare und nicht-lineare Methoden.
Lineare Methoden
- Hauptkomponentenanalyse (PCA): PCA ist eine der bekanntesten und am weitesten verbreiteten Techniken. Sie transformiert die ursprünglichen Daten in einen neuen Satz von unkorrelierten Variablen, den Hauptkomponenten, die in der Reihenfolge ihrer Varianz angeordnet sind. Die ersten Hauptkomponenten behalten den größten Teil der Varianz (Information) der Originaldaten bei.
- Lineare Diskriminanzanalyse (LDA): LDA ist eine Methode zur Dimensionsreduktion, die besonders nützlich ist für die Klassifizierungsaufgaben. Sie sucht nach den Achsen, die die Trennung zwischen mehreren Klassen maximieren.
Nicht-lineare Methoden
- t-Distributed Stochastic Neighbor Embedding (t-SNE): t-SNE ist eine Technik, die darauf abzielt, hochdimensionale Datenpunkte in einem niedrigdimensionalen Raum (typischerweise zwei oder drei Dimensionen) so darzustellen, dass ähnliche Objekte nah beieinander und unähnliche Objekte weit voneinander entfernt liegen.
- Uniform Manifold Approximation and Projection (UMAP): UMAP ist eine relativ neue Technik, die ähnlich wie t-SNE funktioniert, aber oft effizienter in Bezug auf die Berechnung und besser bei der Beibehaltung der globalen Datenstruktur ist.