Dimensionsreduktion

Dimensionsreduktion

Dimen­si­ons­re­duk­ti­on bezieht sich auf die Metho­dik und den Pro­zess in der Sta­tis­tik und der maschi­nel­len Daten­ver­ar­bei­tung, mit dem Ziel, die Anzahl der betrach­te­ten Varia­blen in einem Daten­satz zu ver­rin­gern. Die­ses Ver­fah­ren wird häu­fig in Berei­chen wie Maschi­nel­lem Ler­nen, Mus­ter­er­ken­nung, Bild­ver­ar­bei­tung und Signal­ver­ar­bei­tung ange­wen­det, um die Kom­ple­xi­tät von Model­len zu redu­zie­ren, Berech­nun­gen zu ver­ein­fa­chen, Spei­cher­platz zu spa­ren und die Inter­pre­tier­bar­keit zu ver­bes­sern, ohne dabei signi­fi­kant an rele­van­ter Infor­ma­ti­on zu ver­lie­ren.

Die Not­wen­dig­keit der Dimen­si­ons­re­duk­ti­on ergibt sich aus dem soge­nann­ten „Fluch der Dimen­sio­na­li­tät“ (engl. „cur­se of dimen­sio­na­li­ty“), der beschreibt, wie mit zuneh­men­der Anzahl an Merk­ma­len (Dimen­sio­nen) die für ver­läss­li­che sta­tis­ti­sche oder maschi­nel­le Lern­ana­ly­sen erfor­der­li­che Daten­men­ge expo­nen­ti­ell wächst. Zudem kön­nen hoch­di­men­sio­na­le Daten zu Über­an­pas­sung (Over­fit­ting) füh­ren und die Per­for­manz von Algo­rith­men beein­träch­ti­gen.

Es gibt ver­schie­de­ne Tech­ni­ken der Dimen­si­ons­re­duk­ti­on, die in zwei Haupt­ka­te­go­rien ein­ge­teilt wer­den kön­nen: linea­re und nicht-linea­re Metho­den.

Lineare Methoden

  • Haupt­kom­po­nen­ten­ana­ly­se (PCA): PCA ist eine der bekann­tes­ten und am wei­tes­ten ver­brei­te­ten Tech­ni­ken. Sie trans­for­miert die ursprüng­li­chen Daten in einen neu­en Satz von unkor­re­lier­ten Varia­blen, den Haupt­kom­po­nen­ten, die in der Rei­hen­fol­ge ihrer Vari­anz ange­ord­net sind. Die ers­ten Haupt­kom­po­nen­ten behal­ten den größ­ten Teil der Vari­anz (Infor­ma­ti­on) der Ori­gi­nal­da­ten bei.
  • Linea­re Dis­kri­mi­nanz­ana­ly­se (LDA): LDA ist eine Metho­de zur Dimen­si­ons­re­duk­ti­on, die beson­ders nütz­lich ist für die Klas­si­fi­zie­rungs­auf­ga­ben. Sie sucht nach den Ach­sen, die die Tren­nung zwi­schen meh­re­ren Klas­sen maxi­mie­ren.

Nicht-lineare Methoden

  • t-Dis­tri­bu­ted Sto­cha­stic Neigh­bor Embed­ding (t-SNE): t-SNE ist eine Tech­nik, die dar­auf abzielt, hoch­di­men­sio­na­le Daten­punk­te in einem nied­rig­di­men­sio­na­len Raum (typi­scher­wei­se zwei oder drei Dimen­sio­nen) so dar­zu­stel­len, dass ähn­li­che Objek­te nah bei­ein­an­der und unähn­li­che Objek­te weit von­ein­an­der ent­fernt lie­gen.
  • Uni­form Mani­fold Appro­xi­ma­ti­on and Pro­jec­tion (UMAP): UMAP ist eine rela­tiv neue Tech­nik, die ähn­lich wie t-SNE funk­tio­niert, aber oft effi­zi­en­ter in Bezug auf die Berech­nung und bes­ser bei der Bei­be­hal­tung der glo­ba­len Daten­struk­tur ist.
Ihr Ansprechpartner

Wenn Sie Fra­gen zu unse­ren Pro­duk­ten haben oder Bera­tung benö­ti­gen, zögern Sie nicht, direkt Kon­takt zu uns auf­zu­neh­men.

Tel.: +49 40 22 85 900-0
E-Mail: info@statsoft.de

Sasha Shiran­gi (Head of Sales)