Machine Learning in Statistica

Machi­ne Lear­ning bezeich­net eine Grup­pe von Algo­rith­men, die Zusam­men­hän­ge aus Daten ler­nen. Dies dient dazu, Erkennt­nis­se zu gewin­nen und um Pro­gno­sen zu erstel­len. Dabei sind die Ver­fah­ren in der Lage Zusam­men­hän­ge zu iden­ti­fi­zie­ren und abzu­bil­den, die bis­her unbe­kannt waren. Es gibt eine Viel­zahl von Ver­fah­ren in die­ser Grup­pe, jün­ge­re und älte­re Ver­fah­ren, ein­fa­che und kom­ple­xe­re. 

Frü­her sind vie­le die­ser Ver­fah­ren unter dem Begriff Data Mining gesam­melt wor­den. „Data Mining“ bezog sich dabei auf den Pro­zess, einen „Berg von Daten“ zu durch­wüh­len, wert­vol­le Erkennt­nis­se auf­zu­spü­ren und „ans Tages­licht zu brin­gen“. Heut­zu­ta­ge sind alle die­se Ver­fah­ren Teil des Data Science und kon­kre­ter in der Grup­pe Machi­ne Lear­ning (ML) ein­ge­ord­net. 
Sta­tis­ti­ca bie­tet eine gro­ße Aus­wahl von Machi­ne Lear­ning Ver­fah­ren, die­se sind ein­fach auf Daten anzu­wen­den, nach mini­ma­ler Kon­fi­gu­ra­ti­on start­be­reit und die erstell­ten Model­le schnell in der Pra­xis anwend­bar.  

Gro­ße Ver­fah­rens­aus­wahl 
Die Aus­wahl von Machi­ne Lear­ning Ver­fah­ren in Sta­tis­ti­ca eig­net sich für ver­schie­dens­te Anwen­dungs­fäl­le:  

  • Klas­si­sche und moder­ne Regres­si­ons­ver­fah­ren unter­schied­li­cher Kom­ple­xi­tät mit star­ken dia­gnos­ti­schen Funk­tio­nen. 
  • Ent­schei­dungs­baum­ba­sier­te Ver­fah­ren und Ensem­bles wie CART, CHAID, Ran­dom Forest und Boos­ting Trees mit hoher Pro­gno­se­gü­te, Robust­heit und guter Dar­stel­lung der Ergeb­nis­se. 
  • Künst­li­che Neu­ro­na­le Net­ze und Sup­port Vec­tor Machi­nes als Ver­fah­ren für die Lösung von Pro­ble­men mit der höchs­ten Kom­ple­xi­tät. 
  • Wei­te­re Ver­fah­ren wie MARSpli­nes, k-Nea­rest Neig­bours und Nai­ve Bayes und mehr. 
  • Fast alle Ver­fah­ren eig­nen sich für Klas­si­fi­ka­ti­ons- und Regres­si­ons­fra­ge­stel­lun­gen glei­cher­ma­ßen. Alle Ver­fah­ren kön­nen mit metri­schen und kate­go­riel­len Inputs direkt umge­hen. 
  • Es gibt Ver­fah­ren und Ver­fah­rens­va­ri­an­ten für Unsu­per­vi­sed Lear­ning (bei­spiels­wei­se Clus­ter­ana­ly­se und Asso­zia­ti­ons­re­geln). 

Ein­fa­che Anwen­dung und Kon­fi­gu­ra­ti­on 
Die Anwen­dung von Machi­ne Lear­ning Ver­fah­ren in Sta­tis­ti­ca ist denk­bar ein­fach: 

  • Die Ver­fah­ren las­sen sich mit den Daten ver­bin­den und über gra­fi­sche Dia­lo­ge kon­fi­gu­rie­ren. 
  • Die Stan­dard­ein­stel­lun­gen in den Dia­lo­gen sind sinn­vol­le Start­kon­fi­gu­ra­tio­nen mit denen unmit­tel­bar ers­te Ergeb­nis­se erzielt wer­den kön­nen. 
  • Sta­tis­ti­ca bie­tet eine umfas­sen­de Doku­men­ta­ti­on der ein­zel­nen Ein­stel­lun­gen und eine gute Aus­wahl der wich­tigs­ten Ver­fah­rens­pa­ra­me­ter. 
  • Der Ver­gleich von ver­schie­de­nen Modell­ty­pen und Kon­fi­gu­ra­tio­nen kann direkt in einem Workspace erfol­gen und macht die Iden­ti­fi­ka­ti­on des bes­ten Model­les sehr ein­fach.
  • Vor- und Nach­be­rei­tung der Daten und Ergeb­nis­se ist ein­fach auto­ma­ti­sier­bar. 

Schnel­le Inbe­trieb­nah­me 
Hat man einen Modell­typ und eine pas­sen­de Kon­fi­gu­ra­ti­on ermit­telt, so lässt sich das fer­tig geschätz­te Modell mit Sta­tis­ti­ca ein­fach in Pro­duk­ti­on neh­men: 

  • Die Rapid Deploy­ment Engi­ne kann Model­le direkt auf neue Daten anwen­den. 
  • Model­le kön­nen per Busi­ness Regel (Rules Engi­ne) im vom Unter­neh­men gewähl­ten Fall ange­wen­det wer­den. 
  • Die Pro­gno­sen kön­nen vom Sta­tis­ti­ca Ser­ver erstellt wer­den. 
  • Es ist mög­lich Model­le als Code in ver­schie­de­nen Pro­gram­mier­spra­chen (Java, C#, C++, etc.) zu expor­tie­ren, so dass sie in IoT Devices ein­ge­bet­tet wer­den kön­nen. 

Modell-Manage­ment 
Die Ver­wal­tung von Model­len kann ein­fach im Sta­tis­ti­ca Ser­ver erfol­gen. Die­ser ermög­licht es, das Modell Manage­ment zu auto­ma­ti­sie­ren und eine robus­te Betriebs­um­ge­bung zur Modell­aus­füh­rung bereit­zu­stel­len. 

  • Model­le haben Benut­zer­rech­te und dür­fen nur durch berech­tig­te User ver­än­dert und durch ande­re User nur ange­wen­det wer­den. 
  • Model­le kön­nen ver­sio­niert und durch Frei­ga­be­pro­zes­se abge­si­chert wer­den. 
  • Model­le kön­nen von Stage zu Stage (z.B. DTAP) ver­scho­ben wer­den. 
  • Model­le kön­nen auto­ma­tisch aktua­li­siert wer­den, wenn die Güte eines Chal­len­ger-Model­les höher ist. 
  • Model­le wer­den unab­hän­gig von ihrem Typ (Regres­si­on, Tree, etc.) ver­wal­tet und kön­nen frik­ti­ons­los durch Model­le eines ande­ren Typs ersetzt wer­den. 

Modell-Aus­füh­rung 
Die Modell­pro­gno­sen kön­nen auf viel­fäl­ti­ge Wei­se bereit­ge­stellt wer­den: 

  • für den Data Sci­en­tist in sei­ner Umge­bung, ent­we­der im Rah­men der Modell Erstel­lung oder durch Nut­zung des zen­tral ver­wal­te­ten Model­les. 
  • Durch Batch-ori­en­tier­ten Aus­füh­rung durch den Ser­ver. Die­ser könn­te z.B. regel­mä­ßig Pro­gno­sen in eine Daten­bank schrei­ben. 
  • Pro­gno­sen des Modells kön­nen per Web­Ser­vice (SOAP) zur Ver­fü­gung gestellt wer­den. So könn­te ein Dienst oder ein Gerät Daten zum Sta­tis­ti­ca Ser­ver sen­den, eine pro­gno­se­ba­sier­te Ant­wort erhal­ten und anschlie­ßend ent­spre­chend reagie­ren. 

Gemein­sam mit Stat­Soft 
Wir von Stat­Soft sind der ver­läss­li­che Part­ner Rund um Sta­tis­ti­ca für unse­re Kun­den. Wir hel­fen bei der Aus­wahl, Kon­fi­gu­ra­ti­on und Inbe­trieb­nah­me und ver­mit­teln das nöti­ge Soft­ware- und Metho­den-Know-How. Bei ana­ly­ti­schen Pro­jek­ten ste­hen wir bera­tend und durch­füh­rend zur Ver­fü­gung. Gemein­sam mit unse­ren Kun­den, gelingt es mehr aus Daten zu machen und einen dau­er­haf­ten Mehr­wert zu schaf­fen. 

Kategorien
Letzte News
Ihr Ansprechpartner

Wenn Sie Fra­gen zu unse­ren Pro­duk­ten haben oder Bera­tung benö­ti­gen, zögern Sie nicht, direkt Kon­takt zu uns auf­zu­neh­men.

Tel.: +49 40 22 85 900-0
E-Mail: info@statsoft.de

Sasha Shiran­gi (Head of Sales)