Daten automatisiert aufbereiten: Was es beim Aufbau einer Daten-Pipeline zu beachten gibt

Einleitung zur Reihe

Die Fähig­keit, Erkennt­nis­se und Wert­schöp­fung aus Daten zu zie­hen, ist ein zen­tra­ler Fak­tor für die Zukunfts­fä­hig­keit von Unter­neh­men. In die­sem Zusam­men­hang spie­len die Daten-Stra­te­gie des Unter­neh­mens wie auch die tech­ni­schen und daten­ana­ly­ti­schen Fähig­kei­ten von Mitarbeiter*innen eine gro­ße Rol­le.

Vor­aus­set­zung für den Auf­bau ana­ly­ti­scher Lösun­gen von Model­len und Algo­rith­men ist, dass die Daten zum einen zuver­läs­sig und aus­ge­rich­tet auf ver­schie­de­ne Bedürf­nis­se von Stake­hol­dern im Unter­neh­men ver­füg­bar sind und zum ande­ren, dass sie in einer Form und Struk­tur vor­lie­gen, die eine Wei­ter­ver­ar­bei­tung ermög­li­chen.

Um die­sen Zustand her­zu­stel­len, ist der Auf­bau einer auto­ma­ti­sier­ten Daten-Pipe­line wich­tig. Die Pipe­line ist eine struk­tu­rier­te Abfol­ge von Pro­zes­sen, die ent­wi­ckelt wur­de, um Daten effi­zi­ent und zuver­läs­sig von der Erfas­sung über die Auf­be­rei­tung bis hin zur Aus­wer­tung zu lei­ten. Wenn man das tun möch­te, begeg­net man zahl­rei­chen Her­aus­for­de­run­gen.

In einer neu­en Serie wer­den wir uns die­sen Her­aus­for­de­run­gen wid­men und auf­zei­gen, wel­che Aspek­te rele­vant sind bzw. wie Lösun­gen auf­ge­baut wer­den kön­nen. Die­ser Blog­bei­trag gibt zunächst einen Über­blick zum The­ma, bevor wir in kom­men­den Bei­trä­gen ein­zel­ne Aspek­te ver­tie­fen wer­den.

 

// 1 Datenextraktion / Data Ingestion / Datenakquise

Ein ers­ter Schritt bei der Ent­wick­lung einer robus­ten und effi­zi­en­ten Daten-Pipe­line ist der Data Inges­ti­on Pro­zess. Die­ser Pro­zess umfasst das Sam­meln und Impor­tie­ren von Daten aus ver­schie­de­nen Quel­len. Wäh­rend die­ser Pha­se kön­nen Her­aus­for­de­run­gen auf­tre­ten, die den Auf­bau einer rei­bungs­lo­sen Daten-Pipe­line behin­dern kön­nen.

// Hete­ro­ge­ni­tät der Daten­quel­len und Daten­struk­tu­ren
Daten kön­nen aus unter­schied­li­chen Quel­len stam­men, dar­un­ter Daten­ban­ken, Datei­en, APIs und Strea­ming-Platt­for­men. Jede Quel­le kann ihr eige­nes Daten­for­mat, ihre eige­ne Struk­tur und ihren eige­nen Daten­fluss haben. Daher ist es wich­tig, Mecha­nis­men zu imple­men­tie­ren, um die­se Hete­ro­ge­ni­tät zu über­win­den, wie bei­spiels­wei­se die Trans­for­ma­ti­on der Daten in ein ein­heit­li­ches For­mat oder die Imple­men­tie­rung von Adap­tern für spe­zi­fi­sche Daten­quel­len.

// Daten­qua­li­tät und -inte­gri­tät sicher­stel­len 
Im Kon­text der Data Inges­ti­on besteht das Risi­ko, dass feh­ler­haf­te oder unvoll­stän­di­ge Daten in die Pipe­line gelan­gen. Es ist daher not­wen­dig, Mecha­nis­men zur Daten­va­li­die­rung und -berei­ni­gung zu imple­men­tie­ren, um sicher­zu­stel­len, dass nur qua­li­ta­tiv hoch­wer­ti­ge Daten in die Pipe­line gelan­gen. Dies kann durch die Ver­wen­dung von Daten­va­li­die­rungs­re­geln, das Über­prü­fen von Daten auf Kon­sis­tenz und das Imple­men­tie­ren von Feh­ler­be­hand­lungs­me­cha­nis­men erreicht wer­den.

// Poten­zi­el­le Anfor­de­run­gen mit­den­ken: Ska­lier­bar­keit
Bei gro­ßen Daten­men­gen kann die Ska­lier­bar­keit des Data Inges­ti­on Pro­zes­ses zu einer Her­aus­for­de­rung wer­den. Die effi­zi­en­te Ver­ar­bei­tung gro­ßer Daten­men­gen erfor­dert robus­te und leis­tungs­fä­hi­ge Sys­te­me. Eine Mög­lich­keit, die­ses Pro­blem anzu­ge­hen, besteht dar­in, ska­lier­ba­re Daten­ver­ar­bei­tungs­frame­works wie Apa­che Hadoop oder Apa­che Spark ein­zu­set­zen, um die Daten par­al­lel zu ver­ar­bei­ten und die Arbeits­last auf meh­re­re Kno­ten zu ver­tei­len. Eine beson­de­re Her­aus­for­de­rung in die­sem Zusam­men­hang ist die Inges­ti­on von Echt­zeit-Daten. Für Strea­ming ste­hen beson­de­re Frame­works wie Apa­che Kaf­ka zur Ver­fü­gung, die dabei hel­fen, Echt­zeit-Daten effi­zi­ent zu ver­ar­bei­ten und die Latenz­zeit zu mini­mie­ren.

// 2 Data Wrangling und Data Preparation

Data Wrang­ling bezieht sich auf den Pro­zess der Berei­ni­gung, Trans­for­ma­ti­on und Inte­gra­ti­on von rohen, unstruk­tu­rier­ten oder unfor­ma­tier­ten Daten, um sie für wei­te­re Ana­ly­sen oder den Ein­satz in einer Daten-Pipe­line vor­zu­be­rei­ten.

Es beinhal­tet die Auf­be­rei­tung der Daten, um sicher­zu­stel­len, dass sie eine ein­heit­li­che und kon­sis­ten­te Struk­tur haben, feh­len­de Wer­te behan­delt wer­den, Unge­nau­ig­kei­ten kor­ri­giert wer­den und mög­li­che Aus­rei­ßer iden­ti­fi­ziert und behan­delt wer­den. Der Schwer­punkt liegt auf der Daten­qua­li­tät und der Vor­be­rei­tung der Daten für wei­te­re Schrit­te wie Daten­ana­ly­se oder maschi­nel­les Ler­nen. Der Zweck der Data Pre­pa­ra­ti­on besteht dar­in, die Daten so vor­zu­be­rei­ten, dass sie für den spe­zi­fi­schen Anwen­dungs­fall oder die spe­zi­fi­sche Ana­ly­se opti­mal geeig­net sind.

// Daten­trans­for­ma­tio­nen- und for­ma­tie­run­gen
In die­sem Schritt wer­den die Daten in eine Form gebracht, die für die Ana­ly­se geeig­net ist. Dies kann die Umwand­lung von Daten in nume­ri­sche oder kate­go­ri­sche Wer­te, die Ska­lie­rung von Wer­ten oder die Erstel­lung von neu­en Merk­ma­len umfas­sen. Ziel ist es, die Daten für die gewünsch­ten Ana­ly­se­me­tho­den vor­zu­be­rei­ten. So akzep­tie­ren bestimm­te Algo­rith­men bei­spiels­wei­se kei­ne kate­go­ria­len Varia­blen. Manch­mal kann es zudem sinn­voll sein, Daten zu stan­dar­di­sie­ren oder nor­ma­li­sie­ren, um sie opti­mal für die Ana­ly­se vor­zu­be­rei­ten.

Außer­dem kann es not­wen­dig sein, Daten in ein bestimm­tes Datei­for­mat umzu­wan­deln oder Anpas­sun­gen der Spal­ten- oder Zei­len­struk­tur oder die Ände­rung der Daten­or­ga­ni­sa­ti­on vor­zu­neh­men.

// Daten­ag­gre­ga­tio­nen
Um eine höhe­re Ebe­ne der Ana­ly­se zu ermög­li­chen, wer­den Daten zusam­men­ge­fasst oder redu­ziert. Dies kann durch Grup­pie­ren von Daten nach bestimm­ten Merk­ma­len, Zusam­men­fas­sen von Daten in bestimm­ten Zeit­räu­men oder die Erstel­lung von Kenn­zah­len erfol­gen. Die Aggre­ga­ti­on erleich­tert die Ana­ly­se von gro­ßen Daten­men­gen und ermög­licht es, Mus­ter oder Trends auf einer höhe­ren Ebe­ne zu erken­nen.

// Daten­va­li­die­rung und Veri­fi­zie­rung
Die vor­be­rei­te­ten Daten müs­sen auf ihre Qua­li­tät, Kon­sis­tenz und Genau­ig­keit über­prüft wer­den, um sicher­zu­stel­len, dass sie den ana­ly­ti­schen Anfor­de­run­gen ent­spre­chen. Dies beinhal­tet das Durch­füh­ren von Tests, das Über­prü­fen von Daten­be­zie­hun­gen und das Ver­glei­chen der Ergeb­nis­se mit erwar­te­ten Ergeb­nis­sen.

 

// 3 Datenbereitstellung für Business-User

Jeder Stake­hol­der hat unter­schied­li­che Anfor­de­run­gen an die Daten. Es ist wich­tig, die Bedürf­nis­se und Erwar­tun­gen jedes Stake­hol­ders zu ver­ste­hen und sicher­zu­stel­len, dass die bereit­ge­stell­ten Daten für ihre spe­zi­fi­schen Auf­ga­ben und Ana­ly­sen rele­vant sind.

// Daten­zu­griff und Sicher­heit
Unter­schied­li­che Stake­hol­der haben unter­schied­li­che Anfor­de­run­gen an den Zugriff auf die Daten. Es ist wich­tig, sicher­zu­stel­len, dass der Daten­zu­griff ent­spre­chend den Richt­li­ni­en und Berech­ti­gun­gen gere­gelt ist, um die Ver­trau­lich­keit und Sicher­heit der Daten zu gewähr­leis­ten. Je nach Sen­si­bi­li­tät der Daten kön­nen ver­schie­de­ne Sicher­heits­maß­nah­men wie Zugriffs­kon­trol­len, Ver­schlüs­se­lung oder Anony­mi­sie­rung erfor­der­lich sein.

// Daten­ver­ständ­nis und Doku­men­ta­ti­on
Damit die Stake­hol­der die bereit­ge­stell­ten Daten effek­tiv nut­zen kön­nen, ist es wich­tig, ihnen eine kla­re Doku­men­ta­ti­on und Meta­da­ten über die Daten­struk­tur, die Bedeu­tung der Fel­der und etwa­ige Trans­for­ma­tio­nen zur Ver­fü­gung zu stel­len.

// 4 No-Code / Low-Code Plattformen als Mittel der Wahl

Tools von Alte­ryx kön­nen wesent­lich dazu bei­tra­gen, Daten-Pipe­lines effi­zi­ent auf­zu­bau­en und die Abhän­gig­keit von spe­zia­li­sier­ten tech­ni­schen Res­sour­cen zu redu­zie­ren.

Alte­ryx Desi­gner und Desi­gner Cloud bie­ten eine benut­zer­freund­li­che, gra­fi­sche Ober­flä­che, über die Daten­ver­ar­bei­tungs-Work­flows durch ein­fa­ches Zie­hen und Able­gen von Bau­stei­nen erstellt wer­den kön­nen. Dies ermög­licht es Mit­ar­bei­ten­den ohne umfas­sen­de tech­ni­sche Fähig­kei­ten, Data-Pre­pa­ra­ti­on-Auf­ga­ben durch­zu­füh­ren.

Dabei kann auf spe­zi­fi­sche Fea­tures und Funk­tio­na­li­tä­ten zurück­ge­grif­fen wer­den:

Auto­ma­ti­sie­rung von Work­flows: Ein­mal erstell­te Work­flows kön­nen wie­der­holt aus­ge­führt wer­den, sobald neue Daten ver­füg­bar sind, oder sie kön­nen zeit­ge­steu­ert wer­den, um Daten­ak­tua­li­sie­run­gen auto­ma­tisch zu ver­ar­bei­ten.

Zahl­rei­che inte­grier­te Ver­bin­dun­gen zu ver­schie­de­nen Daten­quel­len, ein­schließ­lich Daten­ban­ken, Cloud-Spei­cher, APIs und mehr. Dies erleich­tert den Zugriff auf ver­schie­de­ne Daten­quel­len und ver­kürzt die Zeit, die nor­ma­ler­wei­se für die Ver­bin­dungs­her­stel­lung und den Daten­auf­be­rei­tungs­pro­zess benö­tigt wird.

Vor­de­fi­nier­te Daten-Trans­for­ma­tio­nen und -Ope­ra­tio­nen, wie zum Bei­spiel Fil­tern, Zusam­men­füh­ren, Agg­re­gie­ren, Berei­ni­gen, Umwan­deln von Daten­ty­pen usw. Die­se vor­de­fi­nier­ten Funk­tio­nen erleich­tern die Daten­ma­ni­pu­la­ti­on erheb­lich und ver­kür­zen die Ent­wick­lungs­zeit.

Ska­lier­bar­keit: Alte­ryx Desi­gner und Desi­gner Cloud sind in der Lage, gro­ße Daten­men­gen zu ver­ar­bei­ten und mit umfang­rei­chen Daten­ver­ar­bei­tungs-Work­flows umzu­ge­hen. Dies ermög­licht es Unter­neh­men, kom­ple­xe Data-Pre­pa­ra­ti­on-Auf­ga­ben zu bewäl­ti­gen und ihre Daten­ana­ly­se­pro­zes­se effi­zi­ent zu ska­lie­ren.

Haben Sie Fra­gen zu Data Pre­pa­ra­ti­on oder zu den Tools von Alte­ryx? Spre­chen Sie uns an!

Kategorien
Letzte News
Ihr Ansprechpartner

Wenn Sie Fra­gen zu unse­ren Pro­duk­ten haben oder Bera­tung benö­ti­gen, zögern Sie nicht, direkt Kon­takt zu uns auf­zu­neh­men.

Tel.: +49 40 22 85 900-0
E-Mail: info@statsoft.de

Sasha Shiran­gi (Head of Sales)