Ein Data-Science-Projekt ist nur so gut wie das dahinterstehende Projekt-Team. Denn bis ein Data-Science-Projekt erfolgreich abgeschlossen ist, durchläuft es mehrere Phasen und Stationen. Dabei treffen viele Kompetenzen aufeinander: Hacking Skills, Software-Kompetenz, Business Understanding, Methoden-Know-how und Kommunikation. Bestimmte Teams oder Personen, Tätigkeiten und Kompetenzen sind jedoch essentiell und somit fester Bestandteil eines Analytik-Projekts. Wir verraten, welche.

Das Projektteam

Ein Data-Science-Projekt besteht im Idealfall aus mehreren Personen unterschiedlicher Abteilungen, die jeweils Experten auf ihrem Gebiet sind. In einem Data-Science-Projekt arbeiten Sie übergreifend in einem neuen Projektteam zusammen und gemeinsam an der bestmöglichen Analytik-Lösung. Dabei arbeitet das Projektteam keineswegs linear, sondern kontinuierlich zusammen.

Die Data Engineers

Die Datenbankspezialisten sorgen für die nötige Infrastruktur: Sie bewegen und verknüpfen verschiedene Datenströme und sorgen mit ETL-Prozessen für Ordnung und Struktur im Data-Warehouse. Wenn verschiedene Datentöpfe aufeinandertreffen, bringt der Data Engineer sie in Form: Dabei nutzt er verschiedene Tools oder schreibt ein Skript in der Sprache seiner Wahl (R, Python, Scala, etc.), welches genau auf die Anforderungen des Strukturprozesses passt. Der Data Engineer vereint viele Kompetenzen unterschiedlicher Rollen: Admin, Software-Entwickler und Data Scientist mit Datenbankfokus. Somit hat der (begrifflich noch recht junge) Data Engineer seine Rolle im Analyseprojekt klar definiert.

Daten unterschiedlicher Datenquellen sind oftmals unterschiedlich strukturiert. Mithilfe von ETL-Prozessen (Extract, Transform, Load) werden die verschiedenen Datentöpfe in einer zentralen Datenbank einheitlich zusammengeführt. Diese zentrale Datenbank wird auch Data Warehouse genannt.

Ein Data Scientist muss nicht nur gut mit den Zahlen und Analysen jonglieren, sondern beherrscht im besten Falle auch eine ausgereifte Methodenkompetenz, Kommunikationsvermögen und wirtschaftliche Weitsicht. Der Data Scientist ist ein wichtiger Part im gesamten Data-Science-Projekt: Er schreibt die Analysen und Modelle, sorgt für eine durchdachte Analysestrategie und hat das Ziel klar im Blick. Bei Unklarheiten zur Umsetzbarkeit möglicher Use Cases ist er der Ansprechpartner. Der Data Scientist benötigt jedoch auch das Know-how der Fachabteilung, um den Use Case vollends greifen zu können. Für ebendiese erstellt er Reportings und visualisiert die Daten im Rahmen einer explorativen Datenanalyse. Damit werden die Weichen für nachhaltige Entscheidungsprozesse im jeweiligen Projekt und auch darüber hinaus gestellt.

Die Fachabteilung

Fachabteilungen sind Teams mit konkreten Fragestellungen: Das Marketing benötigt eine Analyse der Webseitendaten, das Controlling sucht Einsparungspotenziale, die Produktion möchte Prozesse verschlanken. Jede Fachabteilung hat Use Cases vor Augen oder definiert sie bestenfalls gemeinsam mit der Data-Science-Abteilung. Möglicherweise sind die Fachabteilungen zwar keine Analyseexperten, aber dafür kennen Sie ihren Use Case und das dazugehörige Ökosystem besser als jeder andere im Unternehmen: Welche Bedürfnisse haben wir? Wie ist eigentlich der Kontext zur jeweiligen Fragestellung? Wer ist für welches Anliegen der beste Ansprechpartner und gibt so die Impulse und Anregungen für die perfekte Analyse? All diese Fragen beantwortet die Fachabteilung mit links.

Die essentiellen Stichwörter sind hier Austausch und Transparenz. Denn von der Zusammenarbeit der unterschiedlichen Teams (Fachabteilung, Data Science, Data Engineer) und dem darin transferierten Kontextwissen profitieren nicht nur die Analysen. Auch die Infrastruktur ist durchdachter, die Fachabteilung ist immer bestens über den aktuellen Analyse-Stand informiert und kann so auf der Entscheiderebene agiler agieren.

Was gehört zu einem erfolgreichen Data-Science-Projekt?

Jedes beschriebene Team bringt wertvolle Kompetenzen mit, die sich bestens ergänzen. Dabei gilt natürlich immer: Mit Schwarzweißdenken kommt man hier nicht weit. Jeder Beteiligte hat seine individuellen Eigenschaften und bringt möglicherweise mehr mit, als die primäre Jobbezeichnung verrät – davon profitieren alle.

Hacking Skills

Gewusst wie: Idealerweise geht jeder mit seinem Methodenwissen kreativ und flexibel um. Erfindergeist ist gefragt und gewünscht, um die ideale Lösung für ein Problem zu finden. Das gilt nicht nur für Data Scientists – auch die Fachabteilungen profitieren von Use Cases, die über den Tellerrand hinaus gedacht sind. Dazu gehört auch ein Grundverständnis der unterschiedlichen Tools und Programmiersprachen: Wozu eignet sich R, wofür Python beispielsweise besonders gut?

Business Understanding

Dennoch gilt klar die Devise: Eine Analysefrage kann noch so vielversprechend und innovativ klingen, wenn die Datengrundlage oder die geeignete Analysestrategie fehlt, bringt die beste Idee keinen Erfolg. Dazu müssen einerseits Data Science (inklusive Data Engineer) und andererseits Fachabteilung den Anwendungsfall klar verstehen und sondiert haben, sowie ein gutes Verständnis für ihn entwickeln.

Methoden-Know-how

Wissen wie es geht und wozu man es braucht – dazu muss man kein Experte in jeder Disziplin sein, aber mindestens wissen, dass es sie gibt: Der bestimmte Algorithmus, die Datenquellen, das Fachwissen. Methoden-Know-how ist für alle Teams essentieller Bestandteil und eine der wichtigsten Komponenten für das Data-Science-Projekt und hört auch nicht bei einem guten Fachwissen auf.

Software-Kompetenz

Von der Theorie in die Praxis: Die gescheite Umsetzung der Analysestrategie ist gleichermaßen wichtig. Ist der Code reproduzierbar und nachvollziehbar? Ist der Code auch nach einem Update noch brauchbar, Stichwort Versionierung? Und wie muss die technische Landschaft innerhalb der Firma aussehen, um ein Projekt firmenweit zu operationalisieren oder automatisieren?

Agil

Flexibilität zum Standard erheben ist mehr als ein netter Gedanke, sondern bei Data-Science-Projekten im besten Fall gelebte Philosophie. Dies ist auch der Sache selbst geschuldet. Merkt beispielsweise der Data Scientist, dass der Use Case einfach keine verwertbaren Ergebnisse bringt, geht es einen Schritt zurück: Welche Datenquellen können wir noch anzapfen? Passt ein anderer Algorithmus besser? Das hat nichts mit Scheitern zu tun, sondern mit höchster Potenzialentfaltung.

Wissenstransfer

Ist ein Data-Science-Projekt abgeschlossen, übergeben die Data Scientists den Code an die Fachabteilung (intern oder extern), die anschließend produktiv damit arbeitet. Hier ist es zweitranging, ob ein externer Data-Science-Dienstleister engagiert wurde, oder das Projekt innerhalb des Unternehmens realisiert wird. Es gibt auch durchaus Szenarien, in denen der Projekt-Data-Scientist den Code intern an einen weiteren Data Scientist übergibt – das Ziel ist immer gleich: Um weiter mit der Analyse zu arbeiten, muss der Code an die Instanz gehen, die damit arbeiten soll und wird dieser ausgiebig erklärt.

Denn für die weitere Arbeit hilft es ungemein, die Analyse zu verstehen, um anschließend einordnen zu können, was genau mit den Daten passiert. Die damit einhergehende Transparenz hilft nicht nur dabei, die Magie hinter der Analyse greifen zu können, sondern ermöglicht auch eine immer wiederkehrende Reflektion der Analyse und ihrer Ergebnisse.

Im erfolgreichen Data-Science-Projekt agieren Data Scientist, Data Engineer und die Fachabteilungen gemeinsam. Dabei bringen die Personen vielfältige Kompetenzen mit und ergänzen ihr Können. Wichtig dabei ist besonders der Austausch untereinander und die damit einhergehende Transparenz, denn niemand erreicht sein Ziel allein. Müssen sie auch nicht, schließlich haben alle dasselbe im Blick: Dass Buzzword Digitalisierung nachhaltig und erfolgreich mit Leben zu füllen.

Wie ein Data-Science-Projekt funktioniert und welche Phasen es dabei durchläuft, lesen Sie hier.

Hier entlang.