Von der Ziel- bis zur Produktivsetzung: Ein Data-Science-Projekt Schritt für Schritt

(Teil 1)

Das Potenzial von Data Science ist erkannt, ein möglicher Use Case identifiziert und die vorfreudige Erwartungshaltung an die Analyseergebnisse groß: Ein Data-Science-Projekt beginnt. Damit es vom Anfang bis zum Ende ein Erfolg wird, gilt es, einige Hürden zu meistern. Welche das sind erklären wir Ihnen anhand eines Analyseprojektes im Einzelhandel.

Definition der Ausgangsfrage

Das zentrale Ziel eines Einzelhändlers ist die Umsatzsteigerung. Um dieses Ziel zu erreichen, wird die Eröffnung einer neuen Filiale in Betracht gezogen. Als Basis für eine erfolgreiche, umsatzstarke Einzelhandelsfiliale haben die Verantwortlichen mögliche Standorte evaluiert.

Die übergeordnete Fragestellung der zuständigen Expansionsabteilung lautet daher: Welcher von den verfügbaren Standorten ist der beste für eine Filialeröffnung?

Business Understanding

Unabhängig davon, ob der Einzelhändler über eine eigene Data-Science-Abteilung verfügt oder ein externer Data-Science-Spezialist beauftragt wird, ist es entscheidend, Data-Science-Kompetenz bereits in diesem frühen Projektstadium einzubinden. In einem ersten Meeting zwischen Fachabteilung und Data Science werden die Fragestellung genauer beleuchtet und die konkreten Anforderungen ermittelt.

Um die Frage nach dem optimalen Standort beantworten zu können ist es entscheidend, zu ermitteln, welche Faktoren einen signifikanten Einfluss auf den Erfolg oder Misserfolg einer Filiale haben, beziehungsweise woran sich der Erfolg einer Filiale im gegebenen Kontext misst. Die Expansionsabteilung legt hier den Fokus auf den Umsatz, aber auch andere Faktoren wie die Kundenanzahl oder die Verdrängung von Wettbewerbern sind an dieser Stelle denkbar.

Identifikation relevanter Daten

Ladenfläche, Wettbewerbsintensität oder Bevölkerungsstrukturdaten: Um den optimalen Standort zu ermitteln, braucht es Informationen über die Merkmale, welche die Zielgröße (den Umsatz) einer Filiale treiben. Im Zuge des Austausches mit der Data-Science-Abteilung wird auch die Verfügbarkeit der relevanten Daten in den internen Datenbanken des Einzelhändlers geprüft. Relevant sind hierbei beispielsweise Stammdaten der Filialen (Ladenfläche, Einrichtung, Parkplatzgröße), die geografische Lage der Filiale und Erfolgskennzahlen wie Umsatz oder Durchschnittsbons der einzelnen Märkte.

Setup Infrastruktur

Die Datenquellen sind identifiziert. Nun gilt es, diese für den Data Scientist zu erschließen. An dieser Stelle kann der Data Engineer unterstützen. Er ist der Spezialist und Ansprechpartner, wenn es darum geht, Daten aus verschiedenen Datenbanken zu verknüpfen und dem Data Scientist den Datenzugriff zu ermöglichen – im Optimalfall als direkten Zugriff auf die Datenbank. Als Herr des Data Warehouse kann der Data Engineer dem Data Scientist auch präzise erklären, in welchen Systemen und Tabellen in Datenbanken die zuvor als relevant eingestuften Informationen zu finden sind. Denn der Data Scientist bringt auch die nötigen Kompetenzen mit, einfache Datenabzüge und -Verknüpfungen selbst vorzunehmen.

Data Understanding

Nachdem dem Data Scientist der Datenzugriff ermöglicht wurde, beginnt er mit der genauen Begutachtung der Datenlage. Diese erweist sich für den Data Scientist als Glücksfall. Alle benötigten Daten liegen in den Datenbanken des Einzelhändlers vor. Er schaut sich Zusammenhänge an, erkennt fehlende Werte und generiert erste deskriptive Kennzahlen und Visualisierungen.

An dieser Stelle kann der Data Scientist eine mögliche Diskrepanz zwischen der Erwartungshaltung und der tatsächlichen Datenlage identifizieren und die Erkenntnisse an die Fachbereiche zurückspielen. Zum Beispiel hat der Data Scientist erkannt, dass das von der Expansionsabteilung im Vorfeld als wichtig eingestufte Merkmal zur Parkplatzgröße bei vielen Filialen nicht zur Verfügung steht. Adressdaten zum Standort der Filiale sind wiederum durchgehend vorhanden, liegen aber in unterschiedlichen Formaten vor.

Im Zuge des Austausches mit der Fachabteilung erhält der Data Scientist auch ein Feedback, um die vorhandene Datenbasis nicht nur aus methodisch/technischer Sicht, sondern auch in Bezug auf den Business-Kontext in Gänze zu erfassen. Fehlende Informationen über die Parkplatzfläche deuten so zum Beispiel auf eine City-Filiale hin: Eine weitere Information, die der Datenanalyst im weiteren Vorgehen berücksichtigen kann.

Ausgehend von den Adressdaten möchte der Data Scientist auch soziodemografische Daten der Filialumgebung einbeziehen. Angestoßen durch die Idee des Data Scientists konnten aus einer anderen Fachabteilung die dafür benötigten Marktforschungsdaten beschafft und diese damit für weitere die Analyse nutzbar gemacht werden.

Damit ist der Grundstein für eine erfolgreiche Identifikation der Analysestrategie gelegt. Welche Hürden beim Datenmanagement, der Modellierung und der Evaluation der Modellgüte zu meistern sind, erfahren Sie im zweiten Teil des Beitrags.

Das Thema interessiert Sie? Dann empfehlen wir Ihnen folgende Beiträge:

Das erfolgreiche Data-Science-Projekt: Das Team und seine Kompetenzen:

Hier entlang.
Das erfolgreiche Data-Science-Projekt: Wie funktioniert es?

Hier entlang.