Feature-Engineering Preisindizes: Kaufverhalten verstehen

Um Kunden gezielter ansprechen zu können, ist es für Unternehmen oft wichtig den Kundenstamm zu segmentieren. Ein hierfür häufig eingesetztes Verfahren ist die Clusteranalyse. Allerdings können die Ergebnisse einer Clusteranalyse nur so aussagekräftig sein, wie die Features auf Basis derer die Cluster (hier Kundensegmente) berechnet werden.

Im Idealfall teilen gute Features den Kundenstamm in leicht zu interpretierende Segmente. Der Nutzen bedeutsamer Features wird am Beispiel der Berechnung von Preisindizes für unterschiedliche Warengruppen verdeutlicht. Diese Features wurden im Kontext einer Clusteranalyse mit dem Ziel der Kundensegmentierung erstellt.

Das Feature-Engineering ist eine Form der Aufbereitung von Daten und beschreibt die Auswahl und Aufbereitung von Merkmalen die zur Erstellung eines Machine-Learning-Modells herangezogen werden.

Mehr zum Thema: Feature Engineering in der Praxis

20 unterschiedliche Datenquellen, zahlreiche Features und ein Ensemble aus 1.000 Klassifikationsbäumen: Das sind die Eckdaten unseres Projekts für die VR-Bank Mitte eG, in dem wir mittels Kundenanalyse die Responsequote von Sales-Kampagnen signifikant steigern konnten.

 

Zur Case Study Kundenanalyse

 

Logo VR Bank Mitte


Kunden, Aufträge und Artikel: Die Ausgangsdaten

Am Anfang stehen drei Tabellen, die Daten zu Kunden, deren Aufträgen und den gekauften Artikeln enthalten. Die drei Tabellen verfügen über Kunden- und Auftragsnummern, mit denen sie untereinander verknüpft werden können. Zudem enthält die Auftragstabelle den Gesamtrechnungsbetrag je Auftrag. Die Tabelle mit Artikeldaten umfasst die gekaufte Stückzahl eines Artikels. Eine Herausforderung bei der Berechnung der Indizes ist, dass die Artikelpreise nicht verfügbar sind und folglich erst errechnet werden müssen

Die Ermittlung der Indizes: Das Vorgehen

Im ersten Schritt werden deshalb alle Aufträge, die nur einen Artikel beinhalten mit den Daten der gekauften Artikel verknüpft. Da jeder Auftrag nur einen Artikel beinhaltet, können die Preise für diese Artikel errechnet werden, indem der Gesamtbetrag des Auftrags durch die Menge geteilt wird. So werden ungefähr 75% aller Artikel erfasst.

Andere Artikel treten häufiger im Verbund auf, weswegen sich deren Preise nicht exakt berechnen lassen. So besitzt ein Auftrag mehrere Artikel und der Gesamtbetrag des Auftrags lässt sich nicht mehr so auf die Artikel disaggregieren, um den Preis eines Artikels eindeutig bestimmen zu können. Die Artikelpreise werden so berechnet, dass der Gesamtbetrag des Auftrags durch die Menge eines Artikels geteilt wird. Da sich hierdurch für gleiche Produkte unterschiedliche Preise ergeben, wird der Medianpreis für jedes Produkt gewählt. Hierdurch gehen ungewöhnliche Werte nicht in die Berechnung mit ein.

Um zu errechnen, ob ein Artikel über- oder unterdurchschnittlich teuer ist, wird der Mittelwert der Artikelpreise in der Warengruppe eines Artikels vom Artikelpreis subtrahiert und die Differenz wird durch die Standardabweichung der Preise in der Warengruppe dividiert. Negative Werte weisen auf unterdurchschnittlich teure Artikel hin, positive Werte auf überdurchschnittlich teure Artikel. Ein Wert von Null bedeutet, dass ein Kunde durchschnittlich teure Artikel in einer Warengruppe kauft. Anschließend werden die Preisindexwerte erst auf Auftragsebene, dann auf Kundenebene über Mittelwerte aggregiert.

Abbildung 1: Anzahl gekaufter Artikel nach Warengruppen

 

Abbildung 2: Preisindexwerte nach Warengruppen

 

Aggregiert man die Käufe in Warengruppen nach Kunden, wird lediglich deutlich, welcher Kunde in welcher Warengruppe wie viele Artikel gekauft hat. Die warengruppenspezifischen Preisindizes geben hingegen darüber Aufschluss, ob ein Kunde in einer Warengruppe eher teuer oder eher günstig kauft.

Preisbewusstsein und Einkaufsverhalten: Die Kunden verstehen

Im Ergebnis der Clusteranalyse zeigt sich, dass in bestimmten Kundensegmenten die Zahl der Warenkäufe eher gering (siehe die roten Zellen in Abbildung 1), dafür die Indexwerte in diesen Warengruppen eher hoch ist (siehe die grünen Zellen in Abbildung 2). C1 bis C7 bezeichnen die unterschiedlichen Cluster bzw. Kundensegmente. Kunden im Segment C1 kaufen also in den Warengruppen Boutique und Geschirr zwar wenige Artikel, dafür sind diese Artikel aber relativ teuer. Hingegen sind Kunden in C3 ebenfalls Boutique-affin, kaufen allerdings eher günstigere Produkte.

Diese Informationen können genutzt werden, um Kunden zielgerichteter mit neuen Angeboten anzusprechen und dadurch Streuverluste zu minimieren und die Responsequote datenbasiert zu erhöhen.

Mit der Clusteranalyse zu Mehrwerten auf Datenbasis
Als Data-Science-Experte sind wir von eoda Ihr Ansprechpartner für das Thema Kundensegmentierung.