Data Mining mit R

“We are drowning in information, but starving for knowledge” – der Zukunftsforscher John Naisbitt trifft damit einen wichtigen Punkt aktueller unternehmerischer Fragen. Computertechnologien und vergrößerte Speicher erlauben es Unternehmen, riesige Mengen an Daten anzuhäufen. Oftmals haben die Entscheider aus Vertrieb, Logistik und Marketing jedoch keine Vorstellung davon, welche Art der Information in ihren Daten stecken und wie diese herauszufiltern sind. Das eigentliche Potenzial der Ressource Daten bleibt in den meisten Fällen unausgeschöpft. Die entscheidende Frage für Unternehmen lautet: Wie lassen sich Informationen aus den Daten entlocken und in Wissen umwandeln? Eine Antwort darauf bieten Data Mining Verfahren. Data Mining mit R ist vor diesen Hintergrund eine interessante Alternative aus verschiedenen Gründen.

Mittels Data Mining Verfahren werden Daten auf ihre inneren Strukturen, Assoziationen und Muster untersucht. Ein breites Methodenset erkennt implizite Zusammenhänge, ermöglicht es Prognosen über Absatzzahlen zu treffen, Kunden zu Clustern und Kaufverhalten zu analysieren. R vollzieht hierbei den Brückenschlag zwischen modernster Methodik und Anwendungsintegration. Auf diese Weise ermöglicht R schnell und zu vergleichsweise günstigen Gesamtkosten einen hohen praktischen Nutzen zu stiften.

Praktischer Nutzen von Data Mining

Daten fallen in allen Geschäftsprozessen an und werden in zig verschiedenen IT-System vorgehalten – in CRM-Systemen, beim Kommunikationsverkehr, in der Logistik, der Fertigung oder dem Aufzeichnen von Klickverhalten auf der eigenen Homepage. Die sich ergebenden Fragen sind vielfältig.

Typische Fragen im Vertrieb sind: Wer kauft was? Wann? Und in welcher Verbindung zu anderen Gütern? Durch das Anspielen von externen Daten lassen sich darüber hinaus weitere Fragestellungen untersuchen. Zu denken ist an Wetterdaten- oder Konjunkturdaten – die Möglichkeiten sind vielfältig. Die Nutzen ebenfalls, bspw. durch optimierte Planung von Ressourcen und Logistik. Kann eine These darüber angestellt werden, welche Informationen die Daten bereithalten, ist es möglich, diese anhand ausgewählten Analysemethoden zu untersuchen. Beispielweise lässt sich das Bauchgefühl validieren, dass bei Regen tatsächlich mehr Regenschirme gekauft werden. Was aber, wenn keine Idee darüber existiert, welche Muster in den Daten zu erwarten sind, aber dennoch die leise Vorahnung herrscht, dass sich die Kunden irgendwie unterscheiden, diese Systematik jedoch zu komplex ist, um sie mit bloßen Auge zu erfassen? In solchen Szenarien werden Data Mining Verfahren angewendet.

Dabei werden die Daten nicht hypothesengeleitet, sondern aufgrund der Einschätzung untersucht, es lassen sich darin implizite, aber nicht unmittelbar eingängige Strukturen entdecken. Die angewendeten Methoden werden deswegen auch als hypothesengenerierende Verfahren bezeichnet, bei denen neues Wissen über Zusammenhänge erzeugt wird.

R ermöglicht es, die neusten Verfahren und Methoden einzusetzen, diese Zusammenhänge zu analysieren. R ist eine objektorientierte Programmierung und wurde speziell dafür entwickelt, statistische Daten zu analysieren und visualisieren. Ausgestattet mit inzwischen über 4.000 Paketen, die spezielle Anwendungen und Verfahren bereit halten, verfügt R, sowohl was den Umfang als auch die Analysetiefe angeht, über unvergleichliche Möglichkeiten. Laufend in dem dichten Netz einer führenden Wissenschaftscommunity der Bereiche Mathematik und Statistik weiterentwickelt, ist das Open Source Produkt R auf dem Weg, zur Lingua Franca der Datenanalyse zu werden. Nahezu jede kommerzielle Software im Bereich Statistik verfügt über Schnittstellen zu R. Klassische Anwendungen wie SPSS und SAS haben in ihre Bibliotheken integrierten R-Code und ermöglichen es, R Anwendungen intern aufzurufen. Neue Methoden stehen dabei in R aufgrund der breiten Entwicklergemeinde aus Wissenschaft und Forschung zeitnah zur Verfügung, sodass bereits jetzt die neusten Data Mining Lösungen in den R-Paketen zu finden sind – auf die somit auch die klassischen Anwendungen zurückgreifen.

Wichtige Pakete zu Data Mining mit R

Einige populäre Pakete im Bereich Data Mining sind „rpart“ für Regressions- und Entscheidungsbäume (enl. regression- and decision trees) , „party“ und „randomForest“ für random Forest, die auf Entscheidungsbäumen basieren, „nnet“ für künstliche neuronale Netze, „kernlab“ für eine integrierte Lösung von Mashine Learning und Support Vector Mashines sowie „e1071“ für Clusterverfahren und Analyse latenter Klassen. Mit dem Paket „rattle“ steht zudem eine komfortable grafische Benutzeroberfläche bereit, mit der sich Data Mining Verfahren auch über eine Klick-Steuerung ausführen lassen.

R-Training

eoda bietet im Rahmen der Data Science Trainings einen Workshop zum Thema „Data Mining mit R“ an und wird im Zuge dessen einige der oben angesprochenen Verfahren und Pakete eingehend vorstellen. Die Teilnehmer können in Übungen die Funktionen an Testdatensätzen ausprobieren und werden von langjährigen Datenanalysten und Spezialisten im Bereich Data Mining gecoacht. Vorkenntnisse im Umgang mit R sind dabei von Vorteil.

Für mehr Informationen zu den Data Science Trainings:

Hier entlang.