Performantes Machine Learning mit R und H2O

Zum richtigen Zeitpunkt am richtigen Ort in New York die optimale Anzahl an Leihfahrrädern verfügbar haben. In Millionen von Daten des New Yorker Fahrradverleihers Citi Bike lassen sich mit Machine Learning Verfahren Muster und Gesetzmäßigkeiten erkennen, die Aufschluss über das Nutzungsverhalten der Kunden geben.

Was sind die meist frequentierten Ausleihstationen? Wann werden die meisten Fahrräder ausgeliehen? Was sind die beliebtesten Routen der New Yorker?

Mit Hilfe von Verfahren des maschinellen Lernens lassen sich diese Fragen beantworten und darüber hinaus Zukunftsprognosen erstellen, um für die Kunden das optimale Angebot bereitstellen zu können.

Performancevorteile für R-User

Eine der derzeit besten Alternativen für das Machine Learning ist das Open Source Projekt H2O. Die Lösung des gleichnamigen kalifornischen Unternehmens verfügt über ein R-Interface und ermöglicht den Anwendern der freien Programmiersprache Vorteile in puncto Performance. Die in H2O verfügbaren Funktionen und Algorithmen sind sehr performant und damit eine gute Alternative für das bereits standardmäßig in den R-Paketen verfügbare Funktionsset.

Unter anderem in H2O implementiert sind:

  • Gradient Boosting
  • Naive Bayes
  • K-Means
  • Decision Trees
  • Deep Learning

Ein weiterer Aspekt hinsichtlich der Laufzeitoptimierung ist die Möglichkeit, H2O auf dem Server laufen zu lassen. Dies schont den begrenzten lokalen Arbeitsspeicher. Zudem parallelisiert H2O standardmäßig, nutzt also alle vorhanden Prozessorkerne aus.

H2O Flow als exploratives Analysetool

Neben der Ansprache aus R heraus verfügt das Machine Learning Framework mit H2O Flow über ein webbasiertes interaktives User Interface, das sich für erste Einblicke in die Datenstruktur und explorative Analysen anbietet.

H2O wird derzeit noch aktiv weiterentwickelt, sodass stetige Änderungen zu erwarten sind. Die aktuellste Version von H2O für R und auch für die Programmiersprache python findet sich unter http://www.h2o.ai. Die auf CRAN verfügbare Version ist zumeist nicht auf dem aktuellsten Stand.

Auf dem Youtube Channel des Unternehmens gibt es interessante Customer Stories, die einen Einblick in die Anwendungsfelder von H2O geben.

H2O als Thema in der R-Akademie von eoda

Wer sich näher mit dem Thema beschäftigen möchte: Der Einsatz von H2O mit R wird im Rahmen des Data Mining Kurses in den Data Science Trainings von eoda erklärt.
Hier entlang.

Tobias Titze - Beitrag vom 11.02.2016

Tobias Titze betreut seit 2013 das Marketing der eoda GmbH. Seine tägliche Aufgabe ist der Brückenschlag zwischen einem komplexen Thema und den Anforderungen des Marktes. Er interessiert sich für Daten und Algorithmen und begeistert sich für die Vorteile, die sich für Unternehmen daraus ergeben.

Abonnieren Sie unseren Datenanalyse-Blog