Data Mining Demo: Modellbildung und Prognose mit R und Exasol

Im Folgenden finden Sie ein einfaches Data Mining Demo, das Modellbildung und Prognose in der Verbindung von R und Exasol zeigt. Falls Sie die Installation und Konfiguration der benötigten Komponenten noch nicht vollzogen haben, finden Sie die Anleitung dazu hier.
Außerdem finden Sie hier ein Webcast-Video, in dem das unten stehenden Demo gezeigt sowie die Grundzüge von R und Exsol erläutert werden.

Die iris Daten werden jetzt in die Exasol geschoben. Bei der ersten Verwendung wird zunächst ein Datenbankschema erstellt und eine leere Tabelle. Anschließend werden die iris Daten in die Tabelle geschoben. Sind die Daten einmal hochgeladen, können Sie immer wieder verwendet werden.
Im ersten Analyseschritt wird lokal ein Entscheidungsbaum erstellt. Auf Basis dieses Baums wird anschließend eine Prognose erstellt.
Das selbe Vorgehen wie oben jetzt in der Exasol. Die exa.script Funktion erstellt ein R Skript auf dem Exasol Server. Der Aufruf dieser Funktion führt das Skript auf den Exasol Clustern aus. D.h. die Analyse findet nicht mehr auf dem lokalen R statt, sondern auf den R Instanzen im Exasol Cluster. Pakete, die auf den R Instanzen auf der Exasol verwendet werden, müssen dort installiert sein. Siehe dazu diesen Blogbeitrag.

Das im Exasol Cluster gebildete Modell wird in Redis, einer Key-Value Datenbank abgelegt. Mit Redis lassen sich sowohl Modelle als auch Funktionen oder andere R-Objekte im Cluster verteilen und aus dem Cluster laden.

Das Baum Modell kann in einem separaten Schritt auf der Exasol für die Prognose verwendet werden. Der erste Teil ist mit der obigen Funktion weitgehend identisch.

Im Folgenden finden Sie ein einfaches Data Mining Demo, das Modellbildung und Prognose in der Verbindung von R und Exasol zeigt. Falls Sie die Installation und Konfiguration der benötigten Komponenten noch nicht vollzogen haben, finden Sie die Anleitung dazu hier.

Die iris Daten werden jetzt in die Exasol geschoben. Bei der ersten Verwendung wird zunächst ein Datenbankschema erstellt und eine leere Tabelle. Anschließend werden die iris Daten in die Tabelle geschoben. Sind die Daten einmal hochgeladen, können Sie immer wieder verwendet werden.

Im ersten Analyseschritt wird lokal ein Entscheidungsbaum erstellt. Auf Basis dieses Baums wird anschließend eine Prognose erstellt.

Das selbe Vorgehen wie oben jetzt in der Exasol. Die exa.script Funktion erstellt ein R Skript auf dem Exasol Server. Der Aufruf dieser Funktion führt das Skript auf den Exasol Clustern aus. D.h. die Analyse findet nicht mehr auf dem lokalen R statt, sondern auf den R Instanzen im Exasol Cluster. Pakete, die auf den R Instanzen auf der Exasol verwendet werden, müssen dort installiert sein. Siehe dazu diesen Blogbeitrag.

Das im Exasol Cluster gebildete Modell wird in Redis, einer Key-Value Datenbank abgelegt. Mit Redis lassen sich sowohl Modelle als auch Funktionen oder andere R-Objekte im Cluster verteilen und aus dem Cluster laden.

Das Baum Modell kann in einem separaten Schritt auf der Exasol für die Prognose verwendet werden. Der erste Teil ist mit der obigen Funktion weitgehend identisch.

Oliver Bracht - Beitrag vom 13.05.2016

Oliver Bracht ist Mitgründer und als Chief Data Scientist verantwortlich für das Projektgeschäft der Kasseler eoda GmbH. Er ist Statistik-Experte mit einer ausgeprägten Vorliebe für die Kommunikation über statistische Methoden und Ergebnisse. Er verfügt über jahrelange Erfahrung in der Analyse komplexer Zusammenhänge unter Verwendung anspruchsvoller Methodenwerkzeuge. Oliver Bracht hat sein Magister-Studium der Soziologie, Philosophie und allgemeinen Rhetorik mit einer Arbeit zur empirischen Sozialforschung abgeschlossen.

Abonnieren Sie unseren Datenanalyse-Blog