R-Akademie von eoda

Die R-Akademie von eoda ist ein modulares Trainingsprogramm für R, das praxisorientiert und umfassend die vielfältigen Möglichkeiten der Statistiksprache R behandelt. Mit dem R-Training von eoda stellen Sie sicher, dass Sie die richtigen Kenntnisse erwerben, um den maximalen Nutzen in der Anwendung von R zu erzielen.

 

Unsere Trainer arbeiten seit über 10 Jahre in der statistischen Datenanalyse. Unsere R-Trainings für Unternehmen, Universitäten und Graduiertenzentren werden regelmäßig evaluiert und sehr gut bewertet. Eine Auswahl unserer Referenzen:

 




Kursthema Mai
2014
Juni 2014 September 2014 Oktober 2014 November 2014 Dezember 2014
Einführung in R 5.5 bis 6.5   15.9 bis 16.9      
Data Mining mit R     17.9 bis 18.9      
Statistische Testverfahren   17.6        
Multivariate Statistik mit R   18.6 bis 19.6        
Zeitreihenanalysen mit R         10.11 bis 11.11  
Grafikerstellung mit R 12.5 bis 13.5       24.11 bis 25.11  
Interaktive Grafiken mit R 14.5       26.11  
Text Mining mit R   30.6 bis 1.7        
Angewandte Statistik im Qualitätsmanagement mit R           2.12 bis 4.12
Programmieren mit R (I)     29.9 bis 30.9      
Programmieren mit R (II)       1.10 bis 2.10    
Big Data mit R   23.6 22.9      
Hadoop mit R   24.6 23.9      
Reproducible Research 21.5   24.9      
Einführung in R

R ist eine Open Source Programmiersprache für statistische Datenanalyse und -visualisierung. Mittlerweile hat sich R, neben den kommerziellen Softwarelösungen SPSS (PASW), Stata und SAS, als Standardsoftware in Wissenschaft und Wirtschaft etabliert. 

R besteht aus einer Basisumgebung und einer großen Anzahl an "Paketen", mit denen sich praktisch alle Problemstellungen, die im weitesten Sinne mit Datenanalyse zu tun haben, lösen lassen. Das Anwendungsfeld reicht von den klassischen statistischen Verfahren der Soziologie und Psychologie über Simulationsverfahren, die Genomanalyse bis hin zu Text Mining. R bietet sich somit für empirische Fragestellungen, sowohl quantitative als auch qualitative, aus sämtlichen Fachgebieten an.

Der Kurs versteht sich als Einführung in die Grundfunktionen von R und soll Orientierung bieten, um sich im Dickicht der R-Pakete eigene Wege zu bahnen. Ziel ist es, mit praktischen Tipps den Einstieg zu erleichtern.

Kursinhalte:

  • Einstieg in R

Das Programm R, CRAN-Mirror, verschiedene Umgebungen/Editoren von R , Nutzung der internen Hilfe-Funktionen, Hilfen im Internet

  • Konzept und Philosophie von R

Die Programmiersprache, Objekte und Objektorientierung, Wertezuweisung, Funktionen

  • Variablentypen und ihre Eigenschaften

Vektoren, Dataframes, Listen,…

  • Einlesen von Daten

.txt-, .csv-, .xls-, .sav-Dateien, Internetquellen etc.

  • Datenmanagement

Bildung neuer Variablen, bedingtes Umkodieren, einfache Berechnungen, fehlende Werte

  • Auswertungen mit R

Statistische Kennzahlen, einfache Tabellen und Grafiken

  • Erstellen grundlegender Grafiken

 

Data Mining mit R

Data Mining steht für das hypothesenfreie Extrahieren von  Erkenntnissen aus Daten. Statistische und mathematische Verfahren werden auf Datenbestände angewendet, um bestehende Muster und Zusammenhänge aufzudecken. Data Mining Verfahren stellen i.d.R. geringe Anforderungen an das Messniveau der Daten (kategorial, ordinal, metrisch) und sind in der Lage komplexe nicht-lineare Zusammenhänge zu erkennen.  Konkrete Anwendung findet Data Mining beispielsweise bei der Erstellung von Prognose-Modellen, in der Zielgruppenanalyse, der Warenkorbanalyse, für Empfehlungsdienste und vielem mehr. Die Anwendung der Data Mining Verfahren wird anhand von praxisnahen Beispielen erlernt. Im Kurs wird sowohl die Erstellung von Datamining-Skripten als auch die Bedienung der graphischen Benutzeroberfläche „Rattle“ erlernt. Ziel des Kurses ist es, die Teilnehmer in die Lage zu versetzen, das Gelernte selbständig auf ihre jeweiligen Anwendungszwecke zugeschnitten anzuwenden.

Folgende Methoden sind Teil des Kursprogramms:

  • Einführung in das Data Mining
  • Modell-Evaluation

Modellauswahl und Datenbasis, Fehlermatrix, Risk-Charts, ROC, Sensitivität, Präzision, Lift, Prognose und Beobachtung

  • Explorative Analyse

tabellarische Analyse, visuelle Analyse (metrisch, kategorial), Korrelationsanalyse, Missing-Values Korrelation

  • Assoziationsanalyse

Support, Konfidenz, Lift, Interpretation

  • Decision- und Regressiontrees

Algorithmus, Interpretation, grafische Interpretation

  • Neuronale Netze

Theorie, Lernprozess im KNN, nnet

  • Random Forest

Theorie, Interpretation, erweiterte Optionen, Conditional inference trees

 

Statistische Testverfahren

Mit Hilfe von Hypothesentests wird untersucht, ob sich Unterschiede bzw. Zusammenhänge zwischen verschiedenen Variablen finden und ob diese unter Berücksichtigung einer akzeptablen Irrtumswahrscheinlichkeit zufällig oder systematisch sind. Je nach Natur der Ausgangsdaten werden unterschiedliche Testverfahren eingesetzt. In diesem Kurs werden unter anderem die folgenden Verfahren vorgestellt:

  • Überblick über statistische Testverfahren
  • Normalverteilung

Kolmogorov-Smirnov-Anpassungstest

  • Unabhängigkeit

Chi-Quadrat-Test, Cramers V

  • Homogenität

Kolmogorov-Smirnov-Z-Test, Kruskal-Wallis-H-Test

  • Korrelation

Pearsons Korrelationskoeffizient, Kendall Tau-b, Spearmans Rangkorrelationskoeffitient

  • Varianztest

t-test, ANOVA

  • Post-Hoc-Tests

Varianzhomogenität, Multiple Vergleiche

  • Kontraste

 

Multivariate Statistik mit R

 

Der Kurs zu Multivariaten Analyseverfahren soll die Teilnehmer in die Lage versetzen vorhanden Datensätze auf statistische Gesetzmäßigkeiten zu analysieren und die Ergebnisse zu interpretieren. Im Mittelpunkt des Kurses stehen dabei die Regressions-, die Faktoren- und die Clusteranalyse.

Die Regressionsanalyse zählt zu der am häufigsten verwendeten Analysefamilie. Grundprinzip ist die Analyse von Beziehungen und Zusammenhangsmaßen zwischen Variablen. Mit Hilfe der Regressionsanalyse kann nicht nur geklärt werden, ob ein Zusammenhang vorliegt, sondern auch wie stark der Zusammenhang insgesamt ist und welcher Einfluss den jeweiligen Variablen zukommt.

Ziel der Faktorenanalyse ist es, eine Vielzahl von Messwerten bzw. Items auf wenige, zentrale Faktoren zu verdichten. Die Grundidee ist, dass abstrakte und nicht direkt messbare Variablen durch eine Vielzahl von konkreten und messbaren Variablen repräsentiert werden. Die Faktorenanalyse kommt häufig in den Wirtschafts- und Sozialwissenschaften sowie in der Psychologie zum Einsatz, wenn es z.B. um die Messung von abstrakten Konstrukten wie „Zivilcourage“, „Fremdenfeindlichkeit“ oder „Beschäftigungsfähigkeit“ geht. Sie wird aber auch zur Lösung von naturwissenschaftlichen Problemstellungen eingesetzt.

Bei der Clusteranalyse werden Gruppen gesucht, mit deren Hilfe sich Gruppen (Befragte, Untersuchungsobjekte, Produkte, Wahlkreise, etc.) differenzieren lassen. Ziel ist es, die Gruppen so zu wählen, dass die Mitglieder innerhalb einer Gruppe möglichst homogen sind, die Mitglieder verschiedener Gruppe dagegen möglichst heterogen. Ein bekanntes Bespiel für eine Clusteranalyse sind die „Sinus-Milieus“ (http://www.sinus-institut.de/).

 

Kursinhalte:

Regressionsanalyse:

  • Modell und Ausgangspunkt

Grundannahmen, nötige Voraussetzungen

  • Interpretation und Güte

Bestimmtheitsmaß R², F Statistik, Signifikanzniveaus

  • Mögliche Probleme

Heteroskedastizität, Autokorrelation, Multikollinearität

Faktorenanalyse:

  • Ausgangspunkt und Theorie der Faktorenanalyse

Hauptkomponentenanalyse vs. Hauptsachenanalyse

  • Eignungsprüfung

Kaiser-Meyer-Olkin-Kriterium, Anti-Image Korrelationskriterium, Kommunalitäten

  • Anzahl der Faktoren

Screeplot, Eigenwertkriterien, Anteil der erklärten Varianz

  • Anzahl der zu extrahierenden Dimensionen

Clusteranalyse:

  • Ausgangspunkt und Theorie

Tanimoto- bzw. Jaccard-Koeffizeint, Russel & Rao-Koeffizient, M-Koeffizient

  • Unterschiedliche Abstandsmaße

City-Block Metrik, Quadierte euklidische Distanz, Single-Linkage Verfahren, Complete Linkage-Verfahren, Ward Methode

  • Interpretation
  • Visualisierung

Grafiken, Dendrogramme  

 

Zeitreihenanalysen mit R

Für die Analyse von Zeitreihendaten stehen eine Reihe spezieller Analyseverfahren zur Verfügung. So lassen sich beispielsweise Zeitreihendaten in die Zukunft fortschreiben und die Konsequenzen unterschiedlicher Zukunfts-Szenarien schätzen. Weitere Anwendungsfälle sind die Berechnung der Wahrscheinlichkeit, dass ein Ereignis (z.B. der Ausfall eines Bauteils, die Bestellung eines Produkts etc.) in einer gegebenen Zeitspanne eintritt oder die Extraktion saisonaler Effekte in einem Prognosemodell. Neben den unten aufgeführten Aspekten werden im Kurs die Besonderheiten von Zeitreihendaten in klassischen Analysekontexten thematisiert.

 

  • Einführung in Zeitreihenverfahren

Grundlagen, Saisonalität, Erstellen von Zeitreihenobjekten

  • Visualisieren von Zeitreihen
  • Dekomposition

Trend-, Saisonal- und Zufallseffekte; Berechnung saisonbereinigter Werte

  • Testverfahren

Stationarität und Autokorrelation

  • Exponentielles Glätten

Modellierung nach Holt-Winters, ETS und STL

  • ARIMA Modelle

Herstellen von Stationarität über Differenzierung; Festlegung der AR- und MA-Terme; Modellerstellung

  • Forecasting

Saisonale und nicht-saisonale Modelle; Ausreißerbehandlung

  • Einführung in die Eventhistory-Analyse

Grundlagen, Erstellung von Survival Objekten

  • Kaplan Meier Modell

Kumulativie Hazardkurven; Log-Rank Test

  • Cox-Regression

Modellerstellung; Modellprüfung; Interpretation der Koeffizienten

 

 

Grafikerstellung mit R

R bietet umfangreiche Möglichkeiten zur Erzeugung publikationsreifer Grafiken zur ansprechenden Visualisierung der Ergebnisse von Analysen.

Neben den Standardgrafiken von R werden in diesem Kurs auch spezielle Grafikpakete wie ggplot2, grid etc. und deren „Grammatik“ behandelt. Es wird umfangreich auf die vielen Einstellungsmöglichkeiten und Grafikoptionen eingegangen, so dass die Kursteilnehmer in der Lage sein werden individualisierte Grafiken zu erstellen.

Daneben werden die Exportmöglichkeiten (Devices) erläutert und es wird gezeigt, wie Sie Geodaten mit Hilfe von R visualisieren können.

  • Grafik Pakete

base, grid, ggplot2, lattice, plot

  • ggplot

Data, Mapping

  • High-Level Grafik Elemente

Balkendiagramm, Punktdiagramm, Tortendiagramm, Mosaikdiagramm, Histogramme, Dichtediagramme, Scatterplots

  • Low-Level Grafik Elemente

Pfeile, Achsen, Legenden, Gitter, Überschriften

  • Layer Komponenten

Geoms, Stats, Coord, Facet, Opts

Interaktive Grafiken mit R

Interaktive Grafiken sind ein flexibler und effizienter Weg um Daten zu analysieren und um Analyseergebnisse zu präsentieren. Interaktive grafische Anwendungen bieten Abfragen, Selektionen, Highlighting oder die Modifikation von Grafikparametern. Im Umfeld von R gibt es verschiedene Konzepte, die die Erstellung von interaktiven Grafiken und Anwendungen direkt aus R heraus möglich machen. Erwähnt seien hier IPlots, googleVis oder shiny, mit dem sich R-Analysen einfach in Web-Applikationen umsetzen lassen (siehe eoda shiny App). Der Kurs gibt einen ersten Überblick über die Erstellung interaktiver Grafiken mit R und liefert das Rüstzeug, um selbst interaktive Visualisierungen in R zu realisieren.

 

Text Mining mit R

Als Disziplin des Data Mining umfasst Text Mining Algorithmus basierte Analyseverfahren zur Entdeckung von Strukturen und Informationen aus Texten mit statistischen und linguistischen Mitteln. Ein Anwendungsfeld ist beispielsweise das Web Mining, wodurch sich Trends und Kundenbedürfnisse auf Webseiten und Social Media Plattformen ermitteln lassen. Text Mining wird auch eingesetzt, um Preisentwicklungen oder Börsenkurse anhand der Nachrichtenlage zu prognostizieren.

Der Kurs konzentriert sich auf die Anwendung der Pakete tm, RTextTools und OpenNLP und behandelt die folgenden Aspekte:

  • Überblick über Text Mining

 

  • Einlesen von unstrukturierten Daten, Web Scraping

 

  • Strukturieren der Texte  (Pruning, Tokenisierung, Sentence Splitting, Stoppwortliste, Normalisierung, Stemming,    Lemmatisierer,N-Gramme)

 

  • Einfache Inhaltsanalysen und Assoziationsanalysen

 

  • Klassifikation von Dokumenten mit unterschiedlichen Verfahren (Support Vector Machines, Generalized Linear Model, Maximum Entropy, Supervised latent Dirichlet allocation, Boosting, Bootstrap aggregating, Random Forrests, Neural Networks, Regression Tree)
Angewandte Statistik im Qualitätsmanagement mit R

Statistische Kontrollen im Wareneingang, in Produktion und im Warenausgang generieren die maßgeblichen Kennziffern, um die Güte von Waren und Produkten beurteilen zu können. Die Voraussetzungen um Qualitätskontrollen zielführend systematisch durchzuführen, sind sowohl methodische Kenntnisse der Statistik, als auch die richtige Software zur Umsetzung. Die freie Statistiksprache R stellt hier eine interessante Alternative dar.

 

Der Kurs vermittelt die Grundlagen im Umgang mit der Statistiksoftware R, mit der die im Anschluss besprochenen statistischen Prozesse umgesetzt werden. Die Konzepte des statistischen Testens werden zunächst theoretisch eingeleitet, bevor Sie in R praktischen Bezug finden. Weiterhin werden die AQL-Normwerttabellierungen nach ISO  2859 und DIN ISO 3951 behandelt, deren Funktionsprinzip vorgestellt und die Anwendung anhand von praxisnahen Beispielen durchgeführt wird. Bei der Anwendung der Verfahren in R werden die wichtigsten Funktionen im Bereich des statistischen Testens und der Prüfplanentwicklung vorgestellt. Wesentliche Inhalte beziehen sich auf die klassische Inferenzstatistik: 

  • Wie lässt sich eine optimale Stichprobengröße ermitteln? 

  • Wie lässt sich die Entscheidung für ein bestimmtes Testverfahren treffen? 

  • Wie lassen sich die Kennziffern meiner Tests interpretieren? 

  • Welche Sicherheit gibt mir das Ergebnis der Stichprobe? 

  • Lassen sich Lieferanten- und Kundenrisiko vereinbaren? 

  • Was sind zulässige Abweichungen? 

  •  

Nach Abschluss des Kurses sollten die Teilnehmer in der Lage sein, Prüfpläne zu entwickeln und diese mit der Software R statistisch auszuwerten. 

 

Programmieren mit R I

R bietet alle Vorteile einer höheren Programmiersprache. Durch die Verbindung von Statistik- und Grafikfunktionen mit Programmierelementen können regelmäßig wiederkehrende Skripteile elegant und effizient automatisiert werden. Auf unserer Results as a Service Plattform zeigen wir, wie sich R beispielsweise in eine Web-Anwendung integrieren läst.

 

Die Verwendung von Programmierelementen wird anhand von praxisnahen Beispielen erlernt. Ziel des Kurses ist es, die Teilnehmer in die Lage zu versetzen, das Gelernte selbständig auf ihre jeweiligen Anwendungszwecke zugeschnitten anzuwenden.

Folgende Aspekte werden im Kurs behandelt:

  • Einstieg
  • Steuerungselemente

       if, if{} else{}, break, next, stop

  • Vektorwertiges Programmieren
  • Schleifen

Indizieren, Abbrechen, Wiederholen

  • Funktionen definieren

        Definition, Argumente/Rückgabe, Environments/Scoping

  • Objektorientierte Programmierung

        Generische Funktionen, S3 Klassen, einfache Funktionen, attribute/class

  • Apply-Funktionen

lapply, sapply, tapply

  • Filesystem einbinden

         Devices, sink, Datenimport/Datenexport, Datenbankimport

Programmieren mit R II

Die Verbindung aus den umfassenden Statistik Bibliotheken und etablierten Programmierkonzepten macht R zu einer mächtigen Programmiersprache für alle Aufgaben im Umfeld von Data Mining, Predictive Analytics und vieles mehr.

In diesem weiterführenden Programmierkurs werden die Programmierkenntnisse in R vertieft und erweitert. Der Kurs vermittelt den Teilnehmern die Inhalte, um schneller reproduzierbare und hochwertige Scripte zu erstellen.

Während des Kurses werden die folgenden Themen behandelt:

  • Metaprogrammierung

           Expression, calling, evaluation, parsing

  • Exceptions / Error Handling

           try-catch, debug, browser, traceback

  • Performance Optimierung

           profiling, Speichermanagement, data.table, Parallelisierung (ff, foreach, plyr)

  • Verschiedene Klassensysteme in R

           S3 Klassen, S4 Klassen, Reference Class

  • Pakete erstellen

           Filesystem, Dokumentation, testing, Namespace

           

Big Data mit R

Vielfältige Initiativen haben verschiedene Konzepte zum Umgang mit großen Datenmengen in R hervorgebracht. Unter anderem wurden verschiedene Parser und Pakete entwickelt, die den Umgang mit Big Data in R vereinfachen. Der Kurs gibt einen einführenden Überblick über folgende Aspekte:

 

  • Verbindungen zu Datenquellen wie Datenbanken oder File Systemen wie Hadoop,
  • Anbindung an Cloud Umgebungen wie WindowsAzure oder Amazon Web Services,
  • Chunking – Aufteilen der Daten in Teilbereiche,
  • Parallelisierung von Jobs zur Berechnung,
  • Überblick über die verschiedenen Konzepte der verschiedenen Parser (Revolution Analytics, Oracle R Enterprise, Renjin, …)
  • Visualisierung von Big Data.

 

Hadoop mit R

Daten in verteilten Systeme wie Hadoop-Clustern erfordern im Vergleich zu nicht verteilt vorliegenden Daten andere Verfahren zur Analyse der Daten als MapReduce. Das Prinzip von MapReduce besteht darin, ein Problem in kleine Aufgaben einzuteilen, die dann auf einem kleinen Teil der Daten gelöst werden. Ein typisches Einsatzszenario für Daten, die in einem Hadoop-System gespeichert sind, ist das Auszählen von Wörtern in Textdateien. Während bei herkömmlichen Techniken die gesamte Textmenge en bloc zeitaufwendig durchgearbeitet wird, zerlegt man mit MapReduce die Texte auf den einzelnen Knoten in kleine Blöcke. Mit dem Reduce-Teil werden dann die Ergebnisse wieder zusammengefasst. Auf diese Art lassen sich auch komplexere Such-, Vergleichs- und Analyseoperationen parallelisieren und dadurch schneller berechnen. Der Kurs vermittelt die Entwicklung von Skripten für MapReduce Jobs an konkreten Beispielen.

 

Reproducible Research

Bei der Analyse statistischer Daten entstehen Berichte mit verschiedensten Elementen wie Text, Daten, Formeln, Tabellen und Grafiken. Durch Schnittstellen zwischen R und Latex/html können die verschiedenen Inhalte aus R heraus zusammengebracht und publikationsreif ausgegeben werden. Zudem ermöglicht es R, die Berichte dynamisch an neue Daten anpassen. Bei der unter dem Begriff Reproducible Research bekannten Methode werden die Berichtselemente aktualisiert, ohne manuelle Anpassungen vorzunehmen. Nach dem Kurs sollen die Teilnehmer in der Lage sein, individuelle und automatisierte Reports zu erstellen.

Inhalte des Kurses:

  • Die Benutzeroberfläche R-Studio
  • Die Pakete „Sweave“ und „knitR“
  • Kurzeinführungen in Latex, Markdown und HTML
  • Formatieren der R-Ausgaben mit Chunk-Optionen
  • Anfertigen von statischen Reportvorlagen in verschiedenen Ausgabeformaten wie pdf und html
  • Dynamische Berichte und automatisierte Anpassungen

Anhand von theoretischen Einführungen, konkreten Fällen und praktischen Übungen werden die beschriebenen Inhalte verständlich vermittelt. 

 


Unterkunft und Anreise

Adresse:
Ludwig-Erhard-Str. 8
34131 Kassel

Gerne unterstützen wir Sie auf der Suche nach Unterkünften. Einen Ausschnitt aus der Hotellandschaft in Kassel haben wir Ihnen hier zusammengestellt.

 


© eoda 2014