eoda auf der useR! Conference 2015 in Aalborg: Die Highlights vom ersten Präsentationstag – Teil 2

Nach dem ersten Teil der Highlights vom Mittwoch, folgt hier der zweite Teil mit einem Überblick über die weiteren Themen und Inhalte der Sessions vom ersten Präsentationstag der useR! 2015.

Computational Performance

Der aus unserer Sicht interessanteste Vortrag der Performance Session kam von Helena Kotthaus von der TU Dortmund. In ihrem Vortrag hat sie das Projekt TraceR vorgestellt, ein Tool zur Performancemessung. Im Unterschied zu anderen Ansätzen ist die Performance Messung hier direkt in den R Interpreter implementiert, was zu präziseren Messergebnissen führt.

In ihrem Vortrag hat sich Kotthaus auf die Messung der Performance von parallelisierten Prozessen konzentriert, einem zunehmend relevanten Problem bei der Erstellung von performantem R Code.

TraceR bietet eine visuelle Ausgabe der Ergebnisse. Die Laufzeit der einzelnen Prozesse, der CPU Verwendung pro Prozess, sowie die Auslastung des RAM werden übersichtlich dargestellt. So lässt sich leicht erkennen, ob eine Veränderung in der Anzahl der Prozesse zu einer verbesserten Performance führt. Die Performanceverbesserung steigt nicht zwingend linear, sondern erreicht an einem bestimmten Punkten – je nach Hardware Setting und Problemstellung – ein Optimum. TraceR kann dabei helfen dieses zu finden.

Business

Anders als der Titel „Statistical Consulting using R: a DRY approach from the Australian outback“ vermuten ließ, hat Peter Baker mit einem erfrischenden Vortrag die Business Session eröffnet. Seine erste These lautete: Egal was der Kunde in einem ersten Gespräch über das zu lösende Problem sagt: Es kommt immer anders.

Sein DRY (Don‘t Repeat Yourself) Ansatz läuft darauf hinaus, wiederkehrende Prozesse zu standardisieren und zu automatisieren. Hierzu hat Baker ein R Paket namens dryworkflow (derzeit nur über GitHub verfügbar) entwickelt, dass einige Standardaufgaben übernimmt: Hierzu gehören unter anderem das Anlegen einer Ordnerstruktur und eines git repositories inklusive erstem Commit. dryworkflow bietet damit eine Alternative zum ProjectTemplate Paket, das einen ähnlichen Funktionsumfang abdeckt.

Stefan Milton Bache vom Energiehandelsunternehmen Danske Commodities hat in seinem Vortrag gezeigt, wie man mit kleinen Maßnahmen die Akzeptanz von R unter wenig erfahrenen Usern erhöhen kann.

Ein weiter best practice Ansatz bezieht sich auf das Verhältnis von Paketen und den darin enthaltenen Funktionen. Häufig ist es ist schwer zu erkennen, welche Funktion aus welchem Paket stammt. Das import Paket von Bache ermöglicht es, bestimmte Funktionen eines Pakets explizit zu laden, wodurch einerseits die Transparenz erhöht und andererseits Namenskonflikt vermieden werden können.

Giuseppe Bruno von der Bank of Italy hatte Risk Managment mit R zum Thema. Bruno zeigte, wie die Bank of Italy den Wert von credit default swaps mit Hilfe von Monte Carlo Simulationen ermittelt. Der inhaltlich komplexe Ansatz, der auch Pools von credit default swaps mit unterschiedlichen Ausfallrisiken umfasst, konnte mit R effizient und transparent umgesetzt werden.

Im letzten Vortrag der Session hat Jim Porzak vorgeführt, wie er mit dem flexclust Paket Kundensegmentierungen umgesetzt hat. Besonders interessant ist sein Ansatz, die Stabilitätsprüfung der Clusterlösung mit der Auswahl der optimalen Clusteranzahl graphisch orientiert zu kombinieren.

Kaleidoscope 2

Die zweite Kaleidoscope Session hat begonnen mit einem Vortrag zu archivist. archivist ist ein Repository für R Objekte.

In Joseph B. Rickerts Vortrag über useR Groups, ging es nicht nur um die wachsende Anzahl an useR Group Aktivitäten rund um die Welt, sondern auch um die Bedeutung des neu gegründeten R Konsortiums. Rickert sieht es als eine der Hauptaufgaben des Konsortiums an, das Wachstum der Community weiter zu fördern. Im anschließenden Publikumsgespräch wurde die Bedeutung der Plattform meetup.com für die Verwaltung der useR Groups diskutiert und ob es nicht auch ein mögliches Projekt des R Konsortiums sein könnte, eine eigene zentrale Plattform für die Organisation von Terminen und das Bereitstellen von Folien und Code anzubieten. Ein interessanter Einwand pro meetup.com als Plattform kam von einem der Organisatoren der Berliner useR Group, nämlich das useR Group Aktivitäten auf meetup.com auch für nicht R-User sichtbar sind und so potentielle Quereinsteiger gefunden werden können. Eine Erfahrung die auch die von eoda initiierte Kasseler useR! Group schon des Öfteren gemacht hat.

Rasmus Bååth zeigte in seinem Vortrag „Tiny Data, Approximate Bayesian Computation and the Socks of Karl Broman“, das es nicht immer Big Data sein muss, sondern auch Tiny Data interessante Probleme bieten kann.

Ein Fall von Tiny Data: Gezeigt im Tweet von Karl Broman
Der Tweet von Karl Broman: Ein Fall von Tiny Data

Ausgelöst von einem Tweet von Karl Broman, hat es sich Rasmus Bååth zum Ziel gesetzt, mit Hilfe von Approximate Bayesian Computation, die Anzahl der Socken in der Waschmaschine zu bestimmen. Dabei verfehlte Bååth die tatsächliche Anzahl an Socken lediglich um eine.

Eine ausführliche Vorgehensweise hat Bååth auf seinem Blog gepostet.

Kaleidoscope 3

Tobias Verbeke von OpenAnalytics hat in seinem Vortrag die Neuigkeiten ihrer integrierten Entwicklungsumgebung Architect vorgestellt. Architect baut auf dem Eclipse Framework auf und kommt in einer vordefinierten Konfiguration, die ganz auf die Anwendung von R zugeschnitten ist. Neben dem interessanten Feature des bedingten Debuggens, lag der Fokus der Präsentation auf der Möglichkeit in Architect neben R weitere Sprachen wie z.B. Python oder C++ zu benutzen. Architect bleibt damit weiterhin eine der interessantesten Alternativen zu RStudio.

Ein interessanter Beitrag kam von Lukas Stadler aus dem Research Department von Oracle. Er demonstrierte die beeindruckende Geschwindigkeit des von Oracle entwickelten R Interpreter fastr. fastr setzt auf die Oracle Entwicklungen Graal und Truffle auf. In seiner Vorführung wechselte Stadler im gleichen Interpreter ohne großen Aufwand zwischen der Ausführung von R, Javascript und C++ Code.

Die Schwierigkeiten und Herausforderungen, die die Entwicklung von R-Applikationen im Enterprise Kontext mit sich bringt wurden von Friedrich Schuster anschaulich dargestellt. Ein Bespiel hierfür ist der Pipe Operator (%>%) aus dem magrittr Paket. Dieser hilft es R Code verständlich zu halten, was insbesondere für Anfänger und Gelegenheitsuser nützlich ist.

Lightning Talks

Üblicherweise umfasst eine Session auf der useR! Conference vier bis fünf Vorträge, die im Schnitt jeweils 15-20 Minuten lang sind. Anders ist es in der Session „Ligthning Talks“, wo es, wie der Name schon erahnen lässt, wesentlich rasanter zugeht: Hier hat jeder Speaker insgesamt nur fünf Minuten. Innerhalb dieser Frist gilt es 15 Präsentationsfolien zu präsentieren, wobei jede Folie für exakt 20 Sekunden angezeigt wird, bevor es automatisch zur nächsten geht.

Besonders gut hat uns die hohe thematische Bandbreite gefallen, die die insgesamt vierzehn Kurzvorträge abgedeckt haben. Um nur einige zu nennen:

  • Dirk Eddelbuettel hat das Paket drat zur Verwaltung eigener Repositories vorgestellt.
  • Adolfo Alvarez gab einen gut strukturierten Überblick über den Umgang mit Big Data in R.
  • Richard Layton hat sich in seinem Beitrag der Frage gewidmet, wie wir als Lehrende das Thema Datenvisualisierung vermitteln sollten und sich dafür ausgesprochen´ die Datenvisualisierung, neben den technischen Aspekten, auch als Kommunikationsform aufzugreifen.
  • Michael Höhle hat gezeigt, warum das Paket surveillence für all jene interessant ist, die den Ausbruch und Verlauf der nächsten Zombie-Apokalypse (oder einer anderen Epidemie) untersuchen möchten.

Trotz der Kürze der einzelnen Beiträge konnten die R-User viele wichtige Impulse mitnehmen.


eoda GmbH - Beitrag vom 03.07.2015

Als Data Science Spezialisten sind wir Ihr Ansprechpartner im Umfeld von Big Data, Machine Learning und Künstlicher Intelligenz. Wir unterstützen Sie ganzheitlich – von der Identifikation des richtigen Anwendungsfalls über die Datenanalyse und Interpretation der Ergebnisse bis hin zur Implementierung der entwickelten Lösung in Ihr Produktivsystem.

Abonnieren Sie unseren Datenanalyse-Blog