Die useR! Conference 2016 in Stanford: Die Highlights vom zweiten Präsentationstag

Genau wie der erste Präsentationstag der useR! 2016, hatte auch der zweite Tag interessante Sessions mit Neuerungen für die R-Nutzer zu bieten.

Derek Damron: Empowering Business Users with Shiny

Derek Damron von Allstate Ensures berichtete, wie in seinem Unternehmen Business User mit Shiny in die Lage versetzt werden, Analysen selbständig durchzuführen. Folgende Gründe hat er für die Einführung von Shiny angeführt:

Unterstützung beim Entscheidungsfindungsprozess
Verbesserung der Beziehung zwischen Data Science und Business-User
Erhöhung der Transparenz
Einführung von Feedbackschleifen

Jan-Philipp Kolb: Tie-ins between R and OpenStreetMap data

Jan-Philipp Kolb, wissenschaftlicher Mitarbeiter am GESIS Leibzniz-Institut für Sozialwissenschaften in Mannheim, hat in seinem Vortrag gezeigt, wie sich Geodaten von OpenStreetMap (OSM) in R integrieren lassen. Sowohl für OSM als auch für google existieren APIs. Kolb hat das Paket „osmar“ verwendet, um die Daten von OSM zu beziehen und das Paket „tmap“ zur Visualisierung der Geodaten eingesetzt. Beide Pakete liegen auf CRAN vor.

Steven Elliot Pav: Madness – multivariate automatic differentiation in R

Steven Elliot Pav von Gilgamath Consulting hat in seinem Lightning Talk das von ihm entwickelte „madness“ Paket vorgestellt. Madness steht für „Mulitvariate automatic differentiation“.

Allan Miller: rempreq – An R package for Estimating the Employment Impact of U.S. Domestic Industry Production and Imports

Allan Millers Vortrag widmete sich der Frage, welchen Effekt Outsourcing und Automatisierung für die Arbeitsplatzentwicklung haben. Um die Effekte adäquat beziffern zu können, müssen sowohl die direkte als auch die indirekte Beschäftigung berücksichtigt werden. Miller hat dafür ein Paket namens „rempreq“ entwickelt, mit dem sich die Beschäftigungsdaten für die USA von den Webseiten des U.S. Bureau of Labor Statistics beziehen lassen, um auf dieser Basis evidenzbasierte Aussagen treffen zu können. Als erstes Ergebnis konnte Miller zeigen, dass die Automatisierung größeren Einfluss auf die Beschäftigung zu haben scheint als Outsourcing.

Giuseppe Bruno: Text Mining and Sentiment Extraction in Central Bank Documents

Giuseppe Bruno von der Bank of Italy hat berichtet, wie die Bank Text Mining Verfahren einsetzt. In den Analysen findet das Zipfsche Gesetz (die Häufigkeit eines Begriffs in einem Text spiegelt seine Relevanz wieder) und das Heaps Gesetz (auch als Herdans Gesetz bekannt: Das Verhältnis von Textlänge und Umfang des Vokabulars) Anwendung. Es ist der Bank of Italy gelungen mit Hilfe von R Sentimentanalysen durchzuführen und die Polarität der Dokumente zu extrahieren. Leider war die Zeit des Vortrags zu kurz, um auf die Details der Analyse einzugehen.

Mario Deng: FirebrowseR an ‚API‘ Client for Broads ‚Firehose‘ Pipeline

Mario Deng vom Universitätsklinikum Schleswig Holstein hat in seinem Vortrag vorgestellt wie er einen Workflow mittels der Pipeline aus cron.job.org, github und travis-ci umsetzt. Mit cron.job.org überprüft Deng regelmäßig eine Datenwebpage (in seinem Fall firebrowse.org) auf Updates. Liegt ein Update vor, wird dieses automatisch in den Development-Branch von Git gespielt. Mit travis-ci werden dann automatisierte Tests durchgeführt, die Deng vorher definiert hat. Sind die Tests bestanden, wird der Live Branch geupdatet. Bestehen die Änderungen den Test nicht, erhält Deng eine Benachrichtigung, dass eine manuelle Überprüfung vollzogen werden muss.

Edwin de Jonge: Chunked, dplyr for large text files

Edwin de Jonge von Statistikamt der Niederlande (CBS) hat in seiner Präsentation das Paket „chunked“ vorgestellt. chunked bietet Funktionen analog zu dplyr an – jedoch bezogen auf Textdaten. Das Besondere daran ist, dass die dplyr Befehle (select, filter, etc.) chunkweise angewendet werden, so dass sich viele Preprocessing-Aufgaben für das Textmining auch auf Textdokumente anwenden lassen, die größer als der verfügbare RAM sind. Lediglich summierende und aggregierende dplyr Funktionen (goup_by, arrange, etc.) können nicht verwendet werden, weil sie sich nur sinnvoll auf den gesamten Datensatz, nicht aber auf Chunks anwenden lassen. Mit den Funktionen „read_chunkwise“ und „write_chunkwise“ können die Dokumente gelesen und geschrieben werden.

Stephen R. Piccolo: Performance Above Random Expectation: A more intuitive and versatile metric for evaluating probabilistic classifiers

Stephen R. Piccolo, Assistant Professor an der Brigham Young University hat sein Paket PARE (Performance Above Random Expectation) vorgestellt. PARE kann bei dichotomen Klassifikationsproblemen im Machine Learning als Alternative zu AUC (Area under the Curve) und ROC (Receiver Operator Curve) verwendet werden. AUC ist das Maß zur Schätzung der Modellgüte. Die ROC Kurve hilft dabei einen guten Cut-Off Wert zu finden, d.h. einen Wahrscheinlichkeitswert, der die dichotomen Klassen auftrennt. Intuitiv würde man dazu 50% nehmen, in der Praxis ist es jedoch oft günstiger einen anderen Cut-Off Wert zu wählen. PARE ist wie ROC ein graphisches Verfahren.

Zhe Sha: Maximum Monte Carlo likelihood estimation of conditional auto-regression models

Zhe Sha von der University of Oxford hat eine Methode zur Approximierung der Likelihood von Conditional Auto Regression Modellen (CAR) vorgestellt. Die genaue Berechnung der Likelihood ist bei solchen Modellen auch bei mittelgroßen Datensätzen sehr rechenaufwendig. Mit ihrer auf Monte-Carlo Verfahren basierenden Schätzmethode konnte sie gute Annährungen bei akzeptabler Rechenzeit erzielen.

Dirk Duellmann: Adding R, Jupyter and Spark to the toolset for understanding the complex computing systems at CERN’s Large Hadron Collider

Dirk Duellmann hat in seiner Präsentation gezeigt, wie am CERN (Europäische Organisation für Kernforschung) die Daten des Large Hadron Collider (LHC) mit einer Kombination aus R, Hadoop, Spark und Julia analysiert wird. Der LHC produziert Big Data wie sie größer kaum sein könnten. 150 Millionen Sensoren nehmen pro Sekunde jeweils 40 Millionen Datenpunkte auf, so dass pro Sekunde ein Petabyte Daten entsteht.

Die Daten müssen einer Community von Physikern zur Verfügung gestellt werden, die die Ergebnisse der Versuche analysieren.
Das CERN selbst hat dazu ein Rechenzentrum eingerichtet, das beeindruckende Ausmaße hat:

• 16.000 Server
• 186.000 Cores
• 244 Petabyte Festplatten
• 755 TB RAM

Mit dieser Infrastruktur können jedoch nur 20%-30% der gesamten Datenmenge verarbeitet werden. R wird am CERN nicht nur für die Analyse der Daten, sondern auch für die Optimierung der Infrastruktur verwendet.

Benno Süselbeck: How to do one’s taxes with R

Der Vortrag von Benno Süselbeck von der Universität Münster hat sich die standardisierte Datenverschlüsselung in R zum Thema gesetzt. Klassische Anwendungsfälle, in denen der verschlüsselte Datentransfer erfolgreich umgesetzt wird, finden sich bei der elektronischen Steuererklärung mit ELSTER oder dem Datenaustausch mit der Sozialversicherung.

Für R ergeben sich folgende Anwendungsszenarien:

• Verteilte Systeme (distributed computing)
• Datenaustausch in der Cloud
• Sicherstellung der Authentizität von Daten und Modellen

Die Ver- und Entschlüsselung selbst erfolgt über externe Software (z.B. OpenSSL), die mit Hilfe von R-Paketen eingebunden werden.

Paul H. Schuette: Using R in a regulatory environment: FDA experiences

Paul H. Schuette von der FDA (Federal Drug Administration) hat mit dem Gerücht aufgeräumt, dass in Studien, die für die Zulassung von Arzneimitteln eingereicht werden, SAS verwendet werden müsse. Tatsächlich macht die FDA keine Vorgaben zur verwendeten Software. Es ist lediglich vorgegeben, dass die Studien reproduzierbar, wiederholbar, robust, objektiv und valide sein müssen. Diese Anforderungen lassen sich jedoch mindestens genauso gut in R realisieren. Tatsächlich verwenden laut Schuette viele Unternehmen, die eine Genehmigung der FDA benötigen, R zur Analyse.

Alle Beiträge zur useR!2016 als kompaktes Paper zum kostenlosen Download finden Sie hier.

Hier entlang.