rstudio::global 2021 – Rückblick auf 24 Stunden rund um Data Science und R

Mit mehr als 17.000 Teilnehmern, 50 Speakern, zahlreichen Talks und interessanten Insights: Das war die rstudio::global 2021. Wir blicken für Sie auf das Event zurück. Wir haben die rstudio::global für Sie verfolgt und geben Ihnen Einblicke in eine Auswahl der für uns spannendsten Talks.

1. Your R is My R too: Reflections on creating the Mi-R community (Speaker: Danielle Smalls-Perkins)

Die weltweite R-Community hat bei der Beteiligung von weiblichen Nutzern aus ethnischen Minderheiten Fortschritte gemacht. Diese Entwicklung soll weiter vorangetrieben werden. Vor diesem Hintergrund wurde vor sechs Monaten eine ganz besondere Community gegründet: Mi-R (Minority R). In diesem Talk wurden die Herausforderungen und Highlights der ersten sechs Monate seit der Gründung von Mi-R reflektiert und die Zukunftspläne aufgezeigt. Wir finden diese Initiative großartig!

2. Reporting on and visualizing the pandemic (Speaker: John Burn-Murdoch)

John Burn-Murdoch ist Journalist im Bereich Data Visualization bei der Financial Times und Creater des Coronavius Trajectory Tracker Charts. Laut Burn-Murdoch müssen Visualisierungen klarer, leichter und schneller zugänglich sein. Um dies umsetzen zu können, müsse man sich diese Frage von Beginn an stellen. Außerdem sollte man „vorsichtig“ sein, wenn man Datenvisualisierungen für die „breite Masse“ produziert, da man schnell auf Fallstricke stoßen kann. Außerdem können selbst einfache Anpassungen in der Darstellung schon zu einem komplett verschiedenen Meinungsbild führen.

Er bezieht sich auf eine wissenschaftliche Untersuchung zur Erfassung von Visualisierungen. Dabei sagt er, dass Titel/Überschriften viel Aufmerksamkeit auf sich ziehen und dadurch eine hohe Bedeutung haben. So ist beispielswiese eine großartige Grafik wenig Wert, wenn Titel/Beschreibung nicht passen. Außerdem erwähnt er, wie wichtig das Feedback der Leute ist, um die eigenen Skills zu verbessern und noch mehr Leute zu erreichen.

Außerdem geht Burn-Murdoch auf die Entstehungsgeschichte und die Gestaltung des Corona Trajectory Trackers ein, insbesondere auf die Veränderungen an der Grafik in der Entstehung im Hinblick auf große Anzahl an nicht fachkundigen Empfängern (Einfügen von aktivierenden Titel, mehr Beschreibungen/Text). Auf der rechten Seite werden einige Tipps für eine gute Grafikerstellung gegeben.

Es ist wichtig sich bewusst zu machen, was die Takeaways der Rezipienten sind. Dabei sollte sich die Frage gestellt werden welche inhaltlichen Fragen die Grafik für sie beantworten soll anstatt wie die Visualisierung gestaltet ist. Konkret geht er zum Beispiel auf Log Scale ein (Logarithmische Darstellung), die viele Empfänger verwirren kann.

Er unterscheidet zwischen zwei Lagern: Menschen, die sich die Grafiken/Visualisierungen analytisch anschauen und andere, die sie in erster Linie als Signal sehen, ob die Lage gut oder schlecht ist. Dabei sieht er das Risiko, Menschen mit zu wissenschaftlicher Herangehensweise (Terminologie, Methodik) abzuschrecken.

Außerdem geht er auf die Rolle von Animationen bei der Visualisierung von Daten ein –Interaktive Visualisierungen gewinnen in Wissenschaft und Unternehmenspraxis zunehmend an Bedeutung und können eine viel stärkere Reaktion beim Empfänger auslösen.

Fazit: Spannendes und relevantes Thema, Burn-Murdoch hat durch die Popularität seiner Grafiken einen sehr großen Erfahrungsschatz sammeln können und somit ist seine Kernmessage: Fokus auf die Verständlichkeit und die Botschaft der Visualisierung statt auf die Methodik!

Fünf Praxistipps für anschauliche Data Science Visualisierungen finden sie hier.

3. Fairness and Data Science: Failures, Factors and Futures (Speaker: Grant Fleming)

In diesem Talk berichtet Fleming darüber, wie schnell sich Statistiken, durch Einflussfaktoren, die vielleicht nicht direkt sichtbar sind, beeinflussen lassen – und dass, obwohl man seine Arbeit nach bestem Gewissen verrichtet hat. Anhand von Kriminalitätsraten, die unterschwellig eine rassistische Komponente angenommen haben, erklärt der Speaker die Stichprobenverzerrung, obwohl die durchgeführten Datenanalysen richtig waren.

Der Fokus bei diesem Talk lag darauf, dass solche Datenanalysen immer mit unterschiedlichen Blickwinkeln betrachtet werden sollte. Außerdem sollten Modelle nochmal mit anderen Faktoren gegengerechnet werden, um ungewollte Klassifizierungen ausschließen zu können. Dieser Talk hat gezeigt, dass sich Fehler in die Modelle einschleichen. Werden diese dann in der realen Welt trotz der Fehler eingesetzt, kommt es zu falschen Vorhersagen und beeinträchtigt schließlich die Menschen.

4. Bringing the Tidyverse to Python with Siuba (Speaker: Michael Chow)

In diesem Talk ging es um ein Python Package, welches in Richtung des tidyverse Package (R) geht. Tidyverse ist beim Thema Datenmanagement besonders beliebt ist, da es nutzerfreundlich und leicht lesbar ist. Das Python Package Siuba ermöglicht es, den R-Code bei dem ein dplyr-Code benutzt wurde, mehr oder weniger 1-zu-1 nach Python zu kopieren (nach minimalen Anpassungen). Die Idee ist es dabei, bspw. Codes zum Datenmangement erstmal in R zu schreiben, da es dort intuitiver ist und anschließend mit Siuba nach Python zu migrieren, weil es dort performanter läuft.

5. The dynamic duo: SQL & R (Speaker: Irene Steves)

Laut Steves gibt es einen Punkt in jeder Karriere eines Data Wranglers, an dem der gesamte Datensatz nicht mehr nur in CSV-Dateien passt und die Reise in die Datenbankwelt beginnt. Die Autorin gab in diesem Talk einen guten Überblick über die verschiedenen Möglichkeiten aus R heraus mit Datenbanken zu interagieren und erklärt wie sie R & SQL verwendet, um auf Datenbanktabellen zuzugreifen. Außerdem beleuchtet sie die Unterschiede zwischen direktem Datenbankzugriff und Hilfspaketen (z.B. dplyr) und zeigt die Funktionsweisen der einzelnen Pakete auf.

6. R & Python: Going Steady (Speaker: Sean Lopp)

Der Ingenieur, Data Scientist und Produktleiter Sean Lopp erzählt in diesem Talk, dass man mittels RStudio Server und RStudio Connect eine grundlegende Plattform hat, auf der man mit R und Python arbeiten kann. Unabhängig davon, ob Data Scientists mit R oder Python arbeiten, keine verschiedenen Systeme eingerichtet werden. Es wird schließlich ein System eingerichtet, auf dem alle gemeinsam arbeiten können. RStudio Produkte besitzen einige coole Features. Ein Beispiel hierfür ist z.B., dass man auf RStudio Server trotzdem mit verschiedenen IDEs arbeiten kann, d.h. neben RStudio bspw. auch mit JupyterLab oder Visual Studio. Mit RStudio Connect können nicht nur Shiny Apps, sondern auch mit Dash (Python) entwickelte Apps deployed werden. Außerdem bietet RStudio selbst immer mehr Komfort-Funktionalitäten für die Arbeit mit Python.

7. Maintaining the House the tidyverse built (Speaker: Hadley Wickham)

In diesem Talk ging es darum, wie sich Tidyverse seit seiner Entstehung entwickelt hat und wie diese Pakete weiterentwickelt werden können, ohne dabei den bestehenden Code zu gefährden. Dieses Vorgehen ist nicht einfach und kann als ein Akt der Balance gesehen werden. Um zu verstehen, wie die Funktionen in der Praxis genutzt werden schauen sich die Entwickler andere Pakete auf Cran an. Diese greifen wiederrum auf tidyverse zurück und durchsuchen Github nach Beispielen.

Als Full Service Certified Partner, sind wir der Ansprechpartner für RStudio Interessenten und Anwender im deutschsprachigen Raum. Beratung, Beschaffung, Integration, Training: Erfahren Sie mehr zu unserem Angebot rund um RStudio. Sprechen Sie uns an!