R ist eines der wichtigsten Werkzeuge im Daten Journalismus

Vergangenes Wochenende wurde, während der School of Data Jounalism des Internationalen Festivals für Journalismus, das Data Journalism Handbook vorgestellt. Datenjournalismus gewinnt vor allem in den USA oder dem Vereinigten Königreich immer stärker an Bedeutung. Im Gegensatz zum klassischen Journalismus, an dessen Anfang immer eine Geschichte steht (Story Driven Journalism), lässt der Datenjournalismus, Daten gewissermaßen die Geschichte erzählen.

Aus einer Idee während eines 48 stündigen Workshops, ist nun das Handbuch für Datenjournalisten entstanden. Ein kooperatives Werk verschiedener Journalisten, mit einer gemeinsamen Leidenschaft für Datenjournalismus. Zu den Autoren aus dem deutschsprachigen Raum gehören u. a. Sasha Venohr von Zeit Online (https://twitter.com/#!/venohr), Mirko Lorenz von der Deutschen Welle (http://twitter.com/#!/mirkolorenz) und Lorenz Matzat von OpenDataCity (http://twitter.com/#!/lorz).

Ein frühes Beispiel für Datenjournalismus ist die Pulitzer Preis prämierte Reportage über die 1967er Detroit Riots, von Philip Meyer. Den ursprünglichen Eindruck, dass die Aufständigen sich hauptsächlich aus ärmeren Menschen der untersten Bildungsschicht und Farbigen aus dem Süden der Vereinigten Staaten zusammensetzten, widerlegte Meyer durch eine Umfrage. Diese ergab, dass eine Beteiligung, an den Aufständen von College Absolventen, genauso wahrscheinlich war, wie die von Highschool Abbrechern, die Beteiligung von Menschen aus dem Süden galt sogar als weniger wahrscheinlich.
Während Philip Meyer seine Reportage nur mit sehr beschränkten Hilfsmitteln erstellen konnte, wird heute die Arbeit von Datenjournalisten durch den technischen Fortschritt erheblich erleichtert. Daten sind zunehmend öffentlich und immer leichter zugänglich. Hier bieten Datenportale wie DataMarket einen guten Einstieg. Die Analyse von großen Datensätzen ist für moderne PCs kein Problem mehr, und das Internet ist eine riesen Erleichterung für die Recherche von Daten oder Zusammenhängen.

Aktuelle Beispiele für gelungenen Datenjournalismus

Eine bedeutende Rolle spielt der Data Blog des Guardians. Dort finden sich zahlreiche interessante Beispiele für Datenjournalismus, aufbereitet in ansprechenden Grafiken. Die passenden Daten dazu werden zusätzlich über den eigenen DataStore zugänglich gemacht.

In Deutschland findet sich auf Zeit Online mit dem Data Blog ein Blog der sich dediziert mit Datenjournalismus und Open Data auseinandersetzt.
Hervorstechende Beispiele für Deutschen Datenjournalismus sind u.a. der Zugmonitor der Süddeutschen Zeitung, die Fluglärmkarte der Taz oder auch die Aufbereitung des Spiegels, der von Wikileaks veröffentlichten U.S. Depeschen.

Für ihren Zugmonitor, erfasst die Süddeutsche Zeitung den kompletten Deutschen Fernverkehr in Echtzeit und visualisiert diesen ansprechend auf einer Deutschland Karte, Verspätungen werden farblich hervorgehoben.

R und Datenjournalismus

Ein Kapitel des, frei zugänglichen Handbuchs für Datenjournalisten, fragt nach den favorisierten Tools der Journalisten. Die Hälfte der Journalisten nennt R als eines der favorisierten Werkzeuge zur Analyse von Daten. Gregor Aisch von der Open Knowledge Foundation (http://twitter.com/#!/driven_by_data) hält R für das leistungsfähigste Tool, vor allem zur Analyse großer Datensets. Im Gegensatz zu Tabellenkalkulationen erlaubt R eine Scriptorientierte Arbeitsweise, anhand derer sich Vorgänge schnell und einfach reproduzieren lassen.

R kann die Journalisten bei allen notwendigen Schritten unterstützen. Von Bezug der Daten, über verschiedenste Quellen, die eigentliche Auswertung bis hin zu einer ansprechenden Visualisierung. eoda zeigt hier am Beispiel der Daten des Zugmonitors wie man offene Daten für eigene Zwecke mit R nutzen kann. Zu den Möglichkeiten der Visualisierungen mit R finden sich in älteren Posts Beispiele. Außerdem bietet die R-Akademie Kurse zu den Visualisierungsmöglichkeiten mit R an.

Erfolgreich genutzt wird R von der Redaktion der NY-Times. Nur Stunden nach dem Tod von Michael Jackson, veröffentlichte die NY-Times diese Grafik. Hier wird die Performance von Jacksons Liedern in den Billboard Top 100 abgebildet. Nach Aussage von Amanda Cox, Grafik Editor der NY Times wurde diese Anwendung vollständig in R erstellt.

Hier erfahren Sie mehr zur Programmiersprache R.
Hier entlang.

Martin Schneider - Beitrag vom 02.05.2012

arbeitet seit 2012 als Senior Data Scientist bei der eoda GmbH in Kassel. Seine Haupttätigkeit liegt in Projekten zur Datenanalyse und im Wissenstransfer rund um das Thema Data Science.

Abonnieren Sie unseren Datenanalyse-Blog