Datenberge sind ein Rohstoff: Regierungen, Unternehmen und NGOs sitzen auf Unmengen von Daten und könnten diese zu Open Data machen. Die Journalismusform, die mit diesen Datensätzen arbeitet, nennt sich Datenjournalismus.
Das Datensätze einen Rohstoff darstellen ist mittlerweile zu einem geflügelten Wort geworden: “Daten sind das neue Öl”. So hatte es 2006 der Werbefachmann Michael Palmer formuliert. Unbearbeitet seien Daten wertlos. Sobald Datensätze aber behandelt werden, würden sie zu digitalen Äquivalenten von Plastik, Chemikalien oder Gas.
Es gleicht einem kollektiven Geistesblitz in Zeitlupe, der derzeit im Netz zu beobachten ist: Daten, in Tabellen gepresst, häufen sich in Datenbanken und werden minütlich mehr. Sie gehen auf Reise durchs Internet, werden von Sensoren immer neu gemessen oder per Hand erhoben. Diese Datenberge sind ein Rohstoff. Und Regierungen, Unternehmen und Nichtregierungsorganisationen sitzen auf Unmengen von Daten und könnten diese zu Open Data machen. Die Journalismusform, die mit diesen Datensätzen hantiert, nennt sich Datenjournalismus
Im gleichen Jahr schrieb Adrian Holovaty, ein Journalist und Programmierer aus den USA, einen wegweisenden Text. “A fundamental way newspaper sites need to change”. Seiner Meinung nach sollten sich Zeitungen und andere Medien nicht nur auf Geschichten konzentrieren. Sondern ebenfalls Informationen unter dem Aspekt betrachten, wie ihr wesentlicher Gehalt in strukturierter Form, sprich in Datenbanken abzulegen ist. Dann, so Holovaty, lässt sich auf Dauer Mehrwert abschöpfen. Denn in diesen strukturierten Informationen lässt sich auch nach Jahren noch einfach recherieren; verknüpft mit anderen Datenbanken können publizistische Angebote damit angereichert werden.
Als Beispiel führt Holovaty Wohnungsbrände an: Würde ein Lokaljournalist beispielsweise dazu immer festhalten, welche Art von Brand es war, wieviel Verletzte und Tote es gab, wie lange die Feuerwehr bis zum Einsatzort gebraucht hatten, entstünde so nach und nach eine Datenbank, die viel über die Arbeit der Feuerwehr verraten könnte. So wie in Amsterdam die Feuerwehr einem Teil ihrer Daten mittlerweile selbst als Open Data Angebot zur Verfügung stellt.
Holovaty hat die Zeit Recht gegeben: data-driven-journalism oder Datenjournalismus hat seit 2009 eine steile Karriere hingelegt. Die britische Tageszeitung Guardian startete damals ein Datablog. Und die Redaktion war selbst überrascht auf welches Interesse die Bereitstellung von Datensätze rund um tagesaktuelle Geschehnisse stieß.
2009 war auch das Jahr, in dem in den USA der frisch vereidigte Präsident Barack Obama seine Open-Government-Direktive verkündete. Und damit der Open-Data-Bewegung enormen Schwung gab, die sie um die ganze Welt trug.
Definition: Ein neues Genre des Onlinejournalismus
Mit dem großen Datensatz der Warlogs aus Afghanistan, die Wikileaks zusammen mit einigen Medienpartnern im Sommer 2010 veröffentlichte, kam der Durchbruch für Datenjournalismus. Wie selten zuvor stand ein Datensatz im Mittelpunkt des medialen Interesses. Und vor allem wurde er den Lesern in den Online-Medien, wie im z.B. im Guardian, in mannigfaltiger Form zugänglich gemacht. Jenseits von Text, Bild, Ton und Bild entsteht so mit dem Datenjournalismus ein neues interaktives Erzählformat in Zusammenspiel mit Datenbanken.
Der englische Begriff “data-driven-journalism” bringt es besser auf den Punkt als das deutsche Wort Datenjournalismus. “Datengetriebener Journalismus” trifft es insofern exakter, als dass die Berichterstattung mit Unterstützung von Datensätzen geschieht; in der Regel im Internet per interaktiven Anwendungen, die auf Datenbanken zugreifen. Manchmal wird im Deutschen auch von “Datenbankjournalismus” gesprochen. Andere im Englischen gebräuchlichen und verwandete Begriffe lauten , “computational journalism”, “visual journalism” sowie ebenfalls “databank journalism” oder schlicht “datajournalism”.
Ein direkter Vorfahre des Datenjournalismus’ ist computer-assisted-reporting (CAR). Die computergestützte Recherche wird im englischsprachigen Raum seit den 60er Jahren praktiziert und auch an Journalismusschulen gelehrt. CAR sucht nach Auffällig- und Unregelmässigkeiten in großen Datensätzen, die als möglicher Anlass für eine tiefergehende Recherche dienen könnten.
Doch Datenjournalismus geht einen entscheidenden Schritt weiter: Er setzt auf Datensätze nicht nur als Recherchequelle, sondern macht die Daten zum zentralen Gegenstand der Geschichte und deren Präsentation. Dabei liegt er in der Schnittmenge von drei Bereichen: erstens visueller Journalismus oder Infografiken, zweitens multimediales und interaktives Storytelling und drittens investigativer Journalismus.
Datenjournalismus kann einen “Scoop” erzielen, einen Skandal aufdecken. Aber meist geht es um Hintergründiges: Die Aufbereitung und Darstellung komplexer Zusammenhänge, die in Schrift oder Tabellenform unüberschaubarer wären. Gelungener Datenjournalismus bietet dem Leser eine interaktiven Rechercheumgebung an, mit dem er sich ein eigenes Bild machen kann. Idealerweise stellt eine datenjournalistisches Werk auch noch die Rohdaten in maschinenlesbaren offenen Formaten an: So werden Zeitungen und andere Medien zu Agenten und Plattformen von Open Data.
Althergebracht: Vordigitaler Datenjournalismus
Datensätze sind seit jeher zentraler Bestandteil der Berichterstattung. Die purste Form sind reine Rohdaten, z.B. Lottozahlen. In allthergebrachtem Datenjournalismus, ob Börseninformationen oder Wetterkarten stecken schon viel Eigenschaften seiner modernen Form: Eine Unmenge von Daten, beispielsweise die zahlloser Wetterstationen, werden zusammengeführt, verrechnet und schließlich auf einer Karte visualisiert und somit verständlich aufbereitet.
Aber der wirkliche Vorreiter in Sachen Datenjournalismus ist in jüngster Zeit der Sport: Dass die Spielstände und Reihenfolge in der Liga uns in strukturierter Form als Tabelle präsentiert werden ist nichts Neues. Doch erfahren wir mittlerweile wie viele Meter ein Fußballer im Spiel gerannt ist und wie schnell er dabei im Durchschnitt war. Im Fernsehen gibt es als Beigabe Unmengen von zusätzlichen Informationen wie über die Zeit des Ballbesitzes oder den Aufenthalt in gegnerische Hälfte einer Mannschaft. Gemessen wir das zum Teil noch per Hand, aber auch schon durch automatische Erfassung per Kamera und Rechner.
Übrigens war eine der ersten Datenjournalistinnen überhaupt die Britin Florence Nightingale (1820 – 1910). Gemeinhin ist sie als Krankenschwester bekannt. Tatsächlich ist es ihr durch umfassende Auseinandersetzung mit den Statistiken zu den Sterberaten britischer Soldaten gelungen, für bessere Hygiene in den Lazaretten zu sorgen. Die politischen Entscheidern zu überzeugen gelang ihr nicht zuletzt dadurch, die komplexen Zusammenhänge durch selbstentwickelte Visualisierungsformen herunterzubrechen.
Erzählformen und Methoden
Klickstrecken, “Bewegtbild”, Podcasts und so weiter sind nur Remixe althergebrachter Medienformate. Datenjournalismus dagegen setzt auf Datenbanken und Interaktivität, die nur im Browser oder einer App funktionieren können.
Eine klickbare Karte ist zwar interaktiv, aber noch lange kein wirklicher Datenjournalismus, genauso wenig wie ein Balken- oder Tortendiagramm. Denn ein enges Verständnis des Begriffs legt folgende Kriterien an:
- Spielen ein oder mehrere Datensätze eine zentrale Rolle?
- Ist das Angebot interaktiv in dem Sinne, dass es dem Leser erlaubt, die eigene Auseinandersetzung mit dem Datensatz zu suchen?
- Werden Informationen also dynamisch anhand verschiedener vom Nutzer festgelegten Parameter (z.B. Zeitpunkt, Ausschnittsgröße, Standort, Suchbegriff, Wert) präsentiert?
- Und als Bonus: Kann ich den Datensatz einsehen, herunterladen und gar unter einer freien Lizenz (Open Data) weiterverwenden?
Neue Erzählformen
Die verschiedenen datenjournalistische Erzählformen und Methoden lassen wie folgt sich beschreiben:
1. Datastorytelling
Anhand eines Datensatzes kann sich der User einen Zusammenhang verdeutlichen. Hier meint Storytelling, dass eine Geschichte erzählt wird indem der Nutzer sich in dem gesetzten Rahmen nach eigenem Gusto über Detail- und Hintergründe eines Vorgangs erkundigen kann. Online kann er sich durch die Datenbank bewegen, sich Ausschnitte betrachten oder Zusatzinformationen abrufen. Meist werden dafür Karten verwendet.
In der Regel ist der Auslöser der Berichterstattung der Datensatz selbst. Beispielsweise besagte Warlogs aus Afghanistan, die Wikileaks 2010 veröffentliche. Der britische Guardian brachte dazu online eine interaktive Karte, über die man sich per Zeitleiste den Ablauf zehntausener Einträge der Kriegstagebücher an dem jeweiligen Ort in Afghanistan zeigen lassen konnte. Ein anderes Beispiel präsentierte ZEIT Online im Frühjahr 2011: Dort ließ sich anhand der des Grünenpolitikers Malte Spitz ein halbes Jahr aus dessen Leben auf einer interaktiven Karte nacherzählen.
2. Echtzeitdaten
Datenjournalismus kann auch das gleichzeitige Sammeln von Daten und deren Aufbereitung bedeuten. Letztlich entsteht dabei immer eine Datenbank. Etwa las die New York Times 2010 rund um die Wahlen zum Repräsentantenhaus alle Kurznachrichten des Sozialen Netzwerks Twitter der Kandidaten aus und führte sie grafisch zusammen. So erlaubte sie sowohl in Echtzeit – aber auch im Nachhinein – die Reaktionen im sozialen Netzwerk rund um Wahlkampf und Wahltag nachzuvollziehen. Ein anderes Beispiel ist die Twitter Livemap zum Castortransport ins Wendland im Herbst 2010, die alle Twitternachrichten zu dem Thema auf einer interaktiven Karte abbildete. Die Vorgänge und Reaktionen auf den Transport ließen sich so ortsgebunden betrachten und nachvollziehen.
3. Datensätze
Die schlichte Bereitstellung von Datensätzen in einem zugänglichen Format scheint mehr Dienstleistung als Journalismus zu sein. Doch kann das Zusammentragen der strukturierten Informationen schon eine journalistische Rechercheleistung gewesen sein. Beispielsweise die Aufbereitung der veröffentlichten Parteispenden in Deutschland auf zeit.de. Oder etwa die Arbeit des Datablogs des Guardian: Es stellt nahezu jeden Tag ein oder mehrere Datensätze zu tagesaktuellen Geschehen zur Verfügungen. Ein anderes Beispiel ist das stiftungsfinanzierte Nachrichtenangebot der Onlinezeitung Texas Tribune. Der Großteil derer Besucher kommt, um die gut 50 interaktiven Datenangebote aufzurufen: Beispielsweise sortierbare Listen über die Gehälter der Staatsangestellten oder Leistungen im Bildungsbereich.
4. Crowdsourcing
Wenn Maschinen nicht mehr weiterkommen, schlägt die Stunde des Crowdsourcing. Es wird auf die Effizienz der Menge gesetzt. Im großen Stil war es wieder der Guardian, der das Prinzip, das die Wikipedia groß gemacht hat, für den Journalismus einsetzte. Die Zeitung veröffentlichte Ende 2009 den Datensatz hunderttausender Kostenquittungskopien der britischen Parlamentarier. Die waren teilweise handschriftlich ausgefüllt und damit nicht maschinell auswertbar. Zehntausende Leser des Guardian halfen online mit, den Datensatz der Dokumente zu sichten und die Redaktion auf mögliche Verfehlungen der Politiker hinzuweisen.
5. Hyperlokal
Das Bündeln von Informationen aus Politik, Verwaltung, Medien, Kultur und Konsum und die Darstellen dieser auf die Mikroebene von Straßen oder gar Häuserblocks – dies nennt man “hyperlokal”. Der User kann auch über mobile Internetzugänge unmittelbare Informationen zu seinem Standort abfragen. Vorreiter ist das amerikanische Angebot Everyblock (eingangs erwähnter Adrian Holovaty arbeitet daran mit). Das beste Beispiel in Deutschland ist Frankfurt Gestalten, das straßengenau über Lokalpolitik informiert. Für die gesamte Republik versucht meine-demokratie.de einen Überblick über politische Beteiligung zu ermöglichen.
6. Newsgames
Nachrichten spielerisch zu transportieren muss nicht zwangsläufig Datenjournalismus sein. Aber es gibt Möglichkeiten mit Hilfe von Datenbanken Spielprinzipien zu nutzen. So tat es die New York Times, die 2010 ihre Leser aufforderte, selber Vorschläge für die Kürzungen des Staatshaushaltes abzugeben. Hier wurde mit einem Datensatz “gespielt”: Der Nutzer konnte ihn variieren und setzte sich dadurch mit der Thematik auseinander.
Somit setzen Newsgames auf das Prinzip von “gamification”, das derzeit viel Beachtung findet. Durch die Nutzung von Mechanismen aus dem Computerspielbereich hofft man, Leser mehr zu engagieren und zu involvieren. Tatsächlich könnte die Verknüpfung von Newsgames und Crowdsourcing interessante Rechercheverfahren- und ergebnisse hervorbringen.
Neue Berufe
Datenjournalismus bedeutet Teamarbeit, ist arbeitsaufwendig, erfordert Recherche und “computer-literacy”, also die Fähigkeit des Journalisten, den Rechner zu bedienen und gar Programmierkenntnisse an den Tag zu legen. Sprich, es braucht das Berufsbild des Datenjournalisten. Generell lässt sich sagen: In diesem Bereich muss der Journalist nicht programmieren können. Aber je mehr er davon versteht, um so besser.
Ein Datenjournalist recherchiert, konzeptioniert und dient in der Redaktion als Liaison: Als Vermittler zwischen Redakteuren, Verlag, Programmieren und Gestalter; er muss nicht zwangsläufig programmieren können (aber zumindest behände mit einem Tabellenkalkulationsprogramm arbeiten). Und er sollte wissen, was technisch möglich und welcher Aufwand dafür nötig ist. Der Datenjournalist muss dies allen Beteiligten deutlich machen können und einem Produzenten gleich für das Gelingen des “Datenartikels” sorgen.
Als Spezialisierung wäre das Berufsbild des Datenredakteure von nutzen: Personen, die sich um die Recherche, Erstellung und Überprüfung von Datensätzen kümmert. Bestenfalls wäre er in der Lage, kleine Programme zu schreiben, so genannte Scraper, die Daten aus Webseiten und Datenbanken auslesen können.
Ohne Programmierer und schließlich Designer, die eine sinnvolle Bedienung (User Interface) und Darstellung des interaktiven datenjournalistischen Produkts gestalten, macht das Ganze keinen Sinn. Je mehr diese journalistische Kenntnisse haben, um so einfacher und zielführend dürften ein Team arbeiten können.
Ausblick
Im angelsächsischen Raum hat sich Datenjournalismus etabliert. Neben der bereits erwähnten New York Times, dem Guardian und der Texas Tribune ist die Washington Post, aber auch die L.A. Times mit ihrem Data Desk zu nennen. In Frankreich ist es die Agentur OWNI, die viel im Bereich Datenjournalismus unternimmt und vorantreibt. In der deutschen Medienlandschaft gärt es ebenfalls: Spiegel, ZEIT Online und Taz sowie manche Zeitung des Springerverlags experimentieren mit interaktiven Erzählformaten.
Noch sind diese Vorhaben teuer, kosten viel Arbeit und Zeit. Doch ist absehbar, dass nicht zuletzt wegen immer einfacher zu bedienender Software und Visualisierungsangeboten, die Berichterstattung mit Datensätze ein eigenes journalistische Genre bilden wird – ob in finanzschwächeren lokalen Medien oder Wissenschafts- und Finanzmedien.
Letztlich ist datenbankbasierter Journalismus nur online möglich. Dieses Alleinstellungsmerkmal kann auch zu einem Geschäftsmodell für Onlinejournalismus werden. Die Datenjournalisten Nicolas Kayser-Bril, Mirko Lorenz und Georg McGhee zumindest sind davon überzeugt. Sie entwickeln in ihrem Text “Media companies must become thrusted data hubs” das Bild der Datenknotenpunkte, zu denen Onlinemedien werden können. Mit ihrer Reputation als unabhängige Berichterstatter könnten Zeitungen und Nachrichtenportale zu Dienstleistern werden, die Nutzern Informationen passgenau liefern, je nach Interesse und Fragestellung.
“Data-driven decision making”, also datengestützt Entscheidungen zu treffen ist im Prinzip schon normal: Alltgäglichstes Beispiel sind Suchmaschinen, Preisvergleichsportale oder Lohn-, Gehalts- oder Energiekostenrechner. Die setzten alle auf Datenbanken, um Antworten zu geben. Automatisierte Beratung kann in vielen Branchen stattfinden; sei es Gesundheit oder Immobilien. Für letzteres Thema bietet etwa die New York Times einen Service an: Der gibt mittels einer interaktiven Anwendungen anhand diverser Kosten für Wohnungen Empfehlungen, ob es besser ist, je nach Kritierien eine Wohnung zu mieten oder Eigentum zu erwerben.
Eins ist gewiss: Die weiter voranschreitende Digitalisierung und Automatisierung von Arbeitsschritten wird auch den Journalismus verändern. Das zeigen erste Versuche des “Roboterjournalismus”: Das Projekt StatsMonkey etwa fabriziert durchaus lesbare Sportnachrichten per Software – aus Textbausteinen und den Informationen über einen Spielverlauf. Mit steigender Leistung im semantischen Bereich dürften einfacher gestrickte journalistische Genre, die keine Empathie, Dialog oder Meinung verlangen, zukünftig automatisiert werden können.
Ebenfalls sicher ist: In Zeiten, in denen Regierungen und Verwaltungen sich anschicken, mehr und mehr ihres Wissens als Open Data preiszugeben, dürfen Journalisten die Auseinandersetzung mit Datenanalyse und -auswertung nicht scheuen.
Tim Berners-Lee, der Begründer des World Wide Web formuliert seit Jahren schon seine Vision von Datensätzen, die sich aufeinander beziehen können. Für ihn ist klar, dass aus den Rohstoff Daten ein Treibstoff für Journalismus werden wird. Er empfiehlt: “Journalisten sollten datenaffin sein.”
Dieser Text steht unter einer CC:by Lizenz (Lorenz Matzat für die BpB) – Original bei der BpB
Artikel per E-Mail verschicken
Schlagwörter: bpb, Daten, Datenjournalismus, dossier, Lorenz Matzat, Open Data