Veracity – Sinnhaftigkeit und Vertrauenswürdigkeit von Big Data als Kernherausforderung im Informationszeitalter

Wer sich intensiver mit Big Data beschäftigt für den sind  die drei Attribute Volume, Variety und Velocity, auch bekannt als die „3 V‘s“ oder die „drei Dimensionen“ von Big Data keine Fremdwörter. Volume, Variety und Velocity werden regelmäßig verwendet um die Eigenschaften von Big Data zu charakterisieren und dienen dem Versuch Big Data zu definieren.

Die 3 V’s von Big Data

  • Volume beschreibt dabei das enorme Datenvolumen, das aus dem ständig wachsenden Informationsfluss resultiert. Auch im unternehmerischen Umfeld stehen Entscheider immer häufiger vor der Herausforderung, die Datenmengen effizient und effektiv zu nutzen.
  • Velocity bezeichnet die Geschwindigkeit der Datenentstehung. Unter anderem durch mobile Internetnutzung und die zunehmende Digitalisierung von z. B. Messergebnissen stehen immer mehr Daten immer schneller zur Verfügung – eine echte Herausforderung für Datenanalysten, vor allem vor dem Hintergrund, dass das Bedürfnis nach sofortiger Informationsextraktion und Verarbeitung der Daten in Echtzeit zunimmt.
  • Variety bezieht sich auf die Vielfältigkeit der vorliegenden Datenmenge. Daten können strukturiert, unstrukturiert und semi-strukturiert vorliegen, wobei die Gruppe der semi- und unstrukturierten Daten mit bis zu 85% den größten Anteil ausmacht. Darüber hinaus können Daten in verschiedenen Formaten vorliegen, die nicht ohne Weiteres verglichen werden können und auch in weniger griffigen Formaten wie Audio- oder Videodateien vorhanden sein, deren Extraktion zumeist manuellen Aufwand erfordert.

Veracity – blindes Vetrauen oder kritisches Hinterfragen?

Diesen Eigenschaften von Big Data kann mit Hilfe von voranschreitenden Methoden und fortschrittlicher Software, zumindest zu einem gewissen Grad begegnet werden, so dass sich als Konsequenz seit einiger Zeit eine weitere Herausforderung, in Form eines vierten V’s, in den Vordergrund schiebt: Veracity.

Dimensionen von BigData. Quelle: http://www.datasciencecentral.com/profiles/blogs/data-veracity
Dimensionen von BigData. Quelle: http://www.datasciencecentral.com/profiles/blogs/data-veracity

Veracity steht für die Sinnhaftigkeit beziehungsweise die Vertrauenswürdigkeit der Daten und der daraus abgeleiteten Ergebnisse, die mitunter zu wünschen übrig lassen kann. Dies zeigt sich beispielswiese darin, dass einer von drei führenden Managern, der Datenqualität und den daraus resultierenden Ergebnissen nicht vollends vertraut, wie die Big Data Foundation Anfang des Jahres bekannt gab. In der Regel steht und fällt die Glaubhaftigkeit der Daten und Ergebnisse mit der Qualität der Input-Daten und den gewählten Analysenverfahren.

Datenabfall als Konsequenz unzureichender Glaubhaftigkeit

Auf dieses Phänomen bezieht sich das Akronym GIGO, kurz für: „Garbage In – Garbage Out“, das auf das „First In – First Out“-Prinzip der Warenwirtschaft anspielt. Auf die Spitze getrieben wird GIGO, als Abkürzung von „Garbage In – Gospel Out“. Hiermit soll kritisiert werden, dass Ergebnisse, die aus Big Data extrahiert wurden, zu selten hinterfragt und hinreichend überprüft werden, sondern vielmals als unanfechtbare Wahrheit interpretiert werden. In der folgenden Grafik wird verdeutlicht, dass unzureichend aussagekräftige Ergebnisse sowohl aus qualitativ ungenügendem Input als auch aus unpassenden Modellen resultieren können.

GIGO Paradigma. Quelle: http://blog.potterzot.com/2007/09/25/garbage-in-garbage-out-and-the-desire-to-cover-our-own-ass-is-ruining-the-world/
GIGO Paradigma. Quelle: http://blog.potterzot.com/2007/09/25/garbage-in-garbage-out-and-the-desire-to-cover-our-own-ass-is-ruining-the-world/

Problematisch kann es vor allem werden, wenn zwar große Datenmengen zur Analyse zur Verfügung stellen, diese jedoch nicht hinreichend Aussagekraft bezüglich der Fragestellung beinhalten.

Dies kann zum Beispiel im Bereich der Instandhaltung, etwa bei industriellen Produktionsanlagen der Fall sein. Werden hierbei Maschinenkomponenten ausgetauscht und die Austauschzeitpunkte für kommende Perioden dokumentiert können diese Daten nur dann nutzenbringend in Prognoseverfahren eingesetzt werden, sofern auch Informationen über den Zustand der Komponente zum Austauschzeitpunkt  vorliegen.

Ansatzpunkte zur Veracity-Steigerung

Anders als bei den drei oben genannten V’s, wie etwa im Hinblick auf das  Datenvolumen, wo beispielsweise MapReduce Algorithmen erfolgreich für ein besseres Handling mit umfangreichen Datensätzen eingesetzt werden können, sind für die Erhöhung der Vertrauenswürdigkeit der Daten bisher keine standardisierten Verfahren verfügbar.

Um valide und vertrauenswürdige Ergebnisse zu erhalten empfiehlt es sich zudem den gesamten Analyseprozess von der Datenerfassung bis zur Ergebnispräsentation ganzheitlich zu konzipieren. Dabei sollten sowohl die verwendeten Modelle als auch die zum Einsatz kommenden Methoden sorgfältig ausgewählt werden um eine möglichst hohe Sinnhaftigkeit der Ergebnisse zu gewährleisten.  Dazu sind allerdings Methodenkenntnis und Expertise im Bereich der Modellbildung erforderlich, die die Gewinnung von vertrauenswürdigen Daten zu einem Handwerk machen, das ein gewisses Maß an Erfahrung erfordert.

Herausforderung der fünften Dimension

Wird sich die Glaubhaftigkeit von Big Data zukünftig mit innovativen Methoden und Verfahren schrittweise steigern stellt sich die Frage welches V die nächste Herausforderung für Big Data Experten sein wird. Unter Data Scientists werden potenzielle Kandidaten wie „Viability“, „Virality“, „Viscosity“ oder „Value“ schon heiß diskutiert.

 


Heiko Miertzsch - Beitrag vom 10.10.2013

Heiko Miertzsch ist einer der beiden Gründer der eoda GmbH.

Abonnieren Sie unseren Datenanalyse-Blog