Der Glaube an Big Data - Teil 1

Eine Analyse gesellschaftlicher Überzeugungen von Erkenntnis und Nutzen gewinnen aus digitalen Daten

3 Digitale Daten und Big Data

Um die Bedeutung digitaler Daten im sozialen Kontext der Digitalisierung nachvollziehen zu können, muss nun zunächst ein grundlegendes Verständnis dafür hergestellt werden, was Daten und insbesondere digitale Daten ausmacht sowie warum im Kontext digitaler Daten oft von Big Data die Rede ist. Dabei steht zunächst erst einmal die eher technische Definition von Daten im Vordergrund. Doch bereits bei Betrachtung dessen, was gemeinhin unter Big Data verstanden wird, wird in der Literatur die rein technische Abgrenzung aufgeweicht und auch um sozio-technologische Aspekte der großen digitalen Datenbestände erweitert. Diese Erweiterung der Perspektive auf digitale Daten bringt, wie zu zeigen sein wird, eine Einbettung in den sozialen Kontext also zwingend mit sich, in dem Big Data mithin immer auch als ein sozio-technisches Phänomen verstanden werden müssen. Das liegt auch daran, dass die gängigen Definitionen von Big Data immer auch mit Blick auf ihren Ursprung im Verwertungskontext in Wissenschaft und Wirtschaft zu verstehen sind; zwei Bereiche menschlichen Lebens, die fest im zivilisatorischen Fundament verankert sind und ohne Mensch und Gesellschaft nicht denkbar wären. Die nachfolgenden Abschnitte legen somit den Grundstein für ein umfassendes Verständnis des Phänomens Big Data, das nötig ist, um anschließend den Blick auf die soziale Logik der Datensammlung und -auswertung zu richten. Folglich wird in Abschnitt 3.1 zunächst einmal ein allgemeines Verständnis von (digitalen) Daten im Sinne dieser Arbeit hergestellt. In Abschnitt 3.2 wird anschließend der Zusammenhang zwischen der Entstehung, Speicherung und Auswertung der Daten unter den Vorzeichen digitaler Umwandlung und Dokumentation auf Speichermedien erläutert, die dann mit Hilfe von IuK eingesehen und bearbeitet werden können. Diese Voraussetzung digitaler Datenerzeugung und -speicherung ist der Ausgangspunkt für eine tiefergehende Betrachtung des Ausmaßes und der Besonderheiten der Datenakkumulation, die unter Big Data verstanden wird und deren Einbettung in einen sozialen Zusammenhang dann Gegenstand der Abschnitte 3.4 bis 3.6 ist.

3.1 Der Datenbegriff

Wenn man Big Data beim Wort nimmt, dann geht es vordergründig anscheinend einfach nur um große Mengen an Daten. Kein direkter Hinweis findet sich zunächst zum Informationscharakter, zur Digitalität oder gar zu Techniken der Informationsverarbeitung mit Hilfe von Computern; keine Antworten darauf, wessen Daten gemeint sind, wie diese entstehen und wo und wie diese gespeichert werden sowie ob und wie sie einer wie auch immer gearteten Weiterverarbeitung zugeführt werden.

Bevor diese Fragen adressiert werden können, ist an dieser Stelle daher zunächst zu erörtern, was genau eigentlich unter Daten zu verstehen ist, wobei die beiden zentralen Kriterien des Bedeutungsgehalts und des Bedeutungsbezugs des Datenbegriffs in dieser Arbeit im Mittelpunkt stehen und nachfolgend anschaulich einführt werden sollen.

Der informative Bedeutungsgehalt von Daten

Man könnte sich für ein erstes, recht basales – und wie gleich auch deutlich werden wird – verkürztes Verständnis von Daten zunächst einfach vorstellen, dass man sich in einem großen Raum befindet, mit vielen Schränken ähnlich einer Bibliothek, in denen Ordner stehen, worin sich wiederum viele Blätter Papier befinden, die jeweils mit Text oder auch einfach nur Buchstaben, Zahlen oder unbekannten Symbolen bedruckt sind. Wichtig ist dabei jedoch folgendes erstes Charakteristikum, das diese Zeichen zu Daten im Sinne dieser Arbeit macht: Den Angaben, die als Buchstaben, Zahlen oder anderweitigen Symbolen auf dem Speichermedium Papier festgehalten sind und hierbei zunächst lediglich jenen Symbolcharakter haben, kann eine Bedeutung zugewiesen werden, auf deren Grundlage Unterscheidungen getroffen werden können. Sie stellen für Mensch (und auch für Maschine) daher mit Sinn behaftete, bedeutungsvolle Informationen über einen Zustand bereit. Es kann dann dahingehend davon ausgegangen werden, dass man die dokumentierten Symbole versteht (bzw. prinzipiell verstehen könnte), also um die Bedeutung der Zeichen wissen kann und diese nun nutzen kann, indem man sie einer kognitiven oder bei einem Computer eben maschinellen Verarbeitung zuführt, die auf Grundlage einer durch diese Daten getroffenen Unterscheidung operiert. Daten haben mithin zunächst ein Bedeutungspotential.

Wenn eine Ärztin stündlich festhält, wie sich die Fiebertemperatur eines Patienten entwickelt, beobachtet und dokumentiert sie von einem Thermometer abgelesene Daten über dessen Zustand. Mit Blick auf die informative Bedeutung dieser Daten besitzt die Ärztin nun Anhaltspunkte über den Status und die Entwicklung des Gesundheitszustands eines Patienten und kann zwischen gesund oder krank unterscheiden sowie im Zeitverlauf zwischen einer gesundheitlichen Verbesserung oder Verschlechterung und weiß so um die spezifische Bedeutung der so getroffenen Unterscheidungen. In Rahmen dieses Beispiels wird neben dem Potential der Bedeutung von Daten dabei ein weiteres essentielles Charakteristikum für den Datenbegriff eingeführt, das weithin als konstitutiv angenommen wird: Daten sind diesem Beispiel folgend dokumentierte Beobachtungen von Tatsachen über die Welt und weisen somit auf den spezifischen Bezug des Bedeutungsgehalts festgehaltener Symbole hin.

Der Bedeutungsbezug von Daten

Unter dem Begriff Daten werden laut Duden auch ganz allgemein „Beobachtungen, Messungen, statistischen Erhebungen“ subsumiert. Wenn nachfolgend nun von Daten und insbesondere digitalen Daten gesprochen wird, dann wird der Datenbegriff in eben diesem Sinne der manifest dokumentierten Beobachtung von Tatsachen verstanden. Da jedoch auch ein Musikstück oder ein Video in digitaler Datenform vorliegen kann, wird bereits an dieser Stelle deutlich, dass es unterschiedlich weit gefasste Datenbegriffe geben kann: Einen weitreichenden Datenbegriff, der allein auf die technisch-materielle Dokumentationsform abstellt und mithin bspw. auch kulturelle Produkte umschließt, die in Datenform vorliegen, sowie einen engeren Datenbegriff, der empirisch zu verstehen ist und speziell auf Beobachtungsdaten rekurriert. Wenn nicht anders genannt oder hervorgehoben, wird dabei meistens diesem engen Datenbegriff gefolgt, wenn nachfolgend von Daten in diesem forschungsempirischen Sinne die Rede ist. Doch auch ein weitreichenderer sozio-technischer und kultureller Datenbegriff wird in den folgenden Ausführungen immer dort relevant, wo es um die soziale Bedeutung von Digitaldaten geht. Dabei ist der Datenbegriff dann nicht beliebig gewählt, sondern in seiner vielschichtigen Bedeutung der Bezugspunkt eines besseren und umfassenden Verständnisses des Phänomens Big Data, das sowohl die Gesellschaft betreffen kann als auch die eigentliche Forschungsbeschäftigung und ein empirisches Wissenschaftsverständnis umfasst.

Es gibt viele Lebensbereiche, in denen vor allem jene Beobachtungsdaten eine immense Bedeutung innehaben, so etwa in der Medizin, im Staatswesen, selbstverständlich in der Wirtschaft und insbesondere auch in der Wissenschaft. Man erhält so bspw. durch Daten über die wirtschaftliche Güter- und Dienstleistungsproduktion eines Landes einen Einblick in die Verfassung seiner Ökonomie. Ganz gleich, ob die Speicherung bereits für einen gezielten Verwertungszweck geschieht oder die Daten als Nebenprodukt anfallen: Die andauernde Dokumentation, das Festhalten dieser Daten auf einem Speichermedium meint Datenspeicherung und ist somit das Ergebnis fortlaufend festgehaltener Beobachtungen. An diese Speicherung kann dann eine Weiterverarbeitung anschließen, diese muss jedoch nicht zwingend stattfinden. Erfolgt bspw. eine Auswertung der Daten, meint dies oft, jedoch nicht zwangsläufig, dass statistische Zusammenhänge in den Daten aufgezeigt werden und unterschiedliche Daten miteinander in Beziehung gebracht werden. Viel wichtiger ist zunächst jedoch das zuvor erwähnte Moment der Bedeutungsfeststellung auf Grundlage der Beobachtungsdaten, denn diese Bedeutungszuschreibung stößt wiederum weitergehende Handlungsentscheidungen an. Mit Bezug auf das eingangs eingeführte Beispiel diagnostiziert die Ärztin aus dem Ansteigen der Fieberkurve des Patienten eine Verschlimmerung des Krankheitsverlaufs und sieht sich zu einer Maßnahme wie der Gabe eines fiebersenkenden Medikaments veranlasst.

3.2 Daten und Daten-Speichermedien

Die Speicherung von Daten funktioniert wie im Falle aller menschlich geschaffenen Symbole mit Blick auf die Menschheitsgeschichte zunächst vor allem durch Festhalten von Informationen auf Papier oder anderen ‚analogen‘ Speichermedien. So wurden in der Schifffahrt Logbücher geführt, in denen allerlei wichtige und nebensächliche Informationen zu Beschaffenheit von See und Schiff dokumentiert sind. Die analoge Speicherung der Daten auf in Aktenordnern gesammelten und verwahrten Unmengen von Papier ist dabei auch weiterhin recht gebräuchlich, wird jedoch nunmehr ergänzt um die digitale Speicherung von Daten.

Ausgehend von Claude Shannons Arbeiten zu einer mathematischen Theorie von Kommunikation bekam der bis dato unscharfe Begriff der Information eine zählbare Form und wurde forthin quantifizierbar. Shannon war somit der Wegbereiter einer neuen Sicht auf Information, prägte hierbei den Begriff Bit und ebnete damit der bis heute gebräuchlichsten Ausdrucksweise von Daten den Weg: binär codierte Sequenzen von Zustandsbeschreibungen, ausgedrückt in 1 oder 0. Er legte den konzeptuellen Grundstein für das, was heutzutage weithin unter digitaler IuK verstanden wird. Denn gegen Mitte des 20. Jahrhundert bestand nunmehr auch die Möglichkeit, Informationen auf digitalen Speichermedien festzuhalten. Dies führt in Kombination mit Computern, die jegliche Informationen als binär codierte Sequenzen in den digitalen Speicher schreiben und weiterverarbeiten, durch industrielle Massenfertigung zu einem explosionsartigen Anstieg von verfügbaren Datenträgern und Datenverarbeitungsanlagen. Daten können nun maschinell und fortlaufend ohne menschliches Zutun automatisiert erhoben und darüber hinaus schnell vervielfältigt werden. Informationsverarbeitende IuK, allen voran ebenjener Computer, werden innerhalb weniger Jahrzehnte zentraler Bestandteil menschlicher Gesellschaften. Die zunehmende Nutzung von IuK in unterschiedlichen Lebensbereichen bringt immer auch die Möglichkeit der begleitenden Speicherung und Dokumentation dieser Nutzung mit sich. Wo immer Computertechnik zum Einsatz kommt, fallen nun Digitaldaten an. Aufgrund der fortschreitenden Verbreitung digitaler Medientechnologien wie Laptops, Computer und Smartwatches bezeichnen McAfee und Brynjolfsson den Menschen, der diese Technologien nutzt, auch als „Walking Data Generator“. Zudem entstehen beim computerisierten Zugriff auf digitale Daten erster Ordnung zusätzlich neue digitale Daten zweiter Ordnung, sogenannte Meta-Daten. Neben der Speicherung großer Datenmengen erlauben Computer zudem auch die regelgeleitete Weiterverarbeitung und Analyse der Daten. Moderne Prozessoren, bezeichnenderweise auch Rechner genannt, erlauben mannigfaltige statistische Auswertungen und Datenverarbeitung, wobei die Daten erster und zweiter Ordnung immer wieder zusammengefasst und transformiert werden können. Die Möglichkeit, die Vielzahl an Daten auf digitalen Speichermedien festzuhalten und von hier Techniken der Informationsverarbeitung zuzuführen, legen den Grundstein für das, was mittlerweile gemeinhin unter dem Begriff Big Data verstanden wird, einem Phänomen, bei dem also Daten unter dem Vorzeichen der Digitalisierung in großen Mengen anfallen und produziert werden können. An der Schwelle zum 21. Jahrhundert verdoppeln sich jedes Jahr allein die weltweit verfügbaren wissenschaftlichen Daten, so dass sinnbildlich von einer Datenflut (engl. ‚Data Deluge‘) gesprochen wird.

Die vorhergehenden Ausführungen dienen zunächst einmal einem Grundverständnis für das, was gemeinhin unter Daten zu verstehen ist und wieso insbesondere die Digitalisierung die Entstehung, Speicherung und Auswertung der Daten begünstigt und zu immer größer werdenden Datenbeständen führt. Hieraus lässt sich jedoch noch nicht ableiten, warum genau diese Daten nun gerade eine so große gesellschaftliche Beachtung erfahren und ihnen eine immense Bedeutung zugeschrieben wird, sie gar zu einer neuen Leitwährung stilisiert werden. Hierzu bedarf es einer weitergehenden Betrachtung der Charakteristika und hieraus abgeleiteter Potentiale der Sammlung und Verwertung großer digitaler Datenbestände, die auch als Big Data bezeichnet werden.

3.3 Von digitalen Daten zu Big Data

Die Erläuterung des Wesens von Daten im vorigen Abschnitt, vor allem mit Blick auf die Besonderheiten digitaler Daten und den Voraussetzungen und Möglichkeiten ihrer informationstechnischen Verarbeitung, erlaubt nun den Blick auf das Phänomen Big Data zu richten. Big Data nimmt seinen Ausgangspunkt in der vorrangigen Digitalität von Daten im Zuge der Mitte des 20. Jahrhunderts beginnenden, eingangs beschriebenen Digitalisierung und der hiermit einhergehenden Verbreitung von Computertechnologie.

Eine der wichtigsten Vorbedingungen für die vermeintliche Explosion an Daten ist jedoch insbesondere das Internet, das eine Vernetzung zwischen Schnittstellen der IuK und den dezentralen Austausch digital codierter Information ermöglicht. Entsprechend definieren B. M. Leiner et al. auch wie folgt: “The Internet is at once a world-wide broadcasting capability, a mechanism for information dissemination, and a medium for collaboration and interaction between individuals and their computers without regard for geographic location”. Als technische Infrastruktur, die aus dem militärischen und wissenschaftlichen Kontext entstammt und von der Advanced Research Projects Agency (ARPA) des US-amerikanischen Verteidigungsministeriums vorangetrieben wurde, hat sich das Internet ab Ende des vergangenen Jahrtausends weltweit in immer mehr Lebensbereichen fest etabliert. Bedingt durch die technische Infrastruktur des Internets in Kombination mit anderen IuK werden laufend und global Unmengen von digitalen Daten erzeugt, verteilt und weiterverarbeitet. Zum Beispiel werden heutzutage in so gut wie allen Bereichen des privaten und beruflichen Alltags IuK genutzt, die stetig mit dem Internet verbunden, also online sind. Was mit stationären Computern mit Online-Zugang begann, setzt sich mit dem weitreichenden Gebrauch von Smartphones fort. Im Jahr 2018 nutzen 57 Millionen Menschen in Deutschland solch ein Gerät, das man fast überall hin mitnehmen kann und das jederzeit mit dem Internet verbunden ist. Mit diesem kann man mittlerweile nicht mehr nur telefonieren und Nachrichten austauschen, sondern auch Musik hören, Fotos machen und auf einen globalen Informationsspeicher zugreifen.

Nach und nach werden in einem Zusammenspiel kabelloser und miteinander vernetzter Sensorik immer mehr Alltagsgegenstände wie bspw. Haushaltsgeräte ‚online‘ sein und zusätzliche Funktionen und Informationen bereitstellen, für die eine stetige Verbindung zur zuvor beschriebenen technischen Infrastruktur des Internets gegeben sein muss. Diese Entwicklung aus der IuK, bei der Computertechnik allzeit online ist, wird auch als Internet der Dinge (engl. Internet of Things – IOT) bezeichnet. Hierunter fallen Kühlschränke und Heizungssysteme, die mit dem Internet verbunden sind und über dieses, insbesondere via Smartphone, aus der Ferne gesteuert werden können, Befehle empfangen oder versenden können. Die vermeintlichen Vorzüge dieser Vernetzung und den sich hieraus ergebenden Steuerungs- und Optimierungsmöglichkeiten werden unter dem Stichwort Smart Home angepriesen. Es wird alleine hierdurch deutlich, dass die stetige Online-Konnektivität technischer Endgeräte und ihrer Sensorik sowie der laufende Kommunikationsaustausch dieser Geräte untereinander und mit den Nutzer*innen das Ausmaß der digitalen Datenentstehung weiter befeuern wird. Folglich gibt es etliche weitere Anwendungsfelder und Verwendungsmöglichkeiten des IOT und laufend kommen neuen Online-Innovationen hinzu. Dies sind nur einige von vielen Beispielen, um zu demonstrieren, in welchem Umfang digitalisiert wird und bei der Nutzung digitaler Medien automatisiert Daten entstehen. Die Automatisierung der Datenerhebung wird dabei bspw. direkt handlungsrelevant beim Aufzeichnen, Analysieren und Reflektieren von und über Daten, die man im Rahmen des Self-Tracking, zur Selbstbeobachtung und -vermessung des eigenen Gesundheitszustands über sich selbst gesammelt hat. Sie kann sich jedoch auch indirekt bemerkbar machen, etwa, wenn datenbasiert Empfehlungen ausgesprochen werden und Entscheidungen abgenommen werden, z. B. bei personalisierten Angeboten und zielgerichteter Werbung, die durch Algorithmen des maschinellen Lernens möglich werden.

Eine ausführliche Betrachtung des Phänomens Big Data und der Beschreibungsdimensionen, die in der Literatur verwendet werden, legt somit den Grundstein für ein umfassendes Verständnis für die technischen Grundlagen eines zu beschreibenden Mythos Big Data und des sich hieraus gespeisten Glaubenssystems in Bezug auf Big Data, die insbesondere auf die Erwartungen an Erkenntnis- und Nutzengewinn von Big Data abstellen. Hierbei ist trotz der weit zurück zu verfolgenden historischen Entwicklungslinie bereits an dieser Stelle anzumerken, dass Begriff, Verständnis und Bedeutung von Big Data selbst noch recht jung sind, es zwar keine etablierte Definition, jedoch durchaus definitorische Übereinstimmungen gibt. Erste Definitionsansätze sind durch die Entwicklungsdynamiken im Zuge der Digitalisierung folglich noch flexibel und dehnbar. Der folgende Abschnitt nähert sich einer Arbeitsdefinition der essentiellen Wesensmerkmale von Big Data, die Grundlage für die auszuarbeitende Betrachtung von durch Digitalisierung begünstigter Quantifizierung der Gesellschaft und insbesondere hiermit verbundenem Wissenszugewinn und individuellem und gesellschaftlichem Nutzen sein soll. Mit Bezug auf akademische Literatursynthesen und Überblicksartikel wird für diesen Abschnitt eine Aufteilung der Literatur nach Beschreibungsschwerpunkten vorgenommen.

Abschnitt 3.4 beschäftigt sich daher zunächst mit den technischen Beschreibungsdimensionen von Big Data. Hierauf folgend wird auf die soziotechnischen Konsequenzen eingegangen und insbesondere das Neuartige an Big Data in den Vordergrund gestellt (Abschnitt 3.5). Da Big Data eines von etlichen Schlagworten ist, welches sich derzeit in der öffentlichen Debatte wiederfindet, soll abschließend in Abschnitt 3.6 auf verwandte Phänomene und Entwicklungen eingegangen werden, in deren Rahmen Big Data eine gewichtige Einflussgröße oder wie beim maschinellen Lernen gar eine Grundbedingung darstellen. Ausgehend von dem dann gelegten sozio-technischen Verständnis von Big Data kann schließlich deren soziale Bedeutung für einen Erkenntnis- und Nutzengewinn näher erläutert werden.

3.4 Technische Charakteristika und Beschreibungsdimensionen von Big Data

Eine der ersten Definitionen, ohne dass diese bereits von Big Data gesprochen hat, geht auf einen Gartner-Report von Laney zurück, in dem dieser drei mit V beginnende Beschreibungsdimensionen, namentlich Volume, Velocity und Variety (übersetzt als: Volumen, Geschwindigkeit und Vielfalt) einführt, die die großen Datenmengen charakterisieren, die im Zuge der Digitalisierung fortlaufend entstehen. In der Tradition dieser Alliteration kamen über die Zeit viele weitere mit dem Buchstaben V beginnende Beschreibungsdimensionen hinzu, die auf unterschiedliche Charakteristika der Datenmengen abstellen. Allerdings lässt sich eine weitläufige Verbreitung des Begriffs erst ab 2010 feststellen. Während es je nach Betrachtung also etliche zu unterscheidende Beschreibungsdimensionen gibt und mitunter über die exakte Definition von Big Data gestritten wird, beschränken sich die nachfolgenden Ausführungen auf die eingangs erwähnten eher deskriptiven Dimensionen Volumen, Geschwindigkeit und Vielfalt sowie insbesondere auf die in der Literatur für den Verwertungszusammenhang der Daten hervorgehobenen zentralen Dimensionen Veracity und Value. Während die deskriptiven Dimensionen die Daten an sich beschreiben, haben die beiden letztgenannten Dimensionen einen eher sozio-technisch bedeutsamen Charakter, der insofern auf die Qualität von großen digitalen Datenbeständen abstellt, indem deren erwarteten Konsequenzen für Erkenntnis- und Nutzengewinn evaluiert werden. Letztere werden nachfolgend auch als Richtigkeit und Nutzen bezeichnet (siehe Abschnitt 3.5.1 und Abschnitt 3.5.2).

Es bedarf dabei in den folgenden Kapiteln zunächst der Definition der einzelnen Charakteristika von Big Data, um hiervon ausgehend deren jeweilige Bedeutung für eine Betrachtung der sozialen Dimension des Phänomens zu erläutern. Dabei werden zu Illustrationszwecken und für ein besseres Verständnis auch einige prominente Beispiele zum Anwendungskontext von Big Data eingebracht. Für weitere Beispiele zu Anwendungen und Einsatzpotential von Big Data sei an dieser Stelle stellvertretend auf die Ausführungen von Mayer-Schönberger und Cukier (2013), O’Neil (2017), Rudder (2014) und Stephens-Davidowitz (2017) verwiesen.

3.4.1 Das Volumen digitaler Datenentstehung und -verwertung

Das Volumen (Volume) digitaler Datenentstehung und -verwertung betrifft das Ausmaß oder die Größenordnung der Datenmengen, die sich nicht nur einfacher Datenspeicherung und -analyse, sondern oft auch der menschlichen Vorstellungskraft entziehen. “The term ‘Big Data’ suggests that size is its key feature”. Wie zuvor beschrieben wurde, fallen in nahezu allen Lebensbereichen und insbesondere immer dort digitale Daten an, wo Technologien der digitalen Informationsverarbeitung Anwendung finden. So werden bspw. am European Bioinformatics Institute und auch dem CERN, einer europäischen Forschungseinrichtung im Bereich der Teilchenphysik, mittlerweile Petabyte an Daten gespeichert – das Tausendfache einer handelsüblichen Festplatte. Basierend auf einer Analyse von Suchmaschinen wird die derzeitige Größe der im indizierten Internet erreichbaren Webseiten mit 4,47 Milliarden Einträgen angegeben. Doch auch bereits vorhandene analoge Daten, die in den Jahrhunderten vor der Digitalisierung entstanden, werden zunehmend in digitale Daten überführt. Das Projekt Google Books hat seit seiner Entstehung 2004 bis zum Jahr 2015 rund mehr als 25 Millionen der weltweit geschätzt 130 Millionen verfügbaren Bücher digitalisiert.

Diese Zahlen stehen hier illustrativ für die große Menge an Daten, die die Menschheit fortlaufend erzeugt. Die Beschreibungsdimension Volumen – die im Folgenden auch als Ausmaß der Datenerzeugung und -speicherung umschrieben wird – ist folglich jene Eigenschaft, die wohl den meisten Menschen in den Sinn kommt, wenn es um Big Data geht. Es gibt keinen Zweifel daran, dass man es im Rahmen von Big Data mit einer Unmenge an Daten zu tun hat, auch wenn in der Literatur vereinzelt angezweifelt wird, dass nur große Datensätze Big Data sein können und es keine verbindliche Grenze gibt, ab wann ‚kleine‘ oder vermeintlich ‚normal große‘ Datensätze zu Big Data werden. Dass mit Blick auf eine konkrete Zahl an erhobenen Variablen oder Fällen kein Wert benannt werden kann, führt auch dazu, dass insbesondere auf die technischen Herausforderungen bei der Verarbeitung von Big Data als zentrale Konsequenz hingewiesen wird:

The term Big Data has a relative meaning and tends to denote bigger and bigger data sets over time. In computer science, it refers to data sets that are too big to be handled by regular storage and processing infrastructures. (Mahrt & Scharkow, 2013, S. 22)

Gleichzeitig bedeutet das auch, dass die Datenmengen so groß sind, dass kein Mensch sie selbst und unmittelbar verarbeiten kann, er also ohne technische Hilfsmittel nicht in der Lage ist, eine unmittelbare Bedeutung aus ihnen abzuleiten. Schon hier wird deutlich, dass lediglich ein indirekter vermittelter Zugang zu den Daten bestehen kann, aus dem sich ein Verständnis dessen speist, was man in den Daten zu erkennen glaubt. Ein Datenleck, bei dem Millionen von vertraulichen Daten in die falschen Hände geraten, wird erst dann zu einer großen Gefahr, wenn diese Daten mit Computertechnik ausgewertet werden und ihnen so eine entsprechende Bedeutung zugeschrieben wird.

Volumen als Charakteristikum von Big Data ist somit eine zentrale, jedoch eher deskriptive Dimension, die in so gut wie jeder Definition zu Big Data Erwähnung findet. Zu den weiteren überwiegend deskriptiven Beschreibungsdimensionen zählen Velocity (Geschwindigkeit) und Variety (Vielfalt), die nachfolgend erörtert werden. Diese beiden Dimensionen werden dann von den eher konsequentiell-evaluativen Dimensionen Veracity (Richtigkeit) und Value (Nutzen) abgegrenzt.

Marco Lünich: Der Glaube an Big Data. Eine Analyse gesellschaftlicher Überzeugungen von Erkenntnis und Nutzengewinnen aus digitalen Daten; Springer VS; Wiesbaden; 2022

Zur einfacheren Lesbarkeit wurden die Text- und Quellverweise entfernt.

Creative Commons http://creativecommons.org/licenses/by/4.0/deed.de

Open-Access-Buch https://doi.org/10.1007/978-3-658-36368-0