Voice Recognition im Arbeitsverhältnis – eine datenschutzrechtliche Analyse – Teil 1

05/2022

Im Arbeitsverhältnis wird Voice Recognition als Arbeitsmittel, Leistungsmessung, Zugangskontrolle oder Gesundheitsindikator verwendet. Der Einsatz von Voice Recognition muss in datenschutzrechtlicher Hinsicht einen genügend hinreichenden Arbeitsplatzbezug aufweisen. Entscheidend ist in vielen Fällen die Verhältnismässigkeit der Bearbeitung und, insb. bei Cloud-Lösungen, die Wahrung der erforderlichen Datensicherheit. Ist eine Einwilligung des Arbeitnehmers vorausgesetzt, sind hohe Hürden an die Freiwilligkeit zu setzen. Zudem muss sie in den meisten Fällen ausdrücklich sein. Durch die Revision des Datenschutzgesetzes werden Regelungskonzepte wie das Profiling, die Datenschutz-Folgenabschätzung, automatisierte Einzelentscheidungen und technische Anforderungen von der europäischen DSGVO übernommen. Allerdings bringt die Schweizer Ausgestaltung keine in der Praxis relevanten Änderungen im Zusammenhang mit Voice Recognition mit sich.

I. Einführung

Während die technologische Ausschöpfung unserer Stimme noch vor wenigen Jahren lediglich aus dem Genre Science‑Fiction zu vernehmen war, so lässt sie sich heute ganz gezielt nutzen und einsetzen. Zwangsläufig erhält die unter dem Stichwort «Voice Recognitio» geläufige Technologie auch Einzug in die Arbeitswelt 4.0 Mittlerweile können Computer mittels Spracherkennung die Befehle von Arbeitnehmern genau verstehen und ausführen. Dabei sind die Einsatzbereiche von Voice Recognition äusserst vielfältig. Dokumentation und Transkription ordnen sich noch unter den eher simplen Arbeitsmitteln ein. Lernbasierte Sprachassistenten vermögen dahingegen den Arbeitnehmer nicht nur zu unterstützen, sondern analysieren die persönliche Arbeitsweise ihres Benutzers und errechnen individuelle Handlungsvorschläge. Weiter greifen sog. People Analytics Programme auf Stimm- und Sprachdaten zurück, indem sie bspw. Verhaltenscharakteristiken von Bewerbern auswerten. Die v.a. aus Call-Centern bekannte Methode des Keyword Spotting erkennt verkaufsfördernde und kritische Schlüsselwörter oder analysiert zusätzlich die Stimmung des Agenten während des Gesprächs. Über die Stimme lässt sich darüber hinaus eine Zugangskontrolle über kritische Informationen und Ressourcen etablieren. Ferner ermöglicht die Stimmanalyse die frühzeitige Erkennung von Krankheiten oder die Messung der Stressbelastung am Arbeitsplatz.

Gleichzeitig gewährt die Stimme aber auch Einblick in die Persönlichkeit einer Person. Durch sie lässt sich eine Person eindeutig identifizieren und sie verrät vieles über die Charaktereigenschaften, das Verhalten und die Gesundheit. Dadurch wird eine Fülle an Daten erhoben und bearbeitet, was eine Gefahr für das individuelle Recht auf informationelle Selbstbestimmung darstellt, welches wiederum als «raison d’être» des Datenschutzrechts gilt. Nach einem langandauernden Revisionsprozess steht seit 25. September 2020 nun die definitive Fassung des revidierten Datenschutzgesetzes bereit, welches sich dem Schutzniveau der europäischen DSGVO angleichen und hinsichtlich moderner automatisierter Datenbearbeitungen mehr Rechtssicherheit bieten soll. Die folgende Analyse der Voice Recognition nimmt sich den datenschutzrechtlichen Neuerungen sogleich an.

II. Grundlagen der Voice Recognition

1. Definition

Voice Recognition ist eine Sammelbezeichnung für Technologien, die einen Sprecher anhand stimmspezifischer Merkmale identifizieren (Stimmerkennung), den linguistischen Inhalt aus natürlich gesprochener Sprache extrahieren (Spracherkennung) oder aufgrund der Stimme Rückschlüsse auf den Charakter, emotionalen Zustand oder Wahrheitsgehalt ziehen (Stimmanalyse).

Die Stimmerkennung unterteilt sich wiederum in die Sprecherverifikation, bei der nur eine binäre Entscheidung getroffen wird (gesuchter Sprecher: ja – nein) und die Sprecheridentifikation, wobei eine Vielzahl an möglichen Ergebnissen vorliegt.

Im Zuge der Spracherkennung können gleichzeitig sprecherspezifische Eigenschaften, wie bspw. Wortwahl oder Sprechgeschwindigkeit identifiziert werden, die zur Sprecheridentifikation bzw. -verifikation oder Stimmanalyse angewendet werden können. Auch Kombinationen aus Stimm- und Spracherkennung sind denkbar, bspw. ein Mobiltelefon, das lediglich auf Sprachbefehle des Besitzers reagiert. Letztlich ist der Stimmanalyse insofern eine Zwischenstellung zwischen der Stimm- und Spracherkennung beizumessen, als sie sowohl stimm- als auch sprachspezifische Merkmale analysiert, dabei aber einen eigenständigen Zweck verfolgt.

Abbildung 1 Begriffliche Systematik der Voice Recognition

2. IT-Infrastruktur und Rechtsbeziehungen

Je nach Ausgestaltung der IT-Infrastruktur eines Voice Recognition Systems liegen verschiedene Rechtsbeziehungen vor. Bei Cloud-Lösungen wird die vertraglich vereinbarte Software über eine Applikation oder einen Browser unmittelbar in der Datenwolke ausgeführt (Software as a Service). Die Spracheingaben werden an einen Server übermittelt und analysiert, worauf die entsprechenden Befehle an das System retourniert werden. Zwischen der Arbeitgeberin und dem Cloud-Provider muss eine Vereinbarung nach den Bestimmungen der Datenbearbeitung durch Dritte (Art. 10a DSG) bestehen. Der Cloud-Provider kann zur Erbringung seiner Leistung auf die Infrastruktur, wie Netzwerk, Server oder Speicher, von Subunternehmern zurückgreifen.

Abbildung 2 Vertragsbeziehungen Cloud Lösung

Bei reinen Offline-Lösungen findet die Bearbeitung stationär durch eine fest installierte Software statt. Offline-Lösungen sind v.a. in traditionell ausgestalteten Systemen vorherrschend oder wo hohe Anforderungen an die Datensicherheit gestellt werden. Aufgrund der tieferen Leistungsfähigkeit und tendenziell höheren Kosten von Offline-Lösungen werden i.d.R. Cloud-Lösungen bevorzugt. Je nach Ausgestaltung des konkreten Vertragsgegenstandes zwischen der Arbeitgeberin und dem Softwareentwickler kann ein Nominat- oder Innominatkontrakt vorliegen. Entscheidend ist, dass aufgrund der lokalen Bearbeitung der Daten keine Datenbearbeitung Dritter vorliegt.

Abbildung 3 Vertragsbeziehungen Offline-Lösung

III. Voice Recognition im Geltungsbereich des Datenschutzrechts

1. Qualifikation von Stimm- und Sprachdaten

Eine fundamentale Unterscheidung beim Einsatz von Voice Recognition ist, ob das System Stimm– oder Sprachdaten bearbeitet. Die Stimme ist ein biometrisches Merkmal und weist als solches in jedem Fall einen Personenbezug auf. Während biometrische Daten unter dem gegenwärtigen DSG grundsätzlich als «gewöhnliche» Personendaten zu qualifizieren sind, gelten sie unter dem revidierten Datenschutzgesetz als besonders schützenswerte Personendaten, wenn sie eine Person eindeutig identifizieren. Diese Formulierung dürfte schon aufgrund der technischen Unmöglichkeit nicht so zu verstehen sein, dass das angewandte Verfahren eine hundertprozentige Sicherheit der Identifikation bewerkstelligt. Vielmehr bemisst sich der Erfolg des technischen Verfahrens anhand eines vordefinierten Schwellenwertes (threshold). So sind Aufnahmen der Stimme als biometrische Daten zu qualifizieren, wenn das Verfahren dem Zwecke der Identifikation dient.

Lassen Stimmdaten Rückschlüsse auf die Gesundheit oder Rassenzugehörigkeit zu, so können bereits unter geltendem Recht besonders schützenswerte Daten vorliegen. Entscheidend sind die Geeignetheit der Daten und der Bearbeitungszweck. Werden Anzeichen einer Depression diagnostiziert, liegen Gesundheitsdaten vor, hingegen genügen temporäre Gemütszustände oder der Wahrheitsgehalt einer Aussage nicht. Zudem können Unterschiede in Aussprache, Wortwahl, Dialekt und syntaktischen Strukturen mit geografischen und sozialen Faktoren und letztlich der Rasse i.S.v. Ethnizität in Verbindung gebracht werden.

Die Sprache– im Gegensatz zur Stimme – ist primär ein Medium, das dem Informationstransfer dient. Diese Informationen sind als (besonders schützenswerte) Personendaten zu qualifizieren, wenn sie die gesetzlichen Anforderungen erfüllen. Zu beachten ist jedoch, dass die Natur der Daten nicht im Voraus erkennbar und dementsprechend keine separate Bearbeitung realisierbar ist, womit konsequenterweise für sämtliche Sprachdaten der strengere Massstab der besonders schützenswerten Personendaten angelegt werden muss. Fraglich ist allerdings, ob die Sprache an sich ein Personendatenwert sein kann. In der Regel werden Sprachdaten durch ein auf den Arbeitnehmer zurückzuführendes Endgerät bearbeitet. Folglich lassen sich die Daten regelmässig einer bestimmten Person zuordnen, wodurch ein Personenbezug anzunehmen ist. Dies gilt umso mehr für internetfähige Endgeräte, welche eine einmalige IP-Adresse besitzen.

Ausserdem ist im Kontext von «Big Data» und «People Analytics» für einen weiten Anwendungsbereich des DSG zu plädieren. Moderne technische Möglichkeiten erlauben selbst bei eigentlich anonymisierten Daten eine Re‑Identifizierung. Insofern ist es schwer denkbar, dass man sich in der Bearbeitung von Stimm- und Sprachdaten ausserhalb des Geltungsbereiches des DSG bewegt.

2. Persönlichkeitsprofile / Profiling

Unter der Revision des DSG ersetzt das Profiling das bisherige Persönlichkeitsprofil. Profiling setzt eine automatisierte Bearbeitung voraus, auf deren Basis persönliche Aspekte der betroffenen Person vorhergesagt oder beurteilt werden.

Das rDSG folgt einem risikobasierten Ansatz, sodass nur an Profiling mit hohem Risiko strengere Rechtsfolgen zu knüpfen sind. Ein solches liegt vor, wenn es mit einem hohen Risiko für die Persönlichkeit oder Grundrechte der betroffenen Person verbunden ist. Dies ist wiederum nichts anderes als das Persönlichkeitsprofil unter geltendem Datenschutzrecht.

Die Bearbeitung von Sprach- und Stimmdaten erfolgt bei Voice Recognition naturgemäss automatisiert. Spracherkennende Systeme betreiben Profiling, wenn persönliche Aspekte des Nutzers bewertet werden. Sprachassistenten können den Arbeitnehmer mitunter bezüglich Interessen, beruflichen Schwerpunkten und persönlichen Präferenzen analysieren und ggf. darauf basierend selbständige Handlungen vornehmen. Profiling im Rekrutierungsprozess liegt vor, wenn Charakterzüge, der emotionale Zustand oder die Arbeitsweise des Bewerbers analysiert werden. Stimmanalysierende Zutrittskontrollen betreiben nur Profiling, wenn die Anzahl der Zutrittskontrollen griffige Rückschlüsse auf den Bewegungsablauf, das Verhalten oder den Aufenthaltsort eines Arbeitnehmers ermöglichen.

Offen bleibt, ob durch das Profiling Persönlichkeitsprofile entstehen, die zu einem hohen Risiko für die betroffene Person führen. Dies hängt wiederum von den im konkreten Fall getroffenen Schutzmassnahmen ab.

IV. Ausgewählte datenschutzrechtliche Problemfelder

1. Bearbeitung innerhalb des arbeitsrelevanten Bereichs

Der Datenschutz ist in seiner Natur vordergründig Persönlichkeitsschutz. Gemäss Art. 328b OR liegt im Arbeitsverhältnis eine persönlichkeitsverletzende Datenbearbeitung vor, wenn sie über den für das konkrete Arbeitsverhältnis relevanten Bereich hinaus geht.

Der wohl herrschende Teil der Lehre betrachtet die Norm als Verbotsnorm, was ein Durchbruch zum Prinzip der grundsätzlichen Erlaubnis mit Verbotsvorbehalt aufzufassen ist. Die Berufung auf einen Rechtfertigungsgrund i.S.v. Art. 13 DSG wäre folglich nicht möglich. Nach einer liberaleren und hier vertretenen Ansicht ist Art. 328b OR als ein auf das Arbeitsverhältnis beschränkter Bearbeitungsgrundsatz zu verstehen, der den Grundsatz der Verhältnismässigkeit konkretisiert. In diesem Sinne ist eine Verletzung von Art. 328b OR ebenso durch einen Rechtfertigungsgrund heilbar.

Ein Arbeitsplatzbezug ist insb. bei der Verwendung von Spracherkennung als Arbeitsmittel zu bejahen. Beim Keyword Spotting oder der Stimmanalyse ist ein solcher ebenfalls zu vermuten, sofern sich die Analyse der Leistung oder des Verhaltens betrieblich begründen lässt. Dabei ist aber insb. zu berücksichtigen, wie flächendeckend solche Analysen durchgeführt werden, ob auch private Unterhaltungen ausgewertet werden und ob die Analyse dem Arbeitnehmer bekannt ist.

Charaktereigenschaften wie Belastbarkeit, Teamfähigkeit oder Kommunikationsfähigkeit zählen zu den beruflichen Qualifikationen, weshalb bei Stimm- und Sprachanalysen im Bewerbungsverfahren ebenfalls ein Arbeitsplatzbezug zu vermuten ist. Die Analyse weiterer Charaktereigenschaften, die der persönlichen Qualifikation zuzurechnen sind, kann sich im konkreten Fall ebenfalls aufdrängen, besonders wenn dies aufgrund von Haftungs- und Reputationsrisiken geboten ist. Dieselben Überlegungen sind auch während des Arbeitsverhältnisses anzustellen. Anders ist die Rechtslage hingegen, wenn anhand von bestehenden Schlüsselmitarbeitern ein Wunschprofil als Referenz für Bewerbende erstellt wird. In diesem Fall erfolgt die Bearbeitung nicht im Zusammenhang mit dem persönlichen Arbeitsverhältnis.

Biometrische Stimmdaten, die zur Identifikation oder Verifikation verwendet werden, weisen einen Arbeitsplatzbezug auf, sofern sie für Sicherheitszwecke notwendig sind. Werden anhand von Stimmdaten Krankheiten diagnostiziert, liegt i.d.R. kein Arbeitsplatzbezug vor.

2. Arbeitnehmerüberwachung

Das Abhören und die Aufnahme fremder Gespräche ist gemäss Art. 179bis StGB verboten. Die Norm dürfte allerdings im Zusammenhang mit Voice Recognition kaum einschlägig sein. Zunächst wäre im Einzelfall zu klären, ob die registrierte Sequenz überhaupt ein Gespräch i.S. eines Gedanken- und Informationsaustausches darstellt. Die definitionsgemäss vorausgesetzte Einwilligung kann ausdrücklich oder stillschweigend erfolgen, wodurch sie sich bereits konkludent durch die Aktivierung des entsprechenden Systems ergibt. Bei fortlaufend aktiven Systemen kann die Einwilligung auch in Form einer arbeitsvertraglichen Klausel vorliegen. Zudem schränkt Art. 179quinquies Abs. 1 StGB den Anwendungsbereich von Art. 179bis StGB zusätzlich ein.

Relevanter dürfte Art. 26 ArGV 3 sein, der den Einsatz von Überwachungs- und Kontrollsystemen verbietet, sofern sie nicht aus anderen Gründen, wie namentlich zur Sicherheits- oder Leistungsüberwachung, erforderlich sind. Solche Systeme dürfen die Gesundheit und Bewegungsfreiheit der Arbeitnehmer nicht beeinträchtigen. Die Abgrenzung von zulässigen und unzulässigen Systemen ist bisweilen problematisch, zumal Leistung und Verhalten stark miteinander verknüpft sind. Die Zulässigkeit ist letztlich von der Verhältnismässigkeit (Art. 4 Abs. 2 DSG) der konkreten Einsatzweise abhängig und inwieweit die Arbeitgeberin berechtigte Betriebsinteressen geltend machen kann. Liegen besonders schützenswerte Daten vor, ist grundsätzlich Zurückhaltung gefragt. In jedem Fall ist die Datenbearbeitung auf den konkreten Informationsbedarf der Arbeitgeberin zu beschränken und die Arbeitnehmer vorgängig anzuhören (Art. 5 und 6 ArGV 3).

Sprachgesteuerte Systeme sind regelmässig durch Produktivitätsgewinne rechtfertigbar. Hingegen sind sie unzumutbar, wenn sie gleichzeitig die Identität oder Gemütslage analysieren oder generell lückenlos aufzeichnen, was auch private Unterhaltungen beinhalten kann.

Das Verhalten des Arbeitnehmers gegenüber Kunden oder Geschäftspartnern stellt grundsätzlich eine zulässige Leistungskontrolle dar. Erfolgt nun aber eine Stimmanalyse oder Keyword Spotting andauernd und lückenlos, liegt ein unzulässiges Überwachungssystem vor. Es ist allerdings zu beachten, dass die Arbeitgeberin ein berechtigtes Interesse daran hat, die Leistung der Arbeitnehmer zu überwachen. Es ist deswegen erforderlich, die Zwecke der eingesetzten Systeme genau zu bestimmen und nicht erforderliche Datenbearbeitungen klar abzugrenzen. M.a.W. kommt dem Grundsatz der Zweckbindung (Art. 4 Abs. 3 DSG) grosse Bedeutung zu. In der Bewerbungsphase gesammelte Stimm- und Sprachdaten dürfen nicht zur Persönlichkeitsdurchleuchtung oder für das anschliessende Arbeitsverhältnis verwendet werden, wenn dies nicht vom Bewerber akzeptierten Zweck gedeckt ist. Allgemein dürfen Stimm- und Sprachdaten nicht über längere Zeit systematisch gesammelt und verwaltet werden (sog. Data Warehousing) oder ggf. mit anderen Daten kombiniert werden (sog. Data Mining). Entstehen dadurch neue sog. Sekundärdaten, werden diese i.d.R. nicht vom ursprünglich angegebenen Zweck erfasst, zumal dieser bei der Datenbeschaffung gar nicht ersichtlich sein konnte.

Zugangskontrollen, die mittels Stimmerkennung Stimmdaten bearbeiten, sind so zu gestalten, dass keine Erstellung eines Verhaltensprofils des Arbeitnehmers möglich ist, d.h. keine detaillierten Bewegungsabläufe ersichtlich sind. Zugangskontrollen sind auf sensible Räumlichkeiten und Ressourcen zu beschränken. Weiter ist von einer zentralen Speicherung von biometrischen Daten abzusehen. Denkbar ist die Hinterlegung des Stimmabdrucks auf einer Smartcard oder dem dienstlichen Mobiltelefon. Überdies sind Systeme vorzuziehen, die keine abschliessende Identifikation vornehmen, sondern durch anonymisierte Daten abgleichen, ob der konkrete Mitarbeiter zum Kreis der berechtigten Personen gehört.

3. Verlust von Arbeitnehmerdaten

Die Anwendung von Voice Recognition stellt die Datensicherheit in verschiedener Hinsicht vor Herausforderungen. Namentlich bei Sprachassistenten, die sich durch einen Schlüsselbegriff aktivieren und daher permanent aufzeichnen, besteht ein gewisses Abhör- und Manipulationsrisiko.

Der Datenschutz soll den Einsatz von Cloud-Lösungen nicht unnötig beschränken. Regelmässig ist die Auslagerung gar wünschenswert, namentlich wenn der Cloud-Provider spezialisierte Ressourcen zur Erfüllung der datenschutzrechtlichen Anforderungen aufweist. Es ist indes zu beachten, dass die Auslagerung in die Cloud einen Kontrollverlust über die Daten mit sich bringt. Es obliegt somit der Verantwortung der Arbeitgeberin, den Cloud-Provider entsprechend auszuwählen, die richtigen Instruktionen zu erteilen und zu überwachen. Die zu treffenden Massnahmen hängen im Einzelfall von der Arbeitgeberin, der Sensitivität der Daten sowie der Organisation der eingesetzten Cloud-Lösung ab. Werden Daten verschiedener Nutzer in der Cloud ungenügend isoliert, steigt das Risiko für Konsolidierungsschäden, wie Distributed Denial of Services oder Hacker-Attacken. Der Cloud-Provider muss die Datenbearbeitungen verschiedener Cloud-Nutzer strikt voneinander getrennt ausführen und darum besorgt sein, dass es zu keiner Durchmischung der Daten kommt. Es empfiehlt sich deswegen, Datenschutz-Qualitätszeichen oder Zertifizierungen zu berücksichtigen und im Rahmen der Auftragsdatenbearbeitung festzuhalten, dass der Cloud-Provider die angemessenen Massnahmen im Rahmen des Gesetzes kennt und erfüllt. Tritt dennoch ein ungewollter Verlust oder eine Offenlegung von Daten ein, so lässt sich eine Informationspflicht aus dem Grundsatz von Treu und Glauben ableiten.

Biometrische Daten bergen zudem die latente Gefahr des Identitätsdiebstahls. Der Grundsatz der Datensicherheit muss auf allen Ebenen eines Erkennungssystems beachtet werden. Voice-Recognition-Systeme sollten lediglich die zum Identifikationsabgleich erforderlichen Merkmale extrahieren, die Rohdaten aber wieder vernichten. Im Weiteren sollten die Daten nur komprimiert und/oder verschlüsselt bearbeitet werden. Zudem ist, wenn immer möglich, eine dezentrale Speicherung der Daten zu bevorzugen.

4. Datenrichtigkeit

Die Arbeitgeberin ist gem. Art. 5 Abs. 1 DSG verpflichtet, die Richtigkeit der Daten sicherzustellen. Die digitale Verarbeitung der Sprache und Stimme ist ein komplexer Vorgang, bei dem an verschiedenen Stellen Fehler auftreten können, was konsequenterweise zu unrichtigen Daten führt. Zudem sind die der Voice Recognition zugrundeliegenden Algorithmen oft so komplex, dass ein allfälliger Fehler in der Bearbeitung im Nachhinein kaum rekonstruierbar ist (Black-Box-Problematik). Präventiv wirkende technische Massnahmen dürften daher vermehrt in den Vordergrund rücken.

Sprachassistenten können Eingaben falsch verstehen und in der Folge falsche Präferenzen für den Arbeitnehmer ableiten. Ein Assistent sollte demnach so gestaltet sein, dass falsche Eingaben unkompliziert bspw. im Nutzerprofil abgeändert oder gelöscht werden können.

Obschon ein tendenziell konstantes biometrisches Merkmal, kann sich die Stimme im Laufe der Zeit verändern. Es ist deswegen eine angemessene Akzeptanzschwelle (threshold) zu definieren und der Stimmabdruck in regelmässigen Abständen zu aktualisieren. In diesem Zusammenhang bieten Cloud-Lösungen den Vorteil einer fortlaufenden Echtzeitanalyse (continuous real-time analysis), wodurch die Stimmdaten in einem dynamischen Prozess aktualisiert werden.

Der Einsatz von Cloud-Lösungen entbindet die Arbeitgeberin nicht von der Gewährleistung der Datenrichtigkeit. Es scheint aber angebracht, den Cloud-Betreiber, der regelmässig über sämtliche Daten verfügt, im Rahmen der Auftragsdatenbearbeitung entsprechend zu beauftragen.

Remo R. Schmidlin; Voice Recognition im Arbeitsverhältnis — eine datenschutzrechtliche Analyse; sui generis, Zürich; 2022

https://doi.org/10.21257/sg.201

https://creativecommons.org/licenses/by-sa/4.0/

Zur einfacheren Lesbarkeit wurden die Quellenverweise und Fussnoten entfernt.

Kategorie: Datenschutz

Beitrag teilen:

Digitale Daten und Big Data – Teil 1

Um die Bedeutung digitaler Daten im sozialen Kontext der Digitalisierung nach- vollziehen zu können, muss nun zunächst ein grundlegendes Verständnis dafür hergestellt werden, was Daten und insbesondere digitale Daten ausmacht sowie warum im Kontext digitaler Daten oft von Big Data die Rede ist. Dabei steht zunächst erst einmal die eher technische Definition von Daten im Vordergrund. Doch bereits bei Betrachtung dessen, was gemeinhin unter Big Data verstan den wird, wird in der Literatur die rein technische Abgrenzung aufgeweicht und auch um sozio-technologische Aspekte der großen digitalen Datenbestände erweitert. Diese Erweiterung der Perspektive auf digitale Daten bringt, wie zu zeigen sein wird, eine Einbettung in den sozialen Kontext also zwingend mit sich, in dem Big Data mithin immer auch als ein sozio-technisches Phänomen verstanden werden müssen. Das liegt auch daran, dass die gängigen Definitionen von Big Data immer auch mit Blick auf ihren Ursprung im Verwertungskontext in Wissenschaft und Wirtschaft zu verstehen sind; zwei Bereiche menschlichen Lebens, die fest im zivilisatorischen Fundament verankert sind und ohne Mensch und Gesellschaft nicht denkbar wären. Die nachfolgenden Abschnitte legen somit den Grundstein für ein umfassendes Verständnis des Phänomens Big Data, das nötig ist, um anschließend den Blick auf die soziale Logik der Datensamm- lung und -auswertung zu richten. Folglich wird in Abschnitt 3.1 zunächst einmal ein allgemeines Verständnis von (digitalen) Daten im Sinne dieser Arbeit her- gestellt. In Abschnitt 3.2 wird anschließend der Zusammenhang zwischen der Entstehung, Speicherung und Auswertung der Daten unter den Vorzeichen digi- taler Umwandlung und Dokumentation auf Speichermedien erläutert, die dann mit Hilfe von IuK eingesehen und bearbeitet werden können. Diese Vorausset- zung digitaler Datenerzeugung und -speicherung ist der Ausgangspunkt für eine tiefergehende Betrachtung des Ausmaßes und der Besonderheiten der Datenak- kumulation, die unter Big Data verstanden wird und deren Einbettung in einen sozialen Zusammenhang dann Gegenstand der Abschnitte 3.4 bis 3.6 ist.

3.1 Der Datenbegriff

Wenn man Big Data beim Wort nimmt, dann geht es vordergründig anschei- nend einfach nur um große Mengen an Daten. Kein direkter Hinweis findet sich zunächst zum Informationscharakter, zur Digitalität oder gar zu Techniken der Informationsverarbeitung mit Hilfe von Computern; keine Antworten darauf, wes- sen Daten gemeint sind, wie diese entstehen und wo und wie diese gespeichert werden sowie ob und wie sie einer wie auch immer gearteten Weiterverarbei- tung zugeführt werden. Bevor diese Fragen adressiert werden können, ist an dieser Stelle daher zunächst zu erörtern, was genau eigentlich unter Daten zu verstehen ist, wobei die beiden zentralen Kriterien des Bedeutungsgehalts und des Bedeutungsbezugs des Datenbegriffs in dieser Arbeit im Mittelpunkt stehen und nachfolgend anschaulich einführt werden sollen.

Der informative Bedeutungsgehalt von Daten

Man könnte sich für ein erstes, recht basales – und wie gleich auch deutlich wer- den wird – verkürztes Verständnis von Daten zunächst einfach vorstellen, dass man sich in einem großen Raum befindet, mit vielen Schränken ähnlich einer Bibliothek, in denen Ordner stehen, worin sich wiederum viele Blätter Papier befinden, die jeweils mit Text oder auch einfach nur Buchstaben, Zahlen oder unbekannten Symbolen bedruckt sind. Wichtig ist dabei jedoch folgendes erstes Charakteristikum, das diese Zeichen zu Daten im Sinne dieser Arbeit macht: Den Angaben, die als Buchstaben, Zahlen oder anderweitigen Symbolen auf dem Speichermedium Papier festgehalten sind und hierbei zunächst lediglich jenen Symbolcharakter haben, kann eine Bedeutung zugewiesen werden, auf deren Grundlage Unterscheidungen getroffen werden können. Sie stellen für Mensch (und auch für Maschine) daher mit Sinn behaftete, bedeutungsvolle Informatio- nen über einen Zustand bereit. Es kann dann dahingehend davon ausgegangen werden, dass man die dokumentierten Symbole versteht (bzw. prinzipiell verstehen könnte), also um die Bedeutung der Zeichen wissen kann und diese nun nutzen kann, indem man sie einer kognitiven oder bei einem Computer eben maschinellen Verarbeitung zuführt, die auf Grundlage einer durch diese Daten getroffenen Unterscheidung operiert. Daten haben mithin zunächst ein Bedeutungspotential.

Wenn eine Ärztin stündlich festhält, wie sich die Fiebertemperatur eines Patienten entwickelt, beobachtet und dokumentiert sie von einem Thermometer abgelesene Daten über dessen Zustand. Mit Blick auf die informative Bedeutung dieser Daten besitzt die Ärztin nun Anhaltspunkte über den Status und die Entwicklung des Gesundheitszustands eines Patienten und kann zwischen gesund oder krank unterscheiden sowie im Zeitverlauf zwischen einer gesund- heitlichen Verbesserung oder Verschlechterung und weiß so um die spezifische Bedeutung der so getroffenen Unterscheidungen. In Rahmen dieses Beispiels wird neben dem Potential der Bedeutung von Daten dabei ein weiteres essentiel- les Charakteristikum für den Datenbegriff eingeführt, das weithin als konstitutiv angenommen wird: Daten sind diesem Beispiel folgend dokumentierte Beobach- tungen von Tatsachen über die Welt und weisen somit auf den spezifischen Bezug des Bedeutungsgehalts festgehaltener Symbole hin.

Der Bedeutungsbezug von Daten

Unter dem Begriff Daten werden laut Duden auch ganz allgemein „Beob- achtungen, Messungen, statistischen Erhebungen“ subsumiert. Wenn nachfolgend nun von Daten und insbesondere digitalen Daten gesprochen wird, dann wird der Datenbegriff in eben diesem Sinne der manifest dokumentierten Beobachtung von Tatsachen verstanden. Da jedoch auch ein Musikstück oder ein Video in digitaler Datenform vorliegen kann, wird bereits an dieser Stelle deutlich, dass es unterschiedlich weit gefasste Datenbegriffe geben kann: Einen weitreichenden Datenbegriff, der allein auf die technisch-materielle Dokumentationsform abstellt und mithin bspw. auch kulturelle Produkte umschließt, die in Datenform vorliegen, sowie einen engeren Datenbegriff, der empirisch zu verstehen ist und speziell auf Beobachtungs- daten rekurriert. Wenn nicht anders genannt oder hervorgehoben, wird dabei meistens diesem engen Datenbegriff gefolgt, wenn nachfolgend von Daten in diesem forschungsempirischen Sinne die Rede ist. Doch auch ein weitreichenderer sozio-technischer und kultureller Datenbegriff wird in den folgenden Ausführungen immer dort relevant, wo es um die soziale Bedeutung von Digitaldaten geht. Dabei ist der Datenbegriff dann nicht beliebig gewählt, sondern in seiner vielschichtigen Bedeutung der Bezugspunkt eines besseren und umfassenden Ver- ständnisses des Phänomens Big Data, das sowohl die Gesellschaft betreffen kann als auch die eigentliche Forschungsbeschäftigung und ein empirisches Wissenschaftsverständnis umfasst.

Es gibt viele Lebensbereiche, in denen vor allem jene Beobachtungsdaten eine immense Bedeutung innehaben, so etwa in der Medizin, im Staatswesen, selbstverständlich in der Wirtschaft und insbesondere auch in der Wissenschaft. Man erhält so bspw. durch Daten über die wirtschaftliche Güter- und Dienstleistungsproduktion eines Landes einen Einblick in die Verfassung seiner Ökonomie. Ganz gleich, ob die Speicherung bereits für einen gezielten Verwertungszweck geschieht oder die Daten als Nebenprodukt anfallen: Die andauernde Dokumentation, das Festhalten dieser Daten auf einem Speichermedium meint Datenspeicherung und ist somit das Ergebnis fortlaufend festgehaltener Beobachtungen. An diese Speicherung kann dann eine Weiterverar- beitung anschließen, diese muss jedoch nicht zwingend stattfinden. Erfolgt bspw. eine Auswertung der Daten, meint dies oft, jedoch nicht zwangsläufig, dass sta- tistische Zusammenhänge in den Daten aufgezeigt werden und unterschiedliche Daten miteinander in Beziehung gebracht werden. Viel wichtiger ist zunächst jedoch das zuvor erwähnte Moment der Bedeutungsfeststellung auf Grundlage der Beobachtungsdaten, denn diese Bedeutungszuschreibung stößt wiederum wei- tergehende Handlungsentscheidungen an. Mit Bezug auf das eingangs eingeführte Beispiel diagnostiziert die Ärztin aus dem Ansteigen der Fieberkurve des Patienten eine Verschlimmerung des Krankheitsverlaufs und sieht sich zu einer Maßnahme wie der Gabe eines fiebersenkenden Medikaments veranlasst.

3.2 Daten und Daten-Speichermedien

Die Speicherung von Daten funktioniert wie im Falle aller menschlich geschaffe- nen Symbole mit Blick auf die Menschheitsgeschichte zunächst vor allem durch Festhalten von Informationen auf Papier oder anderen ‚analogen‘ Speichermedien. So wurden in der Schifffahrt Logbücher geführt, in denen allerlei wichtige und nebensächliche Informationen zu Beschaffenheit von See und Schiff dokumentiert sind. Die analoge Speicherung der Daten auf in Aktenordnern gesammelten und verwahrten Unmengen von Papier ist dabei auch weiterhin recht gebräuchlich, wird jedoch nunmehr ergänzt um die digitale Speicherung von Daten.

Ausgehend von Claude Shannons Arbeiten zu einer mathematischen Theo- rie von Kommunikation bekam der bis dato unscharfe Begriff der Information eine zählbare Form und wurde forthin quantifizierbar. Shannon war somit der Wegbereiter einer neuen Sicht auf Information, prägte hierbei den Begriff Bit und ebnete damit der bis heute gebräuchlichsten Ausdrucksweise von Daten den Weg: binär codierte Sequenzen von Zustandsbeschreibungen, ausgedrückt in 1 oder 0. Er legte den konzeptuellen Grundstein für das, was heutzutage weithin unter digitaler IuK verstanden wird. Denn gegen Mitte des 20. Jahrhundert bestand nunmehr auch die Möglichkeit, Informationen auf digitalen Speicherme- dien festzuhalten. Dies führt in Kombination mit Computern, die jegliche Informationen als binär codierte Sequenzen in den digitalen Speicher schreiben und weiterverarbeiten, durch industrielle Massenfertigung zu einem explosionsartigen Anstieg von verfügbaren Datenträgern und Datenver- arbeitungsanlagen. Daten können nun maschinell und fortlaufend ohne menschliches Zutun automatisiert erhoben und darüber hinaus schnell vervielfältigt werden. Informationsverarbeitende IuK, allen voran ebenjener Computer, werden innerhalb weniger Jahrzehnte zentraler Bestandteil menschlicher Gesellschaften. Die zunehmende Nutzung von IuK in unterschiedlichen Lebensbereichen bringt immer auch die Möglichkeit der begleitenden Speicherung und Dokumentation dieser Nutzung mit sich. Wo immer Computertechnik zum Einsatz kommt, fallen nun Digitaldaten an. Aufgrund der fortschreitenden Verbreitung digitaler Medientechnologien wie Laptops, Computer und Smartwatches bezeichnen McAfee und Brynjolfsson den Menschen, der diese Technologien nutzt, auch als „Walking Data Generator“. Zudem entstehen beim computerisierten Zugriff auf digitale Daten erster Ordnung zusätzlich neue digitale Daten zweiter Ordnung, sogenannte Meta-Daten. Neben der Speicherung großer Datenmengen erlauben Computer zudem auch die regelgeleitete Weiterverarbeitung und Analyse der Daten. Moderne Prozessoren, bezeichnenderweise auch Rechner genannt, erlauben mannigfaltige statistische Auswertungen und Datenverarbeitung, wobei die Daten erster und zweiter Ordnung immer wieder zusammengefasst und transformiert werden können. Die Möglichkeit, die Vielzahl an Daten auf digitalen Speichermedien festzuhalten und von hier Techniken der Informationsverarbeitung zuzuführen, legen den Grundstein für das, was mittlerweile gemeinhin unter dem Begriff Big Data verstanden wird, einem Phänomen, bei dem also Daten unter dem Vorzeichen der Digitalisierung in großen Mengen anfallen und produziert werden können. An der Schwelle zum Jahrhundert verdoppeln sich jedes Jahr allein die weltweit verfügbaren wissenschaftlichen Daten, so dass sinnbildlich von einer Datenflut (engl. ‚Data Deluge‘) gesprochen wird.

Die vorhergehenden Ausführungen dienen zunächst einmal einem Grund- verständnis für das, was gemeinhin unter Daten zu verstehen ist und wieso insbesondere die Digitalisierung die Entstehung, Speicherung und Auswertung der Daten begünstigt und zu immer größer werdenden Datenbeständen führt. Hieraus lässt sich jedoch noch nicht ableiten, warum genau diese Daten nun gerade eine so große gesellschaftliche Beachtung erfahren und ihnen eine immense Bedeutung zugeschrieben wird, sie gar zu einer neuen Leitwährung stilisiert werden. Hierzu bedarf es einer weitergehenden Betrachtung der Cha- rakteristika und hieraus abgeleiteter Potentiale der Sammlung und Verwertung großer digitaler Datenbestände, die auch als Big Data bezeichnet werden.

3.3 Von digitalen Daten zu Big Data

Die Erläuterung des Wesens von Daten im vorigen Abschnitt, vor allem mit Blick auf die Besonderheiten digitaler Daten und den Voraussetzungen und Mög- lichkeiten ihrer informationstechnischen Verarbeitung, erlaubt nun den Blick auf das Phänomen Big Data zu richten. Big Data nimmt seinen Ausgangspunkt in der vorrangigen Digitalität von Daten im Zuge der Mitte des 20. Jahr- hunderts beginnenden, eingangs beschriebenen Digitalisierung und der hiermit einhergehenden Verbreitung von Computertechnologie.

Eine der wichtigsten Vorbedingungen für die vermeintliche Explosion an Daten ist jedoch insbesondere das Internet, das eine Vernetzung zwischen Schnitt- stellen der IuK und den dezentralen Austausch digital codierter Information ermöglicht. Entsprechend definieren B. M. Leiner et al. auch wie folgt: “The Internet is at once a world-wide broadcasting capability, a mechanism for information dissemination, and a medium for collaboration and interaction bet- ween individuals and their computers without regard for geographic location”. Als technische Infrastruktur, die aus dem militärischen und wissen- schaftlichen Kontext entstammt und von der Advanced Research Projects Agency (ARPA) des US-amerikanischen Verteidigungsministeriums vorangetrieben wurde, hat sich das Internet ab Ende des vergangenen Jahrtausends weltweit in immer mehr Lebensbereichen fest etabliert. Bedingt durch die techni- sche Infrastruktur des Internets in Kombination mit anderen IuK werden laufend und global Unmengen von digitalen Daten erzeugt, verteilt und weiterverarbeitet. Zum Beispiel werden heutzutage in so gut wie allen Bereichen des privaten und beruflichen Alltags IuK genutzt, die stetig mit dem Internet verbunden, also online sind. Was mit stationären Computern mit Online-Zugang begann, setzt sich mit dem weitreichenden Gebrauch von Smartphones fort. Im Jahr 2018 nutzen 57 Millionen Menschen in Deutschland solch ein Gerät, das man fast überall hin mitnehmen kann und das jederzeit mit dem Internet verbunden ist. Mit diesem kann man mittlerweile nicht mehr nur telefonieren und Nachrichten austauschen, sondern auch Musik hören, Fotos machen und auf einen globalen Informationsspeicher zugreifen.

Nach und nach werden in einem Zusammenspiel kabelloser und miteinander vernetzter Sensorik immer mehr Alltagsgegenstände wie bspw. Haushaltsgeräte

‚online‘ sein und zusätzliche Funktionen und Informationen bereitstellen, für die eine stetige Verbindung zur zuvor beschriebenen technischen Infrastruktur des Internets gegeben sein muss. Diese Entwicklung aus der IuK, bei der Compu- tertechnik allzeit online ist, wird auch als Internet der Dinge (engl. Internet of Things – IOT) bezeichnet. Hierunter fallen Kühlschränke und Heizungssysteme, die mit dem Internet verbunden sind und über dieses, insbesondere via Smartphone, aus der Ferne gesteuert werden können, Befehle empfangen oder versenden können. Die vermeintlichen Vorzüge dieser Vernetzung und den sich hieraus ergebenden Steuerungs- und Optimierungsmöglichkeiten werden unter dem Stichwort Smart Home angepriesen. Es wird alleine hierdurch deutlich, dass die stetige Online- Konnektivität technischer Endgeräte und ihrer Sensorik sowie der laufende Kommunikationsaustausch dieser Geräte untereinander und mit den Nutzer*innen das Ausmaß der digitalen Datenentstehung weiter befeuern wird. Folglich gibt es etliche weitere Anwendungsfelder und Verwendungsmöglichkeiten des IOT und laufend kommen neuen Online-Innovationen hinzu. Dies sind nur einige von vielen Beispielen, um zu demonstrieren, in welchem Umfang digitalisiert wird und bei der Nutzung digitaler Medien automatisiert Daten entstehen. Die Automatisierung der Datenerhebung wird dabei bspw. direkt handlungsrelevant beim Aufzeichnen, Analysieren und Reflektieren von und über Daten, die man im Rahmen des Self-Tracking, zur Selbstbeobachtung und -vermessung des eigenen Gesundheitszustands über sich selbst gesammelt hat. Sie kann sich jedoch auch indirekt bemerkbar machen, etwa, wenn datenbasiert Empfehlungen ausgesprochen werden und Entscheidungen abgenommen werden, z. B. bei personalisierten Angeboten und zielgerichteter Werbung, die durch Algorithmen des maschinellen Lernens möglich werden.

Eine ausführliche Betrachtung des Phänomens Big Data und der Beschrei- bungsdimensionen, die in der Literatur verwendet werden, legt somit den Grundstein für ein umfassendes Verständnis für die technischen Grundlagen eines zu beschreibenden Mythos Big Data und des sich hieraus gespeisten Glaubenssystems in Bezug auf Big Data, die insbesondere auf die Erwartun- gen an Erkenntnis- und Nutzengewinn von Big Data abstellen. Hierbei ist trotz der weit zurück zu verfolgenden historischen Entwicklungslinie bereits an die- ser Stelle anzumerken, dass Begriff, Verständnis und Bedeutung von Big Data selbst noch recht jung sind, es zwar keine etablierte Definition, jedoch durch- aus definitorische Übereinstimmungen gibt. Erste Definitionsansätze sind durch die Entwicklungsdynamiken im Zuge der Digitalisierung folglich noch flexi- bel und dehnbar. Der folgende Abschnitt nähert sich einer Arbeitsdefinition der essentiellen Wesensmerkmale von Big Data, die Grundlage für die auszuarbei- tende Betrachtung von durch Digitalisierung begünstigter Quantifizierung der Gesellschaft und insbesondere hiermit verbundenem Wissenszugewinn und indi- viduellem und gesellschaftlichem Nutzen sein soll. Mit Bezug auf akademische Literatursynthesen und Überblicksartikel wird für diesen Abschnitt eine Auf- teilung der Literatur nach Beschreibungsschwerpunkten vorgenommen. Abschnitt 3.4 beschäftigt sich daher zunächst mit den technischen Beschreibungsdimensionen von Big Data. Hierauf folgend wird auf die sozio- technischen Konsequenzen eingegangen und insbesondere das Neuartige an Big Data in den Vordergrund gestellt (Abschnitt 3.5). Da Big Data eines von etlichen Schlagworten ist, welches sich derzeit in der öffentlichen Debatte wiederfindet, soll abschließend in Abschnitt 3.6 auf verwandte Phänomene und Entwicklungen eingegangen werden, in deren Rahmen Big Data eine gewichtige Einflussgröße oder wie beim maschinellen Lernen gar eine Grundbedingung darstellen. Ausge- hend von dem dann gelegten sozio-technischen Verständnis von Big Data kann schließlich deren soziale Bedeutung für einen Erkenntnis- und Nutzengewinn näher erläutert werden.

3.4 Technische Charakteristika und Beschreibungsdimensionen von Big Data

Eine der ersten Definitionen, ohne dass diese bereits von Big Data gesprochen hat, geht auf einen Gartner-Report von Laney zurück, in dem dieser drei mit V beginnende Beschreibungsdimensionen, namentlich Volume, Velocity und Variety (übersetzt als: Volumen, Geschwindigkeit und Vielfalt) einführt, die die großen Datenmengen charakterisieren, die im Zuge der Digitalisierung fortlaufend entstehen. In der Tradition dieser Alliteration kamen über die Zeit viele weitere mit dem Buchstaben V beginnende Beschreibungsdimensionen hinzu, die auf unterschiedliche Charakteristika der Datenmengen abstellen. Allerdings lässt sich eine weitläufige Verbreitung des Begriffs erst ab 2010 feststellen. Während es je nach Betrachtung also etliche zu unterscheidende Beschreibungsdimensionen gibt und mitunter über die exakte Definition von Big Data gestritten wird, beschränken sich die nachfolgenden Ausführungen auf die eingangs erwähnten eher deskriptiven Dimensionen Volumen, Geschwindigkeit und Vielfalt sowie insbesondere auf die in der Literatur für den Verwertungszusammenhang der Daten hervor- gehobenen zentralen Dimensionen Veracity und Value. Während die deskriptiven Dimensionen die Daten an sich beschreiben, haben die beiden letztgenannten Dimensionen einen eher sozio-technisch bedeutsamen Charakter, der insofern auf die Qualität von großen digitalen Datenbeständen abstellt, indem deren erwarteten Konsequenzen für Erkenntnis- und Nutzengewinn evaluiert werden. Letztere werden nach- folgend auch als Richtigkeit und Nutzen bezeichnet (siehe Abschnitt 3.5.1 und Abschnitt 3.5.2).

Es bedarf dabei in den folgenden Kapiteln zunächst der Definition der ein- zelnen Charakteristika von Big Data, um hiervon ausgehend deren jeweilige

Bedeutung für eine Betrachtung der sozialen Dimension des Phänomens zu erläu- tern. Dabei werden zu Illustrationszwecken und für ein besseres Verständnis auch einige prominente Beispiele zum Anwendungskontext von Big Data eingebracht. Für weitere Beispiele zu Anwendungen und Einsatzpotential von Big Data sei an dieser Stelle stellvertretend auf die Ausführungen von Mayer-Schönberger und Cukier, O’Neil, Rudder und Stephens-Davidowitz verwiesen.

3.4.1 Das Volumen digitaler Datenentstehung und verwertung

Das Volumen (Volume) digitaler Datenentstehung und -verwertung betrifft das Ausmaß oder die Größenordnung der Datenmengen, die sich nicht nur einfacher Datenspeicherung und -analyse, sondern oft auch der menschlichen Vorstellungs- kraft entziehen. “The term ‘Big Data’ suggests that size is its key feature”. Wie zuvor beschrieben wurde, fallen in nahezu allen Lebensbereichen und insbesondere immer dort digitale Daten an, wo Technologien der digitalen Informationsverarbeitung Anwendung finden. So werden bspw. am European Bioinformatics Institute und auch dem CERN, einer europäischen Forschungseinrichtung im Bereich der Teilchenphysik, mittlerweile Petabyte an Daten gespeichert – das Tausendfache einer handelsüblichen Festplatte. Basierend auf einer Analyse von Suchmaschinen wird die derzeitige Größe der im indizierten Internet erreichbaren Webseiten mit 4,47 Milliarden Einträgen angegeben. Doch auch bereits vorhandene analoge Daten, die in den Jahrhunderten vor der Digitalisierung entstanden, werden zunehmend in digitale Daten überführt. Das Projekt Google Books hat seit seiner Entstehung 2004 bis zum Jahr 2015 rund mehr als 25 Millionen der weltweit geschätzt 130 Millionen verfügbaren Bücher digitalisiert.

Diese Zahlen stehen hier illustrativ für die große Menge an Daten, die die Menschheit fortlaufend erzeugt. Die Beschreibungsdimension Volumen – die im Folgenden auch als Ausmaß der Datenerzeugung und -speicherung umschrieben wird – ist folglich jene Eigenschaft, die wohl den meisten Menschen in den Sinn kommt, wenn es um Big Data geht. Es gibt keinen Zweifel daran, dass man es im Rahmen von Big Data mit einer Unmenge an Daten zu tun hat, auch wenn in der Literatur vereinzelt angezweifelt wird, dass nur große Datensätze Big Data

sein können und es keine verbindliche Grenze gibt, ab wann ‚kleine‘ oder ver- meintlich ‚normal große‘ Datensätze zu Big Data werden. Dass mit Blick auf eine konkrete Zahl an erhobenen Variablen oder Fällen kein Wert benannt werden kann, führt auch dazu, dass insbesondere auf die technischen Herausforderungen bei der Verarbeitung von Big Data als zentrale Konsequenz hingewiesen wird:

The term Big Data has a relative meaning and tends to denote bigger and bigger data sets over time. In computer science, it refers to data sets that are too big to be handled by regular storage and processing infrastructures.

Gleichzeitig bedeutet das auch, dass die Datenmengen so groß sind, dass kein Mensch sie selbst und unmittelbar verarbeiten kann, er also ohne technische Hilfsmittel nicht in der Lage ist, eine unmittelbare Bedeutung aus ihnen abzu- leiten. Schon hier wird deutlich, dass lediglich ein indirekter vermittelter Zugang zu den Daten bestehen kann, aus dem sich ein Verständnis dessen speist, was man in den Daten zu erkennen glaubt. Ein Datenleck, bei dem Millionen von vertrauli- chen Daten in die falschen Hände geraten, wird erst dann zu einer großen Gefahr, wenn diese Daten mit Computertechnik ausgewertet werden und ihnen so eine entsprechende Bedeutung zugeschrieben wird.

Volumen als Charakteristikum von Big Data ist somit eine zentrale, jedoch eher deskriptive Dimension, die in so gut wie jeder Definition zu Big Data Erwäh- nung findet. Zu den weiteren überwiegend deskriptiven Beschreibungsdimensionen zählen Velocity (Geschwindigkeit) und Variety (Viel- falt), die nachfolgend erörtert werden. Diese beiden Dimensionen werden dann von den eher konsequentiell-evaluativen Dimensionen Veracity (Richtigkeit) und Value (Nutzen) abgegrenzt.

3.4.2 Die Geschwindigkeit digitaler Datenentstehung und verwertung

Velocity ist gemeinhin als Geschwindigkeit zu übersetzen. Sie ist als eine weitere bedeutende Eigenschaft von Big Data zu verstehen, die jedoch eng mit dem Aus- maß der digitalen Datenbestände verknüpft ist. Dabei wird im Zusammenhang mit Big Data mit Blick auf die Geschwindigkeit über unterschiedliche Phänomene gesprochen, die voneinander getrennt betrachtet und erläutert werden müssen. Aufgrund des rekursiven Charakters des Datenverwertungsprozesses, bei dem im Rahmen der Datenentstehung und -verwertung neue sogenannte Meta-Daten pro- duziert werden, sind hier zwei Perspektiven zu unterscheiden, die jedoch eng miteinander verwoben sind. Laut Kitchin und McArdle handelt es sich hierbei mit Blick auf Geschwindigkeit von Big Data um: (1) “frequency of generation” sowie (2) “frequency of handling, recording, and publishing” (S. 7). Zum einen spielt also Geschwindigkeit eine entscheidende Rolle im Entstehungs- kontext digitaler Daten, zum anderen kommt ihr in deren Verwertungskontext, insbesondere bei der Datenauswertung eine wichtige Bedeutung zu.

Geschwindigkeit im Entstehungskontext der digitalen Daten

Wie bereits in den vorangegangenen Abschnitten angesprochen und anhand eini- ger Zahlen illustriert, entstehen jede Sekunde Unmengen von digitalen Daten. Zeit spielt also im Entstehungskontext der Daten eine elementare Rolle, denn zu den Unmengen an bereits vorhandenen Daten kommen laufend neue hinzu. Es kann also bei Big Data keine umfassende Betrachtung des Phänomens erfol- gen, ohne sich die Zeitlichkeit als notwendige Komponente einer Definition vor Augen zu führen. Allein die Nutzung von Online-Services durch Internetnutzer trägt zu einem beständig wachsenden Berg an digitalen Daten bei. Seiten wie Internet Live Stats, die das Verhalten der Nutzer und den dabei entstehenden Internetverkehr visualisieren, veranschaulichen dies eindrucksvoll. So werden weltweit jede Sekunde abertausende Bilder und Textbeiträge auf Internetserver hochgeladen, geteilt, bewertet und kommentiert. Nicht nur das Ausmaß der digitalen Daten ist also sehr groß, sondern auch die Geschwindigkeit, mit der die vielen Daten entstehen. Laut den Internet Live Stats sind das Stand Februar 2021 rund 112 Gigabyte – jede Sekunde. Dadurch fordert das Phänomen Big Data auch gängige Datenspeicherungsmöglichkeiten heraus. So haben die meisten Unternehmen mittlerweile entsprechende Kapazitäten aufgebaut, um die bei der Verwendung ihrer Dienste anfallenden Daten zu speichern. Für das Jahr 2017 berichtet Thibodeau von weltweit 8,4 Millionen aktiven Rechenzentren, die im Englischen primär auch als Data Center bezeichnet werden und über deren Server und angeschlossene Glasfaserkabel die Datenströme des Internets laufen. Laut Koomey trugen diese Datenzentren Anfang des Jahrzehnts bereits mit über einem Prozent zum weltweiten Stromverbrauch bei, mit ansteigender Tendenz. Das bedeutet gleichzeitig, dass es – ähnlich wie in der Logik des dezentralen Internets – keine isolierte zentrale Instanz gibt, bei der die online entstehenden digitalen Daten laufend erzeugt und gespeichert werden. Datenerzeugung ist auch daher ein globales Phänomen.

Neben dieser räumlichen Dispersität der Daten sind die Datensätze, die unter Big Data verstanden werden, anders als es der Begriff andeutet, auch aus zeitlicher Sicht keine fertigen und abgeschlossenen Einheiten. Sie können sich stetig vergrößern oder aber bei versehentlichem Datenverlust oder aktiver Löschung verkleinern – was bei fortlaufender Analyse und der Interpretation ihrer Ergebnisse ebenfalls berücksichtigt werden muss.

Geschwindigkeit im Analysekontext der digitalen Daten

Wenn die Entstehung großer Datenmengen in Echtzeit zu verfolgen ist, dann hat das nicht nur Auswirkungen auf die Speicherung von Big Data, sondern weckt auch menschliche Begehrlichkeit, Erkenntnisse über diese Daten und aus diesen Daten in Echtzeit zu gewinnen. Big-Data-Analysewerkzeuge müssen daher nicht nur in der Lage sein, digitale Daten zeitlich synchron einzulesen und zu speichern, sondern auch synchron und unmittelbar Erkenntnisse bezüglich eben jener Daten zu liefern, so dass aktuelle Trends und statistische Zusammenhänge in Echtzeit verfolgt werden können. Das sind zumindest die Erwartungen, die an Big Data gerichtet sind und die der Beschreibungsdimension Geschwindigkeit für den letztendlichen Nutzungskontext besondere Bedeutung verleihen. Es reicht nicht nur zu beobachten, dass sekündlich weltweit Menschen tausende Fotos auf Facebook und Instagram hochladen. Es ist mit Blick auf das Versprechen von Big Data auch von Bedeutung, hieraus jetzt und sofort Erkenntnisse zu ziehen. Für den sozialen Kontext sollen u. a. folgende Fragen mit Hilfe von Sentiment-Analysen zur Stimmungserkennung von Personen beantwortet werden, die auf Big Data zugreifen: Was bewegt die Nutzer*innen bspw. gerade in ihrer Rolle als Bürger*innen? Welche Themen treiben die Öffentlichkeit um, wie sieht die öffentliche Meinung und ihre Verteilung aus? Welche Politiktreibenden fallen oder steigen gerade aus welchen Gründen in der öffentlichen Gunst? Die Möglichkeit solcher Analysen befeuern den Wunsch nach Big-Data-Kompetenzen und Auswertungskapazitäten, die in Echtzeit abgerufen werden können, da die Erwartung besteht, aus der unmittelbaren Vergangenheit und Gegenwart Erkennt- nisse über Weltzustände in der Zukunft zu gewinnen.

3.4.3 Die Vielfalt digitaler Datenentstehung und verwertung

Ein weiteres Versprechen von Big Data ist, dass man mannigfaltige Erkenntnisse für alle vorstellbaren Lebensbereiche gewinnt, solange nicht nur punktuell viel, sondern am besten auch überall und für alles Mögliche entsprechend vielfäl- tige Daten gesammelt werden. Die Vielfalt (Variety) digitaler Datenentstehung und -verwertung rückt an späterer Stelle insbesondere im Kapitel 5 bei der fortschreitenden Quantifizierung des Sozialen in den Blick. Hier wird deutlich werden, dass mit Big Data die Hoffnung verbunden ist, für jeglichen Bereich des sozialen Miteinanders Erkenntnisse zu gewinnen, und daher in der Konse- quenz überall auch Daten gesammelt werden. Der Anspruch der Digitalisierung und ihrer digitalen Daten ist mithin auch, alles messen zu können. Die ubiquitäre Datensammlung geschieht daher nicht nur in Form der unterschiedlichen Kommunikationsmodi wie allen voran Text sowie Bild- und Audio-Dateien, die entstehen und bspw. über die Kommunikationsarchitektur des Internets zwischen den Nutzenden ausgetauscht werden. Sondern diese unterschiedlichen Arten von Daten entstehen auch in immer neuen Kontexten. Sensoren, die von Temperatur hin zu Bewegungen etc. alles Mögliche messen, befeuern die Vielfalt der entstehenden Daten und werden nicht nur in Automotoren und Flugzeugtriebwerken verbaut, sondern auch in Uhren, mit denen Menschen jederzeit ihre Schrittzahl oder den eigenen Puls nachverfolgen können. Letzteres Beispiel nimmt Bezug auf das sogenannte Self-Tracking, bei dem laufend individuelle Körperdaten für die unterschiedlichsten Vitalparameter erhoben werden. Mittlerweile nutzen 14 % der deutschen Bevölkerung soge- nannte Digital-Health-Applikationen, also Hard- oder Software, mit deren Hilfe sie ihre Kalorienaufnahme, Sportaktivitäten und ihren Schlaf in digitalen Daten dokumentieren. Die Liste an Beispielen zu der Vielseitigkeit von Datenerhebung und der Vielfalt der entstehenden digitalen Datenbestände ist lang und wächst täglich. Sie kann daher an dieser Stelle nur angedeutet werden, zumal sie ebenfalls lediglich eine deskriptive Dimension des Phänomens Big Data betrifft und erst dann tatsächlich relevant wird, wenn der Digitalisierungs- kontext eine nähere Betrachtung der spezifischen Charakteristika der Datenvielfalt notwendig macht.

Es ist an dieser Stelle jedoch auch darauf hinzuweisen, dass die Viel- falt der Daten und die Ubiquität der Datensammlung dazu führen, dass je nach Schätzung rund 85 bis 95 % der Datensätze aus unstrukturierten Daten bestehen. Strukturierte Daten sind meist in sogenannten relationalen Datenbank-Managementsystemen (RDBMS) aufbereitet und folgen in ihrem Aufbau vorher definierten Dateneingaben für bestimmte Kennwerte wie Geburtsdaten, Sozialversicherungsnummern und Geldwerten. Unstrukturierte Daten hingegen bestehen u. a. aus Text, Bildern, Audio- und Video-Dateien, reichen also von E-Mails hin zu Online-Nachrichtenartikeln, von Smartphone-Fotos hin zu Sport-Live-Streams und Videos von Überwachungskameras. Das führt nicht nur zu Herausforderungen mit Blick auf die Auswertungsmöglichkeiten, sondern häufig auch dazu, dass man zwar viele und immer neue Daten hat, abhängig vom Verwertungskontext oft jedoch erst einmal reflektieren muss, worüber diese Daten denn nun genau Auskunft geben können. Es muss daher auch die soziale Bedeutung von Big Data in ihrem soziotechnischen Kontext angesprochen werden, wobei sogleich auf zwei entsprechende Dimensionen einzugehen ist, die das Verständnis vom Sinn und Zweck der Sammlung von Big Data anleiten.

Marco Lünich: Digitale Daten und Big Data. In: Der Glaube an Big Data. Springer VS, Wiesbaden; 2022

https://doi.org/10.1007/978-3-658-36368-0_3

http://creativecommons.org/licenses/by/4.0/deed.de Zur einfacheren Lesbarkeit wurden die Quellenverweise und Fussnoten entfernt.

Kategorie: Datenschutz

Beitrag teilen: