09/2025
1. Vorwort: Risiken und Herausforderungen generativer KI
Nachdem der anfängliche Hype um generative künstliche Intelligenz (KI) in Form von grossen Sprachmodellen und Bildgeneratoren abgeklungen ist, rücken nun rechtliche Fragen in den Vordergrund. Neben Diskussionen über generative KI und Urheberrecht rückt zunehmend die Reibung zwischen generativen Modellen und den Anforderungen des Datenschutzrechts in den Fokus. In den USA sind mehrere Klagen gegen Google und OpenAI wegen möglicher Datenschutzverletzungen durch generative Modelle anhängig. In der Europäischen Union sind derzeit Regulierungsbehörden aktiv, und der Europäische Datenschutzausschuss hat eine Task Force eingerichtet, die sich mit ChatGPT befassen soll. Die italienische Datenschutzbehörde Garante hatte bereits 2023 ein Verfahren gegen OpenAI eingeleitet, das zu einem vorübergehenden nationalen Verbot von ChatGPT führte. Nach Abschluss des Verfahrens stellte die Behörde Verstösse gegen die DSGVO fest. Auch in Polen laufen Ermittlungen wegen Datenschutzverstössen. Andere Länder wie Deutschland haben Auskunftsersuchen gestellt, und die französische Datenschutzbehörde hat einen Aktionsplan entwickelt. Im Fall Maximilian Schrems reichte die Datenschutz-NGO NYOB im April 2024 eine Beschwerde bei der österreichischen Datenschutzbehörde ein, in der es um falsche Angaben zu einer Person durch ChatGPT ging, die OpenAI weder korrigierte noch auf die Anfrage nach Auskunft über die verarbeiteten Daten reagierte. Diese Fälle machen deutlich, dass Datenschutzbehörden bereits KI-Regulierer sind und generative KI ein zentrales Thema für den Datenschutz ist.
Aus rechtlicher Sicht werfen generative Modelle eine Reihe spezifischer Fragen auf, die in verschiedenen wissenschaftlichen Quellen gut dokumentiert sind. Insbesondere die Grundmodelle, auf denen die beliebten grossen Sprachmodelle (LLMs) aufbauen, bergen neue Sicherheitsrisiken und Schwachstellen, die angegangen werden müssen. Daher ist eine soziotechnische Bewertung erforderlich, um diese Risiken und die notwendigen Sicherheitsmechanismen, einschliesslich rechtlicher und ethischer Aspekte, zu verstehen. Das Verständnis der von LLMs ausgehenden Risiken erfordert einen kontextbezogenen Ansatz: Normative Regeln, wie Gesetze, wirken immer im Kontext.
Ein wichtiges Anliegen ist der Schutz personenbezogener Daten und der Privatsphäre. Verschiedene Experimente haben gezeigt, dass es möglich ist, personenbezogene und sensible Informationen über Einzelpersonen aus LLMs zu extrahieren. Forscher haben nachgewiesen, dass LLMs in der Lage sind, Trainingsdaten zu speichern, entweder durch übermässige Anwendung zahlreicher Parameter auf kleine Datensätze, wodurch die Fähigkeit zur Verallgemeinerung auf neue Daten verringert wird, oder durch Optimierung für die Verallgemeinerung in Long-Tail-Datenverteilungen. Obwohl dieses Phänomen am häufigsten auftritt, wenn Duplikate in den Trainingsdaten vorhanden sind, tritt es auch dann auf, wenn die Trainingsdaten teilweise dedupliziert wurden. Grössere Modelle mit mehr Parametern „merken“ sich mehr Daten als kleinere Modelle. Verletzungen der Privatsphäre und des Rechts auf Datenschutz von Personen resultieren sowohl aus falschen Informationen als auch aus korrekten Informationen, deren Veröffentlichung sie nicht wünschen. Diese Risiken werden durch eine unregulierte und damit unkontrollierte sekundäre Weiterverwendung der Modelle noch verstärkt. Im Falle beliebter LLMs, die von globalen Technologieunternehmen betrieben werden, scheint eine kommerzielle Weiterveräusserung unwahrscheinlich, da die Unternehmen kein Interesse daran haben, auf ihre exklusive Option zur kommerziellen Verwertung zu verzichten. Anders sieht es bei kleineren, aber in einigen Fällen nicht weniger risikobehafteten Modellen aus: Mixtral 8x7B konkurriert mit GPT 3.5 und übertrifft es in einigen Punkten dank einer intelligenten Architektur, die acht verschiedene Expertenmodelle kombiniert und kürzlich als Open Source veröffentlicht wurde. Dies unterstreicht nur die Notwendigkeit einer Übersicht über die Verwendungszwecke dieser Modelle und einer Kategorisierung, die eine kontextbezogene Risikobewertung ermöglicht.
Das Datenschutzrecht bringt seine eigenen besonderen Reibungspunkte mit sich, die sich einerseits aus der allgemeinen Funktion und den technischen Besonderheiten von Big-Data-Anwendungen und generativer KI und andererseits aus den Besonderheiten generativer Modelle ergeben. Generative Modelle werden in unterschiedlichen Kontexten für unterschiedliche Zwecke eingesetzt, um Texte, Codes, Videos, Bilder, Audiodateien usw. zu generieren. In diesem Artikel werde ich mich auf LLMs konzentrieren, die Texte durch Berechnung der Wahrscheinlichkeit der Wortfolge generieren. Daten, die sprachlich übersetzbar sind, d. h. von menschlichen Empfängern verstanden werden können, können natürlich auch personenbezogene Daten im Sinne des Datenschutzrechts enthalten. Aus diesem Grund sind LLMs ein gutes Beispiel für die Probleme, die sich im Zusammenhang mit KI-generierten Inhalten für das Datenschutzrecht ergeben.
Dieser Artikel ist wie folgt aufgebaut: Zunächst skizziere ich die übergreifenden Konfliktlinien zwischen Datenschutzrecht und generativer KI. Anschliessend gehe ich auf die spezifischen rechtlichen Fragen der DSGVO ein: den Anwendungsbereich und die Rechtsgrundlage für die Zulässigkeit verschiedener Schritte der Datenverarbeitung durch generative KI (Abschnitt 2), die Grundsätze der Datenverarbeitung (Abschnitt 3), die Rechte der betroffenen Personen (Abschnitt 4) und Fragen der Verantwortlichkeit (Abschnitt 5). In Abschnitt 6 diskutiere ich die Übertragbarkeit der Argumentation auf Modelle, die Bilder, Audio- und Videodateien erstellen. Der Artikel schliesst mit einem Ausblick (Abschnitt 7).
2. Strukturelle Herausforderungen generativer KI für das Datenschutzrecht
Das Datenschutzrecht in der EU wird in erster Linie durch die DSGVO geregelt. Das derzeitige System der DSGVO basiert auf der 1995 verabschiedeten Datenschutzrichtlinie, dem Recht auf Datenschutz (Artikel 8 GRCh) und dem Recht auf Privatsphäre (Artikel 7 GRCh) sowie den primären Rechtsgrundlagen in Artikel 16 AEUV. Artikel 1 DSGVO legt den Gegenstand und den Anwendungsbereich als die Verarbeitung personenbezogener Daten zum Schutz der Grundrechte und Grundfreiheiten natürlicher Personen fest. Dementsprechend ist der Begriff „Verarbeitung“ im Zusammenhang mit personenbezogenen Daten sehr weit gefasst und umfasst praktisch jede Interaktion mit personenbezogenen Daten. Aus diesem Grund können alle Phasen des Lebenszyklus eines KI-Modells in den Anwendungsbereich der DSGVO fallen, wenn personenbezogene Daten beteiligt sind.
Aus regulatorischer Sicht sind daher die verschiedenen Schritte der Datenverarbeitung im Lebenszyklus eines KI-Modells von Bedeutung und lassen sich bei generativen Modellen wie folgt unterscheiden: Der erste Schritt ist die Erhebung von Trainingsdaten, die aus vielen Datenpunkten bestehen. Diese Datenpunkte können personenbezogene oder nicht personenbezogene Informationen umfassen. In bestimmten Fällen werden dabei extrem grosse Datensätze verwendet, was eine Unterscheidung zwischen verschiedenen Datenkategorien schwierig, wenn nicht gar unmöglich macht. So wurde beispielsweise ChatGPT unter Verwendung umfangreicher, im Internet frei verfügbarer Daten entwickelt. Der zweite Schritt ist das eigentliche Training des Modells unter Verwendung der gesammelten Daten, das zu einem konfigurierten Modell führt. Der dritte Schritt ist die Modellanwendung, d. h. das trainierte Modell wird auf bestimmte Fälle oder Personen angewendet, wodurch das Modell zu einem Werkzeug wird, das als Reaktion auf Eingabedaten eine bestimmte Ausgabe berechnet. Aufgrund dieser Datenmenge und des Trainingsprozesses enthält die Modellausgabe Informationen über Fälle oder Personen sowie über „Dritte“, die nicht Teil der Trainingsdaten waren.
2.1 Menge
Der erste Problembereich betrifft die Frage, wie das Training leistungsfähiger KI-Modelle oder die Verarbeitung grosser Datenmengen in Bezug auf die verarbeitete Datenmenge funktioniert. Die schiere Menge der von leistungsfähigen KI-Modellen verarbeiteten Daten ist das zentrale, bislang ungelöste Problem der KI und des Datenschutzes. Generative KI-Modelle werden in der Regel mit Milliarden, wenn nicht sogar Hunderten von Milliarden Parametern trainiert und erfordern grosse Mengen an Trainingsdaten und Rechenleistung. Das Datenschutzrecht basiert hingegen auf der Idee, dass die einzelnen Schritte der Datenverarbeitung und die verarbeiteten Daten identifiziert werden können. Dieses Konzept wendet den Gedanken der individuellen Kontrolle an, um Einzelpersonen zu stärken, indem es ihnen ermöglicht, ihre eigenen personenbezogenen Daten zu verwalten. Modelle, die auf beispiellos grossen Datensätzen trainiert wurden, machen es jedoch unmöglich, manuell zu identifizieren oder auch nur zu überprüfen, ob die Daten en den gesetzlichen Anforderungen entsprechen, und bergen somit das Potenzial für Verletzungen der Privatsphäre und des Datenschutzes. Darüber hinaus steht dieser Ansatz im Widerspruch zum Grundsatz der Datenminimierung gemäss Artikel 5 Absatz 1 Buchstabe c. Diese Vorgehensweise offenbart die Governance-Probleme, die sich aus der systematischen Ausgestaltung der DSGVO ergeben, die beispielsweise die Einwilligung des Einzelnen als Grundlage für die Erlaubnis vorsieht und die Identifizierung einzelner betroffener Personen und der ihnen zuzuordnenden Daten voraussetzt.
2.2 Zwecke
Auch in Bezug auf die Relevanz der Zwecke scheinen Datenschutz und Privatsphäre im Widerspruch zum allgemeinen Konzept der generativen KI zu stehen. Datenschutz ist in hohem Masse kontextabhängig, und sein Schutzniveau hängt davon ab, welche Art von Daten verarbeitet wird, von wem, in welchem Umfeld und zu welchen Zwecken (Artikel 5 Absatz 1 Buchstabe b). LLMs hingegen decken ein breites Spektrum von Zwecken, Anwendungen und Betriebsumgebungen ab. Gemäss Artikel 3 Absatz 63 der neuen europäischen Verordnung über KI (im Folgenden: KI-Gesetz) umfasst ein Allzweck-KI-Modell KI-Modelle, die mit einer grossen Datenmenge unter Verwendung von Selbstüberwachung in grossem Massstab trainiert wurden, eine erhebliche Allgemeinheit aufweisen, in der Lage sind, eine Vielzahl unterschiedlicher Aufgaben unabhängig davon, wie das Modell in Verkehr gebracht wird, kompetent auszuführen, und die in eine Vielzahl von nachgelagerten Systemen oder Anwendungen integriert werden können. Nicht darunter fallen KI-Modelle, die vor ihrer Inverkehrbringung für Forschungs-, Entwicklungs- oder Prototyping-Tätigkeiten verwendet werden. Diese Definition beschreibt die aktuelle Marktsituation gut: OpenAI bietet beispielsweise mittlerweile eine grössere Auswahl an verschiedenen GPTs für spezifische Aufgaben an: den „Laundry Buddy“ für Fragen zu Flecken und Waschprogrammen, den „Sous Chef“, der Nutzern Rezepte liefert, oder den „Negotiator“, der Nutzern hilft, in ihrem Sinne zu argumentieren (verfügbar unter ChatPT 4o auf chatgpt.com mit kostenpflichtigem Abonnement). Diese nachgelagerten Anwendungen werden an Bedeutung gewinnen, da davon auszugehen ist, dass die Basismodelle nicht wie bisher vor allem als isolierte Anwendungen genutzt werden, sondern als modulare Bausteine in andere Modelle integriert werden. Dadurch werden sowohl wünschenswerte als auch unerwünschte Effekte aufgrund der möglichen Skalierung der Modelloutputs zunehmen. Hier ist bereits der Designaspekt von LLMs schwer mit der Gesetzgebung in Einklang zu bringen und scheint im Widerspruch zum Zweckbindungsgrundsatz der DSGVO zu stehen. Insbesondere wenn Modelle über eine Schnittstelle zahlreichen Dritten zur Verfügung gestellt werden, wird es schwierig, wenn nicht gar unmöglich, die Kompatibilität dieses Modells und seiner Daten mit den Zwecken zu gewährleisten, für die die personenbezogenen Daten ursprünglich erhoben wurden (Artikel 6 Absatz 4).
3. Geltungsbereich der DSGVO und Rechtsgrundlage
Die DSGVO ist sachlich und räumlich offen, d. h. sie gilt für die Verarbeitung personenbezogener Daten für Tätigkeiten innerhalb der EU, auch wenn diese Verarbeitung an einem anderen Ort erfolgt (Artikel 3 Absatz 1), und wenn Waren oder Dienstleistungen für betroffene Personen in der Union angeboten werden (Artikel 3 Absatz 2). Sie gilt daher für alle generativen Modelle, die in der Union verwendet werden.
3.1 Anwendungsbereich
3.1.1 Personenbezogene Daten
Die DSGVO gilt für die Verarbeitung personenbezogener Daten (Artikel 2 Absatz 1), sofern keine der Ausnahmen in den Absätzen 2 und 3 zutrifft. Diese Verarbeitung umfasst sowohl die Erhebung von Trainingsdaten und das Training der Modelle als auch die Nutzung oder den Verkauf des Modells zur Generierung von Ergebnissen auf Grundlage von Nutzeranfragen.
Die Verarbeitung personenbezogener Daten beginnt mit Schritt eins, der Erhebung grosser Datenmengen, mit denen ein LLM trainiert wird. Da die Wirksamkeit von LLMs in direktem Zusammenhang mit der Breite und Vielfalt ihrer Datensätze steht, werden diese Daten durch das Scraping von Inhalten zahlreicher Websites gewonnen. Dabei fallen zwangsläufig auch personenbezogene Daten wie Namen, Geburtsdaten oder andere identifizierende Informationen an. Da personenbezogene Daten auch unvollständige oder indirekte Angaben umfassen, die durch zusätzliche Informationen zu einer Identifizierung einer Person führen können, fällt diese Verarbeitung bereits vor dem Training oder der Freigabe des Modells unter die DSGVO.
Im zweiten Schritt der Datenverarbeitung, dem Training des Modells, wird die Identifizierung personenbezogener Daten schwieriger, da das endgültige trainierte Modell von den Trainingsdaten abweichen kann. Ein künstliches neuronales Netzwerk wird beispielsweise durch eine grosse Matrix von Zahlen dargestellt, die wiederum durch Gewichte und andere Parameter wie Aktivierungsschwellen bestimmt werden. Während die Trainingsdaten personenbezogene Informationen enthalten können, müssen die Daten im Modell diese Eigenschaft nicht unbedingt beibehalten: Personenbezogene Daten können anonymisiert werden, wenn während des Trainingsprozesses fortschrittliche Techniken wie Differential Privacy und föderiertes maschinelles Lernen eingesetzt werden, um Verweise auf die Trainingsdaten zu entfernen.
Ein trainiertes Modell, das aus einer solchen Anonymisierung hervorgeht und die Rekonstruktion der Trainingsdaten unmöglich oder höchst unwahrscheinlich macht, gilt nicht als personenbezogene Daten. Die derzeit beliebten grossen Sprachmodelle auf Basis von „ “ neigen jedoch dazu, identifizierende Informationen zu produzieren, sei es absichtlich oder zufällig. Es kann daher nicht immer davon ausgegangen werden, dass Modelldaten vollständig anonymisiert wurden: Die Forschung zu diesem „Erinnerungsphänomen“ ist noch nicht abgeschlossen. Dies ist aus Sicht der DSGVO von entscheidender Bedeutung, da die Speicherung des Modells ebenfalls eine Datenverarbeitung im Sinne der DSGVO darstellt, wenn die Modelldaten nicht anonymisiert sind. Darüber hinaus argumentieren viele Autoren, dass die Anonymisierung personenbezogener Daten selbst ebenfalls eine Verarbeitung darstellt, die nach der DSGVO einer Rechtfertigung bedarf.
Im dritten Verarbeitungsschritt, der Erstellung der Ausgabe, können die Modelle oder Anwendungen, die sie verwenden, personenbezogene Daten erzeugen. Dabei ist es unerheblich, ob die bereitgestellten Informationen korrekt sind oder nicht: Wenn LLMs Ausgaben erstellen, die Namen und bibliografische Informationen realer Personen enthalten, verarbeiten sie personenbezogene Daten. Darüber hinaus können Personen oft leicht anhand des Kontexts der Textvorlage oder der Textausgabe oder mithilfe von Suchmaschinen identifiziert werden. Mit Suchmaschinen verknüpfte LLMs können die Identifizierung ebenfalls erleichtern. Insbesondere bei öffentlichen LLMs ist es aus den oben genannten Gründen wahrscheinlich, dass viele betroffene Personen identifiziert werden können. Es ist wichtig zu beachten, dass die Personen in den Trainingsdaten theoretisch nicht mit denen in den Output-Daten identisch sind, selbst wenn sie denselben Namen haben, da LLMs auch Namen von existierenden Personen generieren können, beispielsweise durch die Erstellung von Informationen, die dann von Nutzern zugeordnet werden können.
3.1.2 Räumlicher Geltungsbereich
Artikel 3 Absatz 1 DSGVO besagt, dass die Verordnung „auf die Verarbeitung personenbezogener Daten im Rahmen der Tätigkeiten einer Niederlassung eines Verantwortlichen oder eines Auftragsverarbeiters in der Union [Anm. d. Red.: EU] Anwendung findet, unabhängig davon, ob die Verarbeitung in der Union stattfindet oder nicht“. Somit muss die Verarbeitung personenbezogener Daten nicht in der Union selbst stattfinden, sondern kann auch auf Servern erfolgen, die beispielsweise in den USA oder anderen Drittländern stehen. Wie bereits erwähnt, ist die lex loci-Lösung das Prinzip der DSGVO, Artikel 3 Absatz 2 DSGVO, was bedeutet, dass die Anforderungen auch dann gelten, wenn der Datenverarbeiter nicht in der EU ansässig ist, aber seine Dienste EU-Bürgern anbietet. Damit fallen globale Technologien wie LLMs und andere KI-Modelle wie Chat-GPT, Bard, Gemini usw., die aus der Europäischen Union zugänglich sind, eindeutig unter die DSGVO.
3.2 Rechtsgrundlage für die Datenverarbeitung
Jede Verarbeitung personenbezogener Daten im Anwendungsbereich der DSGVO bedarf einer Rechtsgrundlage, Artikel 6 Absatz 1 DSGVO. Die Frage der Rechtsgrundlage für die Datenverarbeitung über den gesamten Lebenszyklus eines generativen KI-Systems wirft unterschiedliche Probleme auf, da sie vom Stadium der Datenverarbeitung abhängt. Wie bereits dargelegt, ist es bei der Analyse von KI und Datenschutz unerlässlich, zwischen den verschiedenen Schritten der Datenverarbeitung zu unterscheiden.
3.2.1 Erhebung von Trainingsdaten
Der erste Schritt im Lebenszyklus eines generativen Modells ist die Erhebung von Trainingsdaten. Bei LLMs wie GPT-4 oder Bard besteht dieser Schritt darin, Daten aus dem Internet zu scrapen. Das wahllose Durchsuchen fast des gesamten Internets schliesst logischerweise die Rechtsgrundlage der Einwilligung gemäss Artikel 6 Absatz 1 Buchstabe a aus. In Ermangelung gesetzlicher Verpflichtungen oder vertraglicher Beziehungen zwischen den Betreibern von LLMs und allen Internetnutzern weltweit kann das Scraping von Trainingsdaten nur auf der Rechtsgrundlage des berechtigten Interesses gemäss Artikel 6 Absatz 1 Buchstabe f DSGVO beruhen.
Artikel 6 Absatz 1 Buchstabe f DSGVO besagt, dass die Datenverarbeitung rechtmässig ist, wenn sie zur Wahrung der berechtigten Interessen des Verantwortlichen oder eines Dritten erforderlich ist, sofern nicht die Grundrechte und Grundfreiheiten der betroffenen Personen, die der Verarbeitung durch den Verantwortlichen unterliegen, überwiegen. Der EuGH hat klargestellt, dass diese Bestimmung drei kumulative Voraussetzungen für die Rechtmässigkeit der Verarbeitung personenbezogener Daten festlegt: (1) die Verfolgung eines berechtigten Interesses durch den Verantwortlichen oder einen Dritten; (2) die Verarbeitung personenbezogener Daten muss zur Verfolgung dieses berechtigten Interesses erforderlich sein; und (3) das berechtigte Interesse des Verantwortlichen oder eines Dritten darf nicht durch die Interessen oder Grundrechte und Grundfreiheiten der betroffenen Person überwiegen.
Die Tatsache, dass dies die einzige plausible Rechtsgrundlage darstellt, offenbart das strukturelle Problem des Datenschutzrechts im Zusammenhang mit datenintensiven Technologien, nicht zuletzt, weil die Frage, ob Artikel 6 Absatz 1 Buchstabe f eine ausreichende Rechtsgrundlage bietet, von Fall zu Fall zu entscheiden ist. Es gibt Hinweise darauf, dass das allgemeine Interesse den Zweck der Verarbeitung überwiegen kann oder dass davon ausgegangen werden kann, wenn die betroffenen Personen vernünftigerweise davon ausgehen können, dass ihre Daten zu Schulungszwecken verarbeitet werden. Letztendlich hängt dies vom Einzelfall ab. Die Art und Weise, wie Massendaten-Scraping funktioniert, macht es jedoch fast unmöglich, individuelle Interessen überhaupt zu ermitteln, und kann daher im Rahmen der aktuellen Rechtslehre und der Rechtsordnungen keine zufriedenstellenden Antworten liefern.
3.2.2 Berechtigtes Interesse
Der Begriff „berechtigte Interessen” ist bewusst weit gefasst, um rechtliche, wirtschaftliche oder idealistische Interessen zu erfassen, wobei nur hypothetische und öffentliche Interessen ausgeschlossen sind. Die Erhebung von Daten zum Training eines generativen Modells für kommerzielle Zwecke ist zunächst ein berechtigtes wirtschaftliches Interesse und durch die unternehmerische Freiheit gemäss Artikel 16 EGKR geschützt. Das Argument, dass der EuGH im Fall Google Spain auch die Informationsfreiheit (Artikel 11 Absatz 2 EGKR) als berechtigtes Interesse an der Verarbeitung, das auf das Training generativer Modelle übertragbar ist, angeführt hat, gilt nicht für Modelle, die nur gegen Entgelt zugänglich sind. Darüber hinaus funktionieren Suchmaschinen und generative Modelle unterschiedlich und sind daher nicht vergleichbar. Quellenangaben in Suchmaschinen können gelöscht oder korrigiert werden, während LLMs für jede Frage einen einzigartigen neuen Text generieren, für den eine neue Wahrscheinlichkeit berechnet wird. Ist der ausgegebene Text falsch, kann er für zukünftige Ausgaben nicht korrigiert werden.
3.2.3 Notwendigkeit
Der Erforderlichkeitstest gemäss Artikel 3 Absatz 1 Buchstabe f dieser Bestimmung bedeutet, dass die Verarbeitung personenbezogener Daten ein verhältnismässiges Mittel zur Erreichung der berechtigten Interessen sein muss. Die Verarbeitung gilt als erforderlich, wenn die Verarbeitung personenbezogener Daten für die Erreichung des Ziels des berechtigten Interesses des Verantwortlichen, in diesem Fall ein trainiertes KI-Modell, unerlässlich ist und diese Interessen nicht die Rechte der betroffenen Person überwiegen. In seltenen Fällen, in denen nur anonymisierte Daten für das Training des Modells ausreichen, sind für das Training möglicherweise keine personenbezogenen Daten erforderlich. Anonymisierte Daten allein reichen jedoch in der Regel nicht für das Training generativer Modelle aus, selbst wenn eine solche Anonymisierung in der Trainingsphase möglich wäre.
3.2.4 Interessenabwägung
Artikel 6 Absatz 1 Buchstabe f DSGVO verlangt eine Abwägung der widerstreitenden Rechte und Interessen zwischen dem Auftragsverarbeiter und der betroffenen Person, wobei auch die Rechte der betroffenen Personen gemäss den Artikeln 7 und 8 EG-GRÜNDUNGSVERTRAG zu berücksichtigen sind. Ihre Interessen sind besonders betroffen, wenn KI personenbezogene Daten, die im Internet verfügbar sind, als Antwort auf Nutzeranfragen sammelt, verknüpft und kontextualisiert.
Die Tatsache, dass leistungsfähige generative Modelle eine grosse Menge an Trainingsdaten benötigen, um ein bestimmtes Leistungsniveau zu erreichen, z. B. um Wortfolgen zu generieren, die der menschlichen Sprache entsprechen, spricht für die Interessen der Betreiber. Es ist jedoch nicht zwingend erforderlich, Daten in einem Umfang zu scrapen, der fast alle öffentlich zugänglichen Ressourcen im Internet abdeckt, um generative Modelle zu entwickeln: Datensätze können auch auf andere Weise generiert werden, z. B. durch Datenspenden, wirksame Einwilligungslösungen oder die Datenerhebung durch den Datenverantwortlichen selbst. Allerdings würde keine dieser Alternativen die erforderliche Datenbreite schaffen. Es stellt sich daher die Frage, welches konkrete Interesse des Datenverarbeiters schutzwürdig ist. Meta hat beispielsweise öffentlich eingeräumt, dass die Erwerbung von Lizenzen für urheberrechtlich geschütztes Material die Entwicklung generativer Modelle erheblich erschwert hätte, einfach weil sie dadurch teurer geworden wären. Das gleiche Argument wurde gegen die datenschutzkonforme Erhebung von Trainingsdaten vorgebracht: Der Ansatz hätte erhebliche Ressourcen erfordert. Es ist jedoch unwahrscheinlich, dass Kosteneinsparungen ein berechtigtes Interesse darstellen können, und ein auf strukturellen Verstössen beruhendes Interesse hat ohnehin einen erheblich geringeren Schutzwert.
Im Fall Meta entschied der EuGH ausserdem, dass die Personalisierung von Inhalten – das Kerngeschäftsmodell von Meta – für den Betrieb eines sozialen Netzwerks nicht erforderlich ist.
Der EuGH führte weiter aus, dass berechtigte Interessen die Praktiken von Meta, Personen zum Zwecke der betriebsinternen verhaltensorientierten Werbung auf seinen sozialen Plattformen zu verfolgen und zu profilieren, nicht ausreichend rechtfertigen:
Es ist darauf hinzuweisen, dass der Nutzer eines sozialen Netzwerks wie Facebook, auch wenn dessen Dienste kostenlos sind, nicht vernünftigerweise erwarten kann, dass der Betreiber des sozialen Netzwerks seine personenbezogenen Daten ohne seine Einwilligung für personalisierte Werbung verarbeitet. Unter diesen Umständen ist davon auszugehen, dass die Interessen und Grundrechte eines solchen Nutzers das Interesse des Betreibers an einer solchen personalisierten Werbung, mit der er seine Tätigkeit finanziert, überwiegen, so dass die Verarbeitung durch diesen Betreiber zu diesen Zwecken nicht unter Artikel 6 Absatz 1 Unterabsatz 1 Buchstabe f der DSGVO fallen kann.
Dies wirft erhebliche Zweifel daran auf, ob Unternehmen wie OpenAI die Verarbeitung grosser Mengen personenbezogener Daten zum Aufbau eines kommerziellen Unternehmens im Bereich der generativen KI rechtfertigen können, insbesondere angesichts der zahlreichen neuen Risiken, die solche Tools für identifizierte Personen mit sich bringen, darunter Desinformation, Verleumdung, Identitätsdiebstahl und Betrug.
Der Kontext ist daher für den Schutz der Privatsphäre und den Datenschutz von entscheidender Bedeutung. Die öffentliche Zugänglichkeit von Daten im Internet, selbst wenn sie von den betroffenen Personen selbst offengelegt wurden, hebt deren berechtigtes Interesse an deren Schutz nicht vollständig auf. Wie in Erwägungsgrund 47 festgestellt wird, können die Interessen und Grundrechte der betroffenen Person insbesondere dann Vorrang vor dem Interesse des Verantwortlichen haben, wenn personenbezogene Daten unter Umständen oder in einer Weise verarbeitet werden, die die betroffenen Personen nicht vernünftigerweise erwarten können. Obwohl es mittlerweile allgemein bekannt ist, dass im Internet veröffentlichte Daten auf andere Weise verarbeitet werden können als ursprünglich angenommen, kommt es auch auf den konkreten Zweck der Verarbeitung an. So bedeutet die berechtigte Erwartung auf Privatsphäre, dass jahrzehntealte oder gelöschte Beiträge, persönliche Websites und Einträge nicht auf unbegrenzte Zeit für das Training kommerzieller Modelle verwendet werden dürfen. Es ist davon auszugehen, dass der typische Internetnutzer nicht erwartet oder beabsichtigt, dass seine Daten als Trainingsmaterial für LLMs zum finanziellen Vorteil anderer verwendet werden. Daher stellt die Verwendung der Daten zum Training dieser Modelle einen sekundären Zweck dar. In den meisten Fällen ist es unwahrscheinlich, dass eine betroffene Person ihre Daten öffentlich zugänglich gemacht hat, um sie als Datensatz zum finanziellen Vorteil von LLM-Anbietern zu nutzen, sodass die Verwendung solcher öffentlich zugänglichen Daten eine Verletzung der kontextbezogenen Privatsphäre darstellt.
Darüber hinaus muss ein berechtigtes Interesse im weiteren europäischen und nationalen regulatorischen Kontext festgestellt werden. Der breite Anwendungsbereich des Scraping bedeutet auch, dass eine unüberschaubare Anzahl von Personen betroffen ist, was die Rechtmässigkeit unter dem Gesichtspunkt der Verhältnismässigkeit in Frage stellt. Nach der deutschen Verfassungsrechtslehre des Bundesverfassungsgerichts kann dies zu einer Verschärfung von Eingriffen führen, wenn eine besonders grosse Zahl von Personen ohne Grund betroffen ist, was die Rechtfertigung in Frage stellen kann. Diese Auswirkung wird als „Streubreite” bezeichnet und ist ein Argument, das auch vom EuGH verwendet wird. Solche Auswirkungen treten auch bei einer universellen Datenverarbeitung auf, da fast alle Internetnutzer betroffen sind.
Darüber hinaus muss das berechtigte Interesse auch rechtmässig sein, d. h. es sollte allen geltenden Gesetzen und Vorschriften entsprechen, einschliesslich der Grundsätze und sonstigen Bestimmungen des Datenschutzrechts. Dazu gehört auch, dass die Verarbeitung den Erwartungen der betroffenen Person aufgrund ihrer Beziehung zum Verantwortlichen entspricht, den Grundsätzen der Datenminimierung entspricht und geeignete Garantien vorsieht. Im Falle eines gross angelegten Web-Scraping sind individuelle Interessen schwer zu identifizieren. Allerdings gab es von Anfang an Bedenken hinsichtlich der Rechtmässigkeit des Scraping, auch im Hinblick auf mögliche Urheberrechtsverletzungen. Ein durch strukturelle Verstösse verfolgtes Interesse kann nicht berechtigt sein.
Bei der Abwägung der Interessen spielt auch die Vereinbarkeit mit den Grundsätzen des Datenschutzrechts gemäss Artikel 5 DSGVO eine Rolle. Dies erfordert eine Bewertung der berechtigten Interessen im Hinblick auf die Fairness der Verarbeitung (Artikel 5 Absatz 1 Buchstabe a), die Zweckbindung (Artikel 5 Absatz 1 Buchstabe b), die Datenminimierung (Artikel 5 Absatz 1 Buchstabe c) und die Richtigkeit der Daten (Artikel 5 Absatz 1 Buchstabe d).
Daher kann nicht bei allen Trainingsdaten von berechtigten Interessen ausgegangen werden. Die Angelegenheit wird noch komplexer, da es äusserst schwierig, wenn nicht gar unmöglich ist, personenbezogene Daten von Minderjährigen oder besondere Kategorien personenbezogener Daten gemäss Artikel 9 Absatz 1 vollständig aus den Trainingsdaten auszuschliessen. Erschwerend kommt hinzu, dass noch nicht abschliessend geklärt ist, ab wann die Verarbeitung personenbezogener Daten besondere Kategorien personenbezogener Daten im Sinne von Artikel 9 Absatz 1 DSGVO „offenbart“.
3.2.5 Training des Modells
Es lohnt sich, die verschiedenen Datenverarbeitungsvorgänge, die für das Training des Modells verwendet werden, chronologisch zu betrachten. Eine wichtige Frage ist dabei, ob die Anonymisierung der Daten während des Modelltrainings erfolgt. Die vorherrschende Auffassung ist, dass eine Erlaubnisgrundlage erforderlich ist. In diesem Zusammenhang wird Anonymisierung eher normativ als technisch verstanden, in Übereinstimmung mit dem EuGH-Urteil, wonach Daten auch dann als anonymisiert gelten, wenn es zwar technisch möglich, aber unwahrscheinlich ist, dass der Verantwortliche mit den verfügbaren Mitteln, einschliesslich zusätzlicher Informationen, eine Identifizierung vornehmen kann. Darüber hinaus gelten Daten nach Ansicht des Gerichtshofs als anonym im Sinne der DSGVO, wenn eine Re-Identifizierung rechtswidrig ist.
Grundsätzlich ist die Anonymisierung personenbezogener Daten nach Artikel 6 DSGVO in der Regel leicht zu rechtfertigen. Die Praxis steht im Einklang mit dem Grundsatz der Datenminimierung und Speicherbegrenzung, und eine wirksame und dauerhafte Anonymisierung kann sowohl den Interessen der betroffenen Personen als auch denen der Verantwortlichen dienen: Erstere werden vor unbefugten Eingriffen in ihre grundlegenden Datenschutzrechte geschützt, während Letztere von einigen der vermeintlichen Belastungen durch die Einhaltung der strengen Anforderungen des Datenschutzrechts befreit werden. Dieses Argument ist jedoch angesichts des Datenvolumens schwer haltbar, da eine wirksame Einwilligung der betroffenen Personen gemäss Artikel 6 Absatz 1 Buchstabe a und Artikel 7 DSGVO in der Praxis nicht eingeholt werden kann.
Zwar ist es denkbar, eine gesetzliche Verpflichtung zur Anonymisierung von Trainingsdaten gemäss Artikel 6 Absatz 1 Buchstabe c einzuführen, doch ist dies in der Praxis noch nicht relevant. Dies bedeutet, dass die Rechtsgrundlage des berechtigten Interesses in Artikel 6 Absatz 1 Buchstabe f auch für die Anonymisierung gelten kann. Generell kann diese Bestimmung zu angemessenen Ergebnissen führen, da die Anonymisierung in der Regel im Interesse der betroffenen Personen selbst liegt und zumindest ein Interessenkonflikt unwahrscheinlich ist. Bei grossen LLMs ist es ebenso unwahrscheinlich, dass eine betroffene Person ein individuelles Interesse an der Nichtanonymisierung hat, und selbst wenn ein solches Interesse einer einzelnen betroffenen Person besteht, würde es andere relevante Interessen, z. B. der anderen betroffenen Personen, überwiegen.
Die Bewertung der Verarbeitung besonderer Kategorien personenbezogener Daten nach Artikel 9 ist schwieriger. Wenn die Anonymisierung als rechtfertigungsbedürftige Verarbeitung einen Fall nach Artikel 9 Absatz 2 erfordern würde. Wie oben beschrieben, kann die Verarbeitung besonderer Datenkategorien für LLMs nicht ausgeschlossen werden. Die Hürden des Artikels 9 Absatz 2 sind zwar hoch, aber die Bestimmung „veröffentlicht“ in Artikel 9 Absatz 2 Buchstabe e kann hier ebenfalls berücksichtigt werden. Andere plädieren für eine teleologische Reduzierung von Artikel 9 Absatz 1 für die Anonymisierung. Keine der beiden Varianten stellt eine Verletzung der Rechte der betroffenen Personen dar, wenn die Trainingsdaten anonymisiert wurden. Diese komplexen Überlegungen zeigen allein schon, dass es Lücken zwischen dem personenbezogenen Ansatz der DSGVO und den Instrumenten gibt, die für eine angemessene Regulierung generativer KI erforderlich sind.
3.2.6 Generierung von Ergebnissen
Die Ausgabe generativer Sprachmodelle kann die Verarbeitung personenbezogener Daten darstellen. Hier ist zwischen der Verarbeitung von gescrapten Trainingsdaten und der Verarbeitung von Nutzerdaten in Form von Eingabeaufforderungen während der Nutzung des Modells zu unterscheiden. Es besteht kein berechtigtes Interesse an der Verarbeitung von Nutzerdaten, z. B. im Zusammenhang mit Eingabeaufforderungen bei der Nutzung von LLMs. Stattdessen muss eine wirksame Einwilligung gemäss Artikel 6 Absatz 1 Buchstabe a eingeholt werden, eine rechtliche Massnahme, die im digitalen Raum kritisch zu bewerten ist. Open AI musste nach einer Untersuchung durch die italienische Datenschutzbehörde seine Datenschutzerklärung für EU-Nutzer aktualisieren. Darin heisst es nun: „Wir verwenden die von Ihnen bereitgestellten Inhalte, um unsere Dienste zu verbessern, beispielsweise um die Modelle zu trainieren, die unsere Dienste ausführen. Lesen Sie unsere Anweisungen, wie Sie der Verwendung Ihrer Inhalte zum Trainieren unserer Modelle widersprechen können.“ Die Einwilligung ist jedoch nur eine gültige Grundlage für Eingabeaufforderungen, die personenbezogene Daten über den Nutzer selbst enthalten. Wenn Nutzer Eingabeaufforderungen generieren, die personenbezogene Daten anderer Personen enthalten, können sie nicht wirksam in deren Namen einwilligen.
Wenn ein generatives Modell in der Lage ist, Ergebnisse zu liefern, die personenbezogene Daten enthalten, bleibt die Frage, wie die Trainingsdaten erhoben wurden, während des gesamten Lebenszyklus des Modells relevant. Wenn es keine Rechtsgrundlage für die Erhebung der Trainingsdaten gab, gibt es auch keine Rechtsgrundlage für deren Verwendung zur Erzeugung von Ergebnissen. Theoretisch könnte hier auch ein berechtigtes Interesse gemäss Artikel 6 Absatz 1 Buchstabe f in Betracht kommen, das jedoch anhand der oben beschriebenen Kriterien im Einzelfall geprüft werden muss. LLMs erschweren jedoch individuelle Bewertungen aufgrund der Menge der von ihnen verarbeiteten Daten. Darüber hinaus sind generative Modelle hinsichtlich ihrer Ergebnisse skalierbar, was bedeutet, dass falsche Informationen an eine grosse Anzahl von Nutzern und Dritten verbreitet werden können.
Die Verarbeitung der Ergebnisse ist auch problematisch, wenn Modelle besondere Kategorien personenbezogener Daten gemäss Artikel 9 Absatz 1 DSGVO ableiten oder offenlegen. Es hat sich gezeigt, dass Modelle private und personenbezogene Informationen wie Telefonnummern, Adressen und medizinische Dokumente speichern und reproduzieren können. Im Zeitalter von Big Data ist es nun potenziell möglich, aus fast allen Daten sensible Informationen abzuleiten, insbesondere wenn man die grenzenlose Kategorie der politischen Meinungen einbezieht, die in Artikel 9 Absatz 1 DSGVO enthalten ist. Das bedeutet, dass „normale“ personenbezogene Daten besondere Kategorien personenbezogener Daten im Sinne von Artikel 9 Absatz 1 offenlegen können, obwohl die Kriterien für die Unterscheidung zwischen allgemeinen und sensiblen Daten nach wie vor umstritten sind. Ein vorgeschlagenes Kriterium bezieht sich auf die Absicht hinter der Datenverarbeitung. In Szenarien mit kontextspezifischen Informationen könnte der Zweck der Auswertung je nach Auswertungszweck zur Generierung sensibler Daten führen. Gerichtsurteile stützen diese Annahme tendenziell: Der EuGH schien den Begriff „offenlegen“ im Fall Meta weit auszulegen, und in einem anderen Urteil entschied das Gericht, dass die Offenlegung des Namens eines Ehepartners, Lebenspartners oder Lebensgefährten möglicherweise auf die sexuelle Orientierung des Antragstellers hindeuten könnte. Der Gerichtshof hat Mindestkriterien für die „Offenlegung“ sensibler Daten festgelegt: Eine „intellektuelle Verarbeitung, die einen Vergleich oder eine Schlussfolgerung beinhaltet“, reicht aus, um den besonderen Schutz für sensible Daten auf personenbezogene Daten auszudehnen, die nicht von Natur aus sensibel sind. Dieses Urteil stand jedoch nicht in direktem Zusammenhang mit Big Data, sodass die Unterscheidung etwas unklar bleibt.
In vielen Fällen im Zusammenhang mit Big Data kann daher bereits die blosse Möglichkeit, sensible Informationen abzuleiten, dazu führen, dass Prozesse wie das Training von KI den Bestimmungen des Artikels 9 unterliegen, und es ist unwahrscheinlich, dass LLMs die Ausnahmen in Artikel 9 Absatz 2 erfüllen. So ist beispielsweise die Forschungsausnahme gemäss Artikel 9 Absatz 2 Buchstabe j auf die «Entwicklung von Modellen zu Forschungszwecken» beschränkt und erlaubt keine kommerzielle Verwertung, wie in den Erwägungsgründen 159 und 162 dargelegt.
Eine weitere wichtige Unterscheidung besteht darin, ob LLM-Ausgaben dazu verwendet werden können, sensible Informationen über Personen abzuleiten, die diese nicht selbst veröffentlicht haben. Selbst wenn bestimmte Indikatoren, z. B. für die politische Orientierung, im Internet verfügbar sind, können LLM-Ausgaben diese Informationen aggregieren. Daher stellt Artikel 9 Absatz 2 Buchstabe e keine Rechtsgrundlage für diese Art der Ableitung dar.
Die Anforderungen an die Richtigkeit der Daten (Artikel 5 Absatz 1 Buchstabe d DSGVO) gelten auch für LLM-Ausgaben. Es hat sich gezeigt, dass LLMs „halluzinieren“ und falsche Informationen, einschliesslich falscher personenbezogener Daten, produzieren können. Nach der DSGVO sind die Betreiber für die Gewährleistung der Richtigkeit der Daten verantwortlich (Artikel 5 Absatz 2, Artikel 24 und Artikel 25 Absatz 1 DSGVO). Zwar enthalten alle gängigen Anwendungen Haftungsausschlüsse, die die Nutzer darauf hinweisen, dass die Modelle nicht immer korrekt sein können, doch ist die Wirksamkeit solcher Hinweise angesichts der Automatisierungsverzerrung fraglich. Auch wenn die derzeitige Fehlerquote von LLMs ein generelles Verbot solcher Anwendungen aus Gründen der Datengenauigkeit nicht rechtfertigt, beeinträchtigt sie doch die Rechte der betroffenen Personen. Das Recht auf Datengenauigkeit gewinnt noch mehr an Bedeutung, wenn das Recht auf Berichtigung oder Löschung nicht wirksam durchgesetzt werden kann.
4. Rechte der betroffenen Personen
Wie in anderen Bereichen datenintensiver Technologieanwendungen gibt es auch bei generativen Modellen Probleme mit der Durchsetzung der Rechte der betroffenen Personen. Im Allgemeinen werden viele datengesteuerte KI-Technologien von einer Handvoll grosser Technologieunternehmen entwickelt, vermarktet, verkauft und genutzt, was zu einer Informationsasymmetrie zwischen den mächtigen Verarbeitern und den Nutzern führt. Infolgedessen reichen Datenschutzrechte allein nicht aus, um das Problem der Datenentmachtung zu lösen. Einzelpersonen verfügen in der Regel nur über begrenzte Möglichkeiten, ihre personenbezogenen Daten zu verwalten, da ihre Kontrollmöglichkeiten grundsätzlich begrenzt sind. Zwar können Rechte in bestimmten Einzelfällen einen gewissen Einfluss gewähren, doch ist dieser zu sporadisch und unzusammenhängend, um die Privatsphäre wirksam zu schützen. Letztendlich fungieren Rechte in erster Linie als untergeordnetes Element innerhalb eines umfassenderen Rahmens.
Die schiere Menge der aus verschiedenen Quellen verarbeiteten Daten scheint es unmöglich zu machen, Einzelpersonen über die Verarbeitung oder den Verarbeiter ihrer Daten zu informieren, wodurch die Einhaltung des Rechts auf Information praktisch ausgeschlossen ist und es für die betroffenen Personen schwierig wird, ihre Rechte geltend zu machen. In der Praxis zeigen Berichte, dass Unternehmen wie OpenAI und Midjourney nicht auf Auskunftsersuchen von Personen reagiert haben, die sich in den Trainingsdaten wiedergefunden haben.
Die Voraussetzung für die Ausübung der Rechte der betroffenen Personen gemäss den Artikeln 13 bis 22 der DSGVO ist in erster Linie, dass die betroffene Person über die Datenverarbeitung informiert ist. Nutzer, die in Form von Eingabeaufforderungen Input in ein KI-Modell liefern, fallen unter Artikel 13 DSGVO. Artikel 14 DSGVO kommt jedoch auch dann zum Tragen, wenn die Daten nicht von den betroffenen Personen selbst erhoben wurden. Nach beiden Normen müssen die betroffenen Personen darüber informiert werden, wer welche Daten (Datenkategorien) zu welchen Zwecken und auf welcher Rechtsgrundlage verarbeitet hat und ob diese Daten an Dritte weitergegeben wurden. Diese Transparenzbestimmungen dienen insbesondere dazu, den betroffenen Personen die Ausübung ihrer anderen Rechte, wie das Recht auf Löschung oder Berichtigung, zu ermöglichen. Artikel 14 Absatz 5 enthält die Ausnahme, dass die Transparenzpflicht nicht gilt, wenn und soweit die Bereitstellung dieser Informationen unmöglich ist oder einen „unverhältnismässigen Aufwand erfordern würde, insbesondere bei Verarbeitung zu Zwecken der Archivierung im öffentlichen Interesse, zu wissenschaftlichen oder historischen Forschungszwecken oder zu statistischen Zwecken […] In solchen Fällen trifft der Verantwortliche geeignete Massnahmen, um die Rechte und Freiheiten sowie die berechtigten Interessen der betroffenen Person zu schützen, einschliesslich der Veröffentlichung der Informationen.“
Auch hier kommt es auf den Einzelfall an, wobei es fraglich erscheint, ob LLM-Betreiber sich auf Unzumutbarkeit berufen können, wenn sie bereits vor der Entwicklung des Modells wussten, dass individuelle Auskunftsersuchen nicht durchsetzbar sind. In jedem Fall bedeutet der Grundsatz der Verantwortlichkeit in Artikel 5 Absatz 2 DSGVO, dass eine Nichtbeantwortung solcher Anfragen oder ein Verweis auf eine allgemeine Unmöglichkeit nicht ausreicht.
Die Praxis hat gezeigt, dass LLMs und möglicherweise auch andere generative KI-Modelle, die Inhalte produzieren, fast universell funktionieren, nicht nur auf individueller Ebene. Diese nahezu universelle Rechtsverletzung spiegelt die tiefgreifende Diskrepanz zwischen datenintensiven Modellen und dem individuellen Rechtsansatz der Datenschutzgesetze wider. Aufgrund dieser Universalität existieren andere Rechte der betroffenen Personen, wie das Recht auf Berichtigung (Artikel 16 DSGVO) und das Recht auf Löschung (Artikel 17 DSGVO), zwar auf dem Papier, sind aber in der Praxis nicht durchsetzbar. Darüber hinaus können Löschungsanträge einer einzelnen betroffenen Person nicht zum gewünschten Ergebnis führen, insbesondere in Fällen, in denen dieselben Informationen von mehreren Nutzern, die mit dem LLM interagieren, verbreitet wurden. Im Wesentlichen bietet die einfache Löschung von Daten aus einem Trainingsdatensatz nur eine oberflächliche Abhilfe, da sie nicht garantiert, dass die Möglichkeit, diese Daten wiederherzustellen oder in den Modellparametern eingebettete Informationen zu extrahieren, beseitigt wird. Da die Ausgabe bestimmter Modelle des maschinellen Lernens durch die während der Trainingsphase verwendeten Daten geprägt ist, können die ursprünglichen Trainingsdaten oder Informationen zu gelöschten Daten abgeleitet oder „durchgesickert“ werden.
5. Verantwortung
Zusätzlich zu den verschiedenen Schritten der Datenverarbeitung in generativen Modellen könnten aufgrund ihrer unterschiedlichen Beteiligungsgrade mehrere Parteien als Datenverantwortliche im Sinne der DSGVO in Betracht kommen. Die DSGVO legt drei Kategorien von Verantwortlichkeiten für die Datenverarbeitung in Bezug auf die betroffene Person fest: Verantwortlicher, Auftragsverarbeiter und Dritte.
Der Verantwortliche ist in erster Linie für die Einhaltung der Bestimmungen der DSGVO verantwortlich (Artikel 5 Absatz 2). Gemäss Artikel 4 Absatz 7 DSGVO ist der Verantwortliche „die natürliche oder juristische Person […], die allein oder gemeinsam mit anderen über die Zwecke und Mittel der Verarbeitung von personenbezogenen Daten entscheidet“. Artikel 4 Absatz 8 definiert den Auftragsverarbeiter als „natürliche oder juristische Person […], die personenbezogene Daten von einem Dritten oder von einer anderen Stelle erhält und diese verarbeitet“. Dritte sind hingegen andere Akteure als die betroffene Person, der Verantwortliche oder der Auftragsverarbeiter (Artikel 4 Absatz 10).
Auf den ersten Blick sind die juristischen Unternehmen, die generative Modelle entwickeln und einsetzen, die Verantwortlichen. In den verschiedenen Schritten der Datenverarbeitung ergibt sich jedoch ein differenziertes Bild. Unbestritten sind Unternehmen wie OpenAI und Google in Bezug auf die Verarbeitungsschritte zur Festlegung der Parameter für das Basistraining und die Speicherung des Modells als Verantwortliche tätig, da sie ausschliesslich die Modalitäten der Datenverarbeitung bestimmen, wie beispielsweise die Entscheidung, ein frei zugängliches LLM zu veröffentlichen. Bei der Erzeugung von Outputs verarbeiten generative Modelle jedoch Daten auf der Grundlage der Eingaben ihrer Nutzer. Ob dies dazu führen kann, dass Anbieter und Nutzer als gemeinsame Verantwortliche im Sinne von Artikel 26 DSGVO gelten, bleibt offen.
Die gemeinsame Verantwortlichkeit gemäss Artikel 26 DSGVO bezieht sich auf den Fall, dass zwei oder mehr Verantwortliche gemeinsam die Zwecke und Mittel der Datenverarbeitung festlegen. Im Gegensatz dazu ist das Verhältnis zwischen einem Verantwortlichen und einem Auftragsverarbeiter (Artikel 4 Absätze 7 und 8, Artikel 28 DSGVO) anders gelagert, da in dieser Konstellation der Auftragsverarbeiter Daten im Auftrag und auf Weisung des Verantwortlichen verarbeitet. Die gemeinsame Verantwortung ist somit ein gleichberechtigtes Verhältnis, während der Auftragsverarbeiter den Weisungen des Verantwortlichen unterliegt. Ob diese Bewertungen auf das Verhältnis zwischen Anbietern generativer Modelle und Nutzern übertragen werden können, ist fraglich.
Nutzer gelten nicht als Auftragsverarbeiter im Sinne von Artikel 28 DSGVO, da sie zwar einen Vertrag mit den Anbietern haben, aber nicht die Pflichten eines Auftragsverarbeiters, insbesondere nicht die in Artikel 28 Absatz 3 DSGVO, da sie Prompts nach Belieben generieren können und keine Daten nach Weisungen verarbeiten. Der Zweck generativer Modelle besteht darin, Nutzern die freie Verwendung des Modells für ihre eigenen definierten Zwecke zu ermöglichen, ohne dass sie Weisungen der Anbieter befolgen müssen.
Nutzer und Anbieter könnten daher gemeinsam für die Verarbeitung verantwortlich sein, dies würde jedoch voraussetzen, dass sie gemeinsam die Zwecke der Datenverarbeitung festlegen und transparente und gegenseitige Verpflichtungen festlegen. Diese Einstufung wird durch die Tatsache gestützt, dass sowohl Nutzer als auch Anbieter Einfluss auf die Zwecke der Datenverarbeitung haben: Die Anbieter generativer Modelle legen den grundlegenden Rahmen fest, innerhalb dessen ihre Modelle verwendet werden, während die Nutzer die Zwecke entsprechend ihren individuellen Bedürfnissen festlegen. Folglich sind sowohl Nutzer als auch Anbieter voneinander abhängig und beeinflussen sich gegenseitig bei der Datenverarbeitung und sind auch aufeinander angewiesen. Dem steht jedoch entgegen, dass Nutzer in der Regel auch betroffene Personen sind und gemäss Artikel 26 Absatz 3 DSGVO das Recht haben, Ansprüche gegen jeden der gemeinsam Verantwortlichen geltend zu machen. Obwohl das Gesetz nicht verlangt, dass gemeinsame Verantwortliche das gleiche Mass an Verantwortung tragen, reicht eine blosse Mitverursachung ohne kooperatives Handeln für eine gemeinsame Verantwortung nicht aus. Darüber hinaus bedeutet der begrenzte Einfluss der Nutzer auf die Datenverarbeitung, dass Nutzer generativer Modelle gegenüber Dritten nicht wirksam haftbar gemacht werden können, da sie nicht in der Lage sind, den Anbietern Zugriffsrechte zu gewähren oder personenbezogene Daten aus den Trainingsdaten zu löschen.
Das Verhältnis zwischen Nutzern und Anbietern generativer KI stellt daher einen Sonderfall dar, der nicht nahtlos unter die Kategorien der DSGVO subsumiert werden kann. Einerseits sind Nutzer mehr als nur betroffene Personen, da ihre aktiven Beiträge erforderlich sind, um die Ergebnisse des Modells zu generieren und zu gestalten. Andererseits sind sie weder Datenverarbeiter noch gemeinsame Verantwortliche, da sie keinen Einfluss auf die grundlegenden Modalitäten der Datenverarbeitung haben. So können Anbieter beispielsweise Modelle einfach deaktivieren oder kostenpflichtig machen (wie im Fall von ChatGPT). Der EuGH hält es für entscheidend, inwieweit die Verantwortlichen an der gemeinsamen Datenverarbeitung beteiligt sind und welche konkreten Verarbeitungsphasen sie durchlaufen. Im vorliegenden Fall sind die Nutzer nur an der Generierung der Ergebnisse beteiligt, die in hohem Masse von den vorherigen Schritten, wie z. B. dem Training, abhängt. Der Zweck und das Ziel der Vorschriften zur gemeinsamen Verantwortlichkeit besteht darin, einer Verantwortungsdiffusion zwischen mehreren Beteiligten entgegenzuwirken. Betroffene Personen sollten klar erkennen können, wer ihre personenbezogenen Daten zu welchem Zweck erhebt (Erwägungsgrund 58). Daher können Anbieter zwar im Falle generativer Modelle für nutzergenerierte Inhalte verantwortlich sein, aber das Gegenteil gilt nicht. Dies folgt aus der Begründung und dem Grundrechtsschutz der DSGVO-Bestimmungen zur Verantwortlichkeit und entspricht auch der technischen und wirtschaftlichen Realität.
6. Bilder, Audio- und Videodateien als personenbezogene Daten
Die Überlegungen zu LLMs lassen sich nicht immer auf generative Modelle übertragen, die Audio-, Bild- und Videodaten erzeugen. Denn das Ziel dieser Modelle ist nicht die Generierung von Informationen, die möglicherweise unrichtig sind, sondern die Generierung von neuem Audio- oder Bildmaterial. Das primäre Ziel, neue Inhalte zu generieren, hat in diesen Fällen zu vielen urheberrechtlichen Fragen geführt. Bilder und Videos können auch personenbezogene Daten sein, wenn sie zur Identifizierung der Person verwendet werden können, was heute durch Bildersuchen leicht möglich ist.
Ein grosses Problem ist die deutliche Zunahme von Deepfakes im digitalen Kontext, von denen mittlerweile nicht nur Personen des öffentlichen Lebens, sondern auch die allgemeine Bevölkerung betroffen sind. Insbesondere Frauen sind häufig Opfer von Deepfake-Pornografie, bei der ohne ihre Zustimmung explizite Bilder und Videos unter Verwendung ihrer Bilder erstellt werden. Dies ist eine unrechtmässige Verarbeitung personenbezogener Daten, die gegen die DSGVO und in vielen Fällen auch gegen nationale Vorschriften verstösst. Das fotografierte Bild einer Person stellt in diesen Fällen personenbezogene Daten dar, wenn die Person noch lebt, unabhängig davon, ob die Daten gefälscht sind oder nicht. Der Zweck von Deepfakes besteht darin, eine bestimmte Person zu verunglimpfen oder zu diskreditieren, wodurch das entscheidende Merkmal von Artikel 4 Absatz 1 DSGVO erfüllt ist, nämlich dass die Person identifiziert oder identifizierbar ist. Auch Stimmen können personenbezogene Daten darstellen, wenn die Person identifizierbar ist. Visuelle oder akustische Identifizierungsmethoden, die mittels Mustererkennung aufgezeichnet werden, wie beispielsweise die Gesichts- oder Stimmerkennung (Sprechererkennung), können sogar als biometrische Daten im Sinne von Artikel 4 Absatz 14 DSGVO angesehen werden.
Als jüngster Neuzugang in der Datenschutz-Kavallerie schreibt das KI-Gesetz lediglich eine Kennzeichnungspflicht für Deepfakes vor (Artikel 50 Absatz 4), sodass erhebliche Zweifel bestehen, ob auf europäischer Ebene ein angemessenes Schutzniveau gewährleistet ist.
7. Fazit und Ausblick
Die populären Anwendungsfälle generativer KI-Modelle zeigen, dass das Datenschutzrecht bei der Regulierung datenintensiver Technologien an seine Grenzen stösst. Neben den hier aufgezeigten Problemen stellen sich weitere Fragen zum Grundsatz der Zweckbindung der Datenverarbeitung für datenintensive Modelle und deren nachgelagerte Anwendungen. Der Einsatz von LLMs in Entscheidungssituationen wirft Fragen zum Umfang des Verbots in Artikel 22 DSGVO auf.
Strukturelle Probleme von nahezu universeller Bedeutung bestehen zwischen dem Fokus der DSGVO auf den Schutz des Einzelnen und dem Umfang der zu Trainingszwecken verarbeiteten Daten sowie hinsichtlich eines strukturellen Durchsetzungsdefizits, insbesondere in Bezug auf Datenschutzgrundsätze und die Rechte der betroffenen Personen.
So wichtig die Struktur des Datenschutzrechts für den Schutz der Grundrechte auch ist, so sind doch neue Lösungen für die strukturellen Herausforderungen erforderlich, die sich durch generative KI und andere datenintensive Technologien ergeben. Diese können auch ausserhalb des Datenschutzrechts liegen. Um diesen Herausforderungen zu begegnen, ist es wichtig, die strukturelle Dimension der KI als soziotechnische Entwicklung anzuerkennen. Daher sind strukturelle Lösungen erforderlich, die über die Durchsetzung individueller Rechte hinausgehen. Leider bleiben diese Fragen unberücksichtigt, da das KI-Gesetz keine Lösungen für die strukturellen und spezifischen Herausforderungen für das Datenschutzrecht durch generative KI bietet. Trotz seines erklärten Ziels, Grundrechte einschliesslich des Datenschutzes zu schützen, folgt der Aufbau des KI-Gesetzes den Parametern des Produktsicherheitsrechts und verfolgt damit einen grundlegend anderen Ansatz als Rechtsrahmen zum Schutz von Grundrechten, wie sie in der DSGVO zu finden sind. Das KI-Gesetz legt zwar bestimmte Verpflichtungen für risikoreiche KI-Systeme fest, wie z. B. Daten-Governance, Transparenzanforderungen und Standards für die menschliche Aufsicht. Diese Bestimmungen befassen sich jedoch nicht mit dem Schutz der Privatsphäre und der Daten von Nutzern. Damit besteht ein grosser Bedarf an gesetzlicher Regulierung.
Zur einfacheren Lesbarkeit wurden die Literatur- und Quellverweise entfernt.
Übersetzung durch Boris Wanzeck, Swiss Infosec AG
Hanna Ruschemeier in: Cambridge Forum on AI: Law and Governance , Volume 1 , 2025 , e6