Daten sind die Grundlage von künstlicher Intelligenz (KI). Eine KI lernt die Strukturen und Zusammenhänge in Trainingsdaten, um sie später für Prognosen und weitere Ergebnisse und Vorhersagen nutzen zu können. Die zugrundeliegende Daten haben dabei eine hohe Wichtigkeit. Alles was in den Daten vorhanden ist, lernt die KI. Nicht mehr – aber auch nicht weniger.
Es gibt unterschiedliche Arten von Daten hinsichtlich ihrer Schutzklassen (diese geben an, wie schützenswert die Daten sind (siehe hier im Beitrag zum Löschen von Daten)). Personenbezogene Daten sind besonders schützenswert, um die Privatsphäre und Rechte von Individuen zu schützen. Die Datenschutz Grundverordnung (DSGVO) legt klare Regeln für den Umgang mit solchen Daten fest.
Jetzt gibt es in Europa ein Gesetz zur Regulierung von KI: der EU AI Act. Dieser reguliert insbesondere die Anwendung von KI-Systemen. Zum Beispiel sind alle Anwendungen mit inakzeptablem Risiko für die Gesundheit und u.a. auch die Grundrechte der Menschen seit 2.2.2025 in Europa verboten. Auch schreibt der EU AI Act verschiedenste Pflichten für die unterschiedlichen Akteure im Bereich KI vor, insbesondere auch Transparenzpflichten hinsichtlich technischer Dokumentation und verwendeter Daten je nach entsprechender Risikoklasse der KI-Anwendung. Was der EU AI Act nicht macht, ist das Verbieten der Nutzung von Personenbezogenen Daten, um damit ein KI-System gezielt lernen zu lassen.
Braucht er auch nicht, denn die Datenschutz-Grundverordnung DSGVO ist weiterhin gültig und geht Hand in Hand mit dem EU AI Act: Der EU AI Act reguliert Nutzung und Entwicklung von KI-Anwendungen, die DSGVO kümmert sich um den Schutz personenbezogener Daten.
Ein wichtiges Prinzip der DSGVO: Daten können nur mit Einwilligung der Personen verarbeitet werden. Dabei sind die Zwecke der Verarbeitung transparent darzulegen. Es gibt basierend darauf eine Zweckbindung der Datennutzung.
Wenn ein Unternehmen personenbezogene Daten verarbeitet, kann es i.d.R diese Daten nicht für das Training einer KI nutzen, da das meistens dem zugrundeliegenden Zweck der Datenverarbeitung widerspricht.
Und auch wenn eine Einwilligung von Personen zum Training einer KI mit ihren Daten gegeben wird: was passiert, wenn eine Person diese Einwilligung wieder zurückzieht? Dann müssen nicht nur die Daten der Person gelöscht werden, sondern es muss auch Sorge getragen werden, dass die Informationen nicht mehr Bestandteil des damit trainierten KI Modells sind. Am sichersten also ist es, das Modell zu löschen und neu zu trainieren: kein ideales Vorgehen!
Aufgrund der oben aufgeführten Problematik ist die Empfehlung, NICHT mit personenbezogenen Daten ein KI Modell zu trainieren. Es sollten dafür besser anonymisierte Daten genutzt werden. Wichtig: pseudonymisierte Daten sind nicht ausreichend, um den Anforderungen der DSGVO nachzukommen.
Was ist der Unterschied zwischen anonymisierten und pseudonymisierten Daten?
Pseudonymisierte Daten
Pseudonymisierte Daten sind personenbezogene Daten, die so verarbeitet wurden, dass sie ohne zusätzliche Informationen nicht mehr einer spezifischen Person zugeordnet werden können. Dabei werden i.d.R. Namen durch Kennzeichen oder IDs ersetzt. Bei der Pseudonymsierung sind die Zuordnung der Kennzeichen zu den Namen der Personen aber wieder rückführbar. Zum Beispiel schlüsselbasierte Verfahren verwenden einen geheimen Schlüssel, um pseudonymisierte Daten durch Verschlüsselung wieder auf die ursprüngliche Person zurückzuführen, während Hash-Verfahren eine Einwegfunktion nutzen, die keine direkte Umkehr erlaubt, aber durch Vergleich mit bekannten Eingabewerten oder Brute-Force-Methoden (dabei handelt es sich um eine Methode, bei der alle möglichen Kombinationen ausprobiert werden, um eine Verschlüsselung zu knacken) rekonstruierbar sein kann. Daher gelten pseudonymisierte Daten weiterhin als personenbezogene Daten.
Anonymisierte Daten
Anonymisierte Daten sind Informationen, die so bearbeitet wurden, dass keine Rückschlüsse mehr auf eine bestimmte Person möglich sind. Sobald die Identifizierung ausgeschlossen ist, unterliegen diese Daten dann auch nicht mehr der DSGVO. WICHTIG: Der Prozess muss korrekt durchgeführt werden, damit er wirklich irreversibel ist und niemand mehr auf die ursprünglichen Daten zugreifen kann.
Zusammenfassend:
Der EU AI Act regelt den Einsatz von KI in Bezug auf die Risiken, die von den jeweiligen Anwendungen für Menschen ausgehen, während die DSGVO den Schutz personenbezogener Daten gewährleistet. Für ein datenschutzkonformes KI-Training sollten anonymisierte Daten verwendet werden, um die Privatsphäre zu wahren und gleichzeitig die Nutzung solcher Daten für das Training und Lernen einer KI zu ermöglichen. Das Landesamt für Datenschutzaufsicht in Bayern hat eine Checkliste rund um datenschutzrechtliche Anforderungen beim Training und Einsatz von KI dazu erstellt als Leitfaden für die Praxis.
Übrigens: Diese Regelung war bereits vor Inkrafttreten des EU AI Acts gültig, um die Privatsphäre der Individuen zu schützen und den Menschen die Kontrolle über ihre eigenen Daten zu geben.
Quelle Beitragsbild: Foto von Campaign Creators auf Unsplash

