Der kürzlich erschienene Artikel „Nearly 12,000 API keys and passwords found in AI training dataset“ von Ionut Ilascu auf BleepingComputer offenbart gravierende Datenschutzprobleme im Zusammenhang mit der Nutzung des Common Crawl-Datensatzes als Trainingsgrundlage für künstliche Intelligenz (KI). Nahezu 12.000 gültige API-Schlüssel und Passwörter – darunter AWS Root Keys, MailChimp API-Schlüssel und Slack Webhooks – wurden in diesem öffentlich zugänglichen Webarchiv gefunden. Dieser Bericht beleuchtet kritisch die Datenschutzimplikationen und die damit verbundenen Sicherheitsrisiken.
Die im Bericht dargestellten Erkenntnisse werfen mehrere kritische Fragen auf:
- Unzureichende Anonymisierung und Filterung:
Obwohl der Common Crawl-Datensatz vor der Nutzung einer umfassenden Vorverarbeitung unterzogen wird, bleibt die Entfernung sensibler Daten unvollständig. Die Tatsache, dass fast 12.000 valide Secrets in dem Archiv gefunden wurden, zeigt, dass bestehende Reinigungsprozesse nicht ausreichen, um alle sensiblen Informationen zu entfernen. Dies birgt das Risiko, dass personenbezogene und vertrauliche Daten in KI-Trainingsprozessen ungewollt verarbeitet werden. - Fehlerhafte Programmierpraktiken:
Die im Bericht hervorgehobene Praxis, API-Schlüssel direkt in HTML- und JavaScript-Code einzubetten, offenbart eine grundlegende Missachtung sicherheitsrelevanter Programmierstandards. Entwickler sollten stattdessen serverseitige Umgebungsvariablen oder sichere Speicherlösungen verwenden, um sensible Daten zu schützen. - Systemische Risiken und Wiederverwendung:
Mit einer Wiederholungsrate von 63 % – wie im Artikel erwähnt – wird deutlich, dass viele der aufgedeckten Secrets mehrfach im Netz auftauchen. Ein Beispiel ist der WalkScore API-Schlüssel, der über 57.000 Mal auf 1.871 Subdomains gefunden wurde. Diese breite Streuung potenzieller Angriffsflächen erhöht das Risiko von Missbrauch, wie etwa Phishing, Identitätsdiebstahl oder gezielten Ransomware-Angriffen.
Die Entdeckung der Geheimnisse in einem derart massiven und öffentlich zugänglichen Datensatz wirft fundamentale datenschutzrechtliche Fragen auf:
- Verletzung der Vertraulichkeit:
Die unbeabsichtigte Aufnahme von API-Schlüsseln und Passwörtern in Trainingsdaten widerspricht dem Prinzip der Vertraulichkeit. Unternehmen und Endnutzer haben ein berechtigtes Interesse daran, dass ihre sensiblen Daten nicht unautorisiert zugänglich gemacht oder weiterverwendet werden. - Risiko für KI-Modelle:
KI-Modelle, die auf derartigen Daten trainiert werden, könnten unter Umständen diese sensiblen Informationen „lernen“ und in ihren Ausgaben unbeabsichtigt wiedergeben. Dies birgt das Risiko, dass sensible Daten – die eigentlich geschützt bleiben sollten – in falsche Hände geraten oder in weiteren Anwendungen missbraucht werden. - Mangel an regulatorischer Kontrolle:
Der Vorfall zeigt, wie schwierig es ist, bei der massenhaften Erfassung von Webdaten den Überblick über sämtliche personenbezogenen oder vertraulichen Informationen zu behalten. Es besteht ein dringender Bedarf an strengeren Datenschutzrichtlinien und einer verbesserten Aufsicht über die Datenquellen, die als Trainingsgrundlage für KI-Modelle genutzt werden.
Professionelle Hilfe erwünscht?
Sentiguard ist spezialisiert auf Datenschutzberatung, Auditing und internationalen Datentransfer (TIA). Machen Sie kurzfristig einen Termin aus: