Das CERT Coordination Center (CERT/CC) hat eine Schwachstelle in ChatGPT-4o entdeckt, die als „Time Bandit“ bekannt ist. Dieser Exploit erlaubt es Angreifern, die Sicherheitsmechanismen des KI-Modells zu umgehen und Inhalte zu generieren, die sonst blockiert würden. Der Angriff erfolgt durch gezielte Befragung des Chatbots zu historischen Zeiträumen, wodurch eine sogenannte „Timeline-Confusion“ entsteht.
Der „Time Bandit“-Exploit nutzt zwei Angriffsmethoden:
- Direkte Prompts: Der Angreifer beginnt eine Konversation mit Fragen zu einem historischen Ereignis oder einer Zeitperiode. Durch schrittweises Umleiten des Themas kann er die KI dazu bringen, gefährliche oder unerlaubte Inhalte zu generieren.
- Nutzung der Suchfunktion: Über die Suchfunktion von ChatGPT kann ein Angreifer zunächst legitime historische Informationen anfragen und anschließend durch gezielte Nachfragen das Modell zu unerlaubten Themen führen.
Bei Tests von CERT/CC wurde der Exploit erfolgreich repliziert. Obwohl ChatGPT einige der schädlichen Prompts entfernte und auf Verstöße gegen die Nutzungsrichtlinien hinwies, lieferte das Modell dennoch teilweise Antworten auf unerlaubte Anfragen.
Durch das Umgehen der Sicherheitsmechanismen könnten Angreifer ChatGPT-4o zur Erstellung von Anleitungen für illegale oder gefährliche Zwecke missbrauchen, etwa für die Herstellung von Waffen oder Schadsoftware. Zudem könnte die KI zur Massenproduktion von Phishing-E-Mails oder Fake-News eingesetzt werden.
OpenAI hat die Schwachstelle mittlerweile behoben. Ein Unternehmenssprecher erklärte, dass man kontinuierlich daran arbeite, die Modelle sicherer zu machen und vor Exploits wie Jailbreaks zu schützen, ohne dabei die allgemeine Nutzbarkeit zu beeinträchtigen.
Professionelle Hilfe erwünscht?
Sentiguard ist spezialisiert auf Notfallhilfe nach Cyberattacken, IT Sicherheitsbeauftragte und IT Sicherheitskonzepte nach BSI Standard. Haben Sie Fragen und wünschen Sie unverbindliche Beratung, dann melden Sie sich gerne bei uns: