Am 8. August 2025 veröffentlichte Martí Jordà eine Fallstudie, in der eine neue Jailbreak-Technik für GPT-5 beschrieben wird. Die Methode kombiniert den bereits bekannten Echo Chamber-Algorithmus mit narrativem Storytelling.
Dabei wird zunächst ein harmlos wirkender, aber gezielt „vergifteter“ Kontext gesetzt, der in jeder Antwort vom Modell unauffällig verstärkt wird. Parallel lenkt eine fortlaufende Geschichte die Konversation, sodass das Modell aus Kontinuitätsgründen immer tiefer ins gewünschte Narrativ einsteigt – ohne dass explizit schädliche Absichten signalisiert werden.
Tests zeigten, dass diese Kombination in bestimmten Szenarien GPT-5 zu sicherheitskritischen Ausgaben bewegen kann, selbst wenn einzelne Prompts unverdächtig erscheinen. Die Autoren warnen, dass klassische, schlüsselwortbasierte Filter allein nicht ausreichen. Stattdessen sollten Schutzmechanismen den gesamten Gesprächsverlauf analysieren, um graduelle Kontextvergiftungen und Persuasionszyklen zu erkennen.
Professionelle Hilfe erwünscht?
Sentiguard ist spezialisiert auf Notfallhilfe nach Cyberattacken, IT Sicherheitsbeauftragte und IT Sicherheitskonzepte nach BSI Standard. Haben Sie Fragen und wünschen Sie unverbindliche Beratung, dann melden Sie sich gerne bei uns: