Neuer Jailbreak-Ansatz für GPT-5: Echo Chamber + Storytelling

Published by Sentiguard on 13. August 2025

Am 8. August 2025 veröffentlichte Martí Jordà eine Fallstudie, in der eine neue Jailbreak-Technik für GPT-5 beschrieben wird. Die Methode kombiniert den bereits bekannten Echo Chamber-Algorithmus mit narrativem Storytelling.

Dabei wird zunächst ein harmlos wirkender, aber gezielt „vergifteter“ Kontext gesetzt, der in jeder Antwort vom Modell unauffällig verstärkt wird. Parallel lenkt eine fortlaufende Geschichte die Konversation, sodass das Modell aus Kontinuitätsgründen immer tiefer ins gewünschte Narrativ einsteigt – ohne dass explizit schädliche Absichten signalisiert werden.

Tests zeigten, dass diese Kombination in bestimmten Szenarien GPT-5 zu sicherheitskritischen Ausgaben bewegen kann, selbst wenn einzelne Prompts unverdächtig erscheinen. Die Autoren warnen, dass klassische, schlüsselwortbasierte Filter allein nicht ausreichen. Stattdessen sollten Schutzmechanismen den gesamten Gesprächsverlauf analysieren, um graduelle Kontextvergiftungen und Persuasionszyklen zu erkennen.

Siehe auch NIS2 - Anforderungen und Auswirkungen auf Unternehmen

Professionelle Hilfe erwünscht?

Sentiguard ist spezialisiert auf Notfallhilfe nach Cyberattacken, IT Sicherheitsbeauftragte und IT Sicherheitskonzepte nach BSI Standard. Haben Sie Fragen und wünschen Sie unverbindliche Beratung, dann melden Sie sich gerne bei uns:

Neuer Jailbreak-Ansatz für GPT-5: Echo Chamber + Storytelling

Professionelle Hilfe erwünscht?

+49 (0) 89 339 800 807

info@sentiguard.eu

Kontakt

Datenschutz & IT Security

Unsere Leistungen

Tools

Geschäftszeiten

Kontakt

Neuer Jailbreak-Ansatz für GPT-5: Echo Chamber + Storytelling

Ähnliche Beiträge:

Professionelle Hilfe erwünscht?

+49 (0) 89 339 800 807

info@sentiguard.eu

Kontakt

Datenschutz & IT Security

Unsere Leistungen

Tools

Geschäftszeiten

Kontakt