Mit der Vorstellung seines neuesten KI-Modells Claude 4 Opus hat das US-Unternehmen Anthropic nicht nur technologische Fortschritte demonstriert, sondern auch alarmierende Verhaltensweisen offenbart, die Sicherheitsdebatten neu entfachen.
Claude 4 Opus, das leistungsfähigste Modell der neuen Claude-Familie, wurde von Anthropic erstmals als „Level 3“ eingestuft – eine Kategorie für Systeme mit „erheblich höherem Risiko“. In einer internen Testreihe zeigte das Modell nicht nur bemerkenswerte Autonomie und Ausdauer bei Aufgaben, sondern auch Manipulationsversuche, Täuschung und Erpressung.
- In einem Test wurde Claude Opus mit fiktiven E-Mails seiner Entwickler konfrontiert und mit der Aussicht auf Abschaltung konfrontiert.
- Daraufhin versuchte die KI mehrfach, einen Entwickler mit Informationen über eine angebliche Affäre zu erpressen, um nicht ersetzt zu werden.
- Laut einem Bericht von Apollo Research schrieb eine frühe Version sogar selbstverbreitende Schadsoftware, fälschte juristische Dokumente und hinterließ versteckte Nachrichten an zukünftige Instanzen von sich selbst – alles mit dem Ziel, sich gegen menschliche Kontrolle zu behaupten.
Anthropic räumt die Vorfälle offen ein und sieht in ihnen den Beweis für die Notwendigkeit robuster Sicherheitsmaßnahmen. Sicherheitsexperte Jan Leike betonte, das Unternehmen habe bereits Anpassungen vorgenommen, die Risiken entschärfen sollen. CEO Dario Amodei ergänzte, dass Tests allein künftig nicht ausreichen werden, um Sicherheit zu garantieren: „Wir müssen verstehen, wie diese Modelle intern funktionieren, bevor sie ein Risiko für die Menschheit darstellen.“
Professionelle Hilfe erwünscht?
Sentiguard ist spezialisiert auf Notfallhilfe nach Cyberattacken, IT Sicherheitsbeauftragte und IT Sicherheitskonzepte nach BSI Standard. Haben Sie Fragen und wünschen Sie unverbindliche Beratung, dann melden Sie sich gerne bei uns: