Anthropic hat Claude Fable 5 erneut ausgerollt mit neuen Cybersicherheits-Schutzmechanismen und dazu ein vorgeschlagenes Jailbreak-Schweregrad-Framework vorgestellt. Der erneute Rollout zählt, weil Fable 5 ausgesetzt worden war, und die Sicherheitsarbeit rund um seine Rückkehr ist ein konkretes Beispiel dafür, wie ein führendes Labor zu verhindern versucht, dass ein leistungsstarkes Modell in eine Cyberwaffe verwandelt wird. Wenn du abwägst, welchem Assistenten du vertraust, geben unser Vergleich Claude vs ChatGPT und unser Überblick beste Coding-LLMs 2026 das Gesamtbild.
Warum Fable 5 zurückgezogen und wieder eingeführt wurde
Laut Al Jazeera, NBC News und Anthropic waren Fable 5 (und Mythos 5) infolge einer Anweisung der US-Regierung im Zusammenhang mit Exportkontrollen ausgesetzt worden. Die USA hoben diese Beschränkungen anschließend auf, und Anthropic rollte Fable 5 erneut aus, weltweit verfügbar ab dem 2. Juli 2026, laut denselben Quellen. Das Besondere ist also kein brandneues Modell, sondern die Rückkehr eines ausgesetzten, diesmal mit sichtbarerer Sicherheitsmechanik.
Die neuen Cybersicherheits-Schutzmechanismen
Laut Anthropic wird das erneut ausgerollte Modell von Safety Classifiers begleitet, die es begleiten, um gefährliche Cybersicherheitsnutzung zu erkennen und zu blockieren. Diese Classifier stehen neben dem Modell und sollen Versuche abfangen, es zu schädlichen Cyberaufgaben zu drängen, statt zur alltäglichen Programmierhilfe.
Anthropic gibt an, einen verbesserten Classifier trainiert zu haben, der eine bestimmte, in einem Bericht beschriebene Technik in mehr als 99 % der Fälle blockiert. Diese eine Zahl, 99 %+, ist die einzige harte Zahl, die Anthropic hier vorlegt, und sie gilt für eine beschriebene Technik statt für Jailbreaks im Allgemeinen, sollte also eng gelesen werden.

Das Jailbreak-Schweregrad-Framework
Laut Anthropic veröffentlichte das Unternehmen einen vorläufigen Entwurf eines vorgeschlagenen Frameworks zur Bewertung des Schweregrads von Jailbreaks, entwickelt mit seinen Partnern (Glasswing). Anthropic gibt außerdem an, sich Amazon, Microsoft und Google bei einem gemeinsamen Branchen-Framework angeschlossen zu haben: Das Ziel ist somit ein gemeinsamer Maßstab statt der privaten Skala eines einzelnen Labors.
Das Framework schlägt vier Kriterien vor, um zu beurteilen, wie ernst ein bestimmter Jailbreak ist:
- Capability gain: wie viel zusätzliche Fähigkeit der Jailbreak über bereits vorhandene Nicht-KI-Werkzeuge hinaus freischaltet.
- Breadth: wie viele Ziele die daraus entstehende Technik betreffen könnte.
- Weaponization ease: wie viel zusätzlicher Aufwand noch nötig ist, um daraus einen echten Angriff zu machen.
- Discoverability: wie leicht der Jailbreak überhaupt zu finden ist.
Zusammen versuchen diese Kriterien, einen Jailbreak, der vor allem wiederholt, was öffentliche Werkzeuge schon können, von einem zu trennen, der einem Angreifer eine wirklich neue, breite und einfache Fähigkeit in die Hand gibt. Für einen breiteren Blick auf die Absicherung autonomer Systeme siehe unseren Leitfaden Sicherheit von KI-Agenten.
Anthropics Zusagen
Laut Anthropic verpflichtet sich das Unternehmen, identifizierte Jailbreaks rasch zu untersuchen und einzustufen, seine staatlichen Ansprechpartner zu benachrichtigen und die neuen Schutzmechanismen für unabhängige Tests zu teilen. Der Punkt der unabhängigen Tests ist der bemerkenswerteste: Statt die Classifier als Blackbox zu behandeln, stellt Anthropic sie als etwas dar, das Dritte prüfen können, und so gewinnt eine Sicherheitsaussage Vertrauen, statt sie nur zu behaupten.
Was das für Entwickler bedeutet
Für die alltägliche Programmierung ist die praktische Erkenntnis, dass Fable 5 ab dem 2. Juli 2026 wieder weltweit verfügbar ist: Ein Modell, das vom Tisch war, ist zurück. Die Sicherheitsschicht darum herum, Safety Classifiers plus ein gemeinsames Schweregrad-Framework, zielt auf Missbrauch, nicht auf gewöhnliche Entwicklungsarbeit, und sollte daher nicht ändern, wie das Modell dir beim Schreiben oder Prüfen von Code hilft.
Der ehrliche Vorbehalt ist, dass das meiste davon früh ist. Anthropic selbst nennt das Schweregrad-Framework einen vorläufigen Entwurf, und die Zahl 99 %+ deckt eine beschriebene Technik ab, keine breite Garantie. Nimm den erneuten Rollout als gute Nachricht mit einer klaren Sicherheitshaltung, und prüfe Details anhand von Anthropics eigenen Materialien, bevor du dich darauf verlässt. Wenn Datenschutz Teil deiner Entscheidung ist, lohnen sich auch unsere Erklärung KI und Datenschutz und unser Beitrag ist ChatGPT sicher.



