Anthropic ha vuelto a desplegar Claude Fable 5 con nuevas salvaguardas de ciberseguridad y, junto a ello, ha detallado un framework de severidad de jailbreaks propuesto. El redespliegue importa porque Fable 5 había sido suspendido, y el trabajo de seguridad que acompaña su regreso es un ejemplo concreto de cómo un laboratorio de vanguardia intenta evitar que un modelo potente se convierta en un arma cibernética. Si estás valorando en qué asistente confiar, nuestra comparativa Claude vs ChatGPT y nuestro panorama mejores LLM de programación 2026 dan la imagen completa.
Por qué se retiró Fable 5 y luego volvió
Según Al Jazeera, NBC News y Anthropic, Fable 5 (y Mythos 5) habían sido suspendidos tras una directiva del gobierno de Estados Unidos ligada a los controles a la exportación. Estados Unidos levantó después esas restricciones, y Anthropic volvió a desplegar Fable 5, disponible en todo el mundo a partir del 2 de julio de 2026, según las mismas fuentes. Así que lo destacado no es un modelo nuevo, sino el regreso de uno suspendido, esta vez con una maquinaria de seguridad más visible.
Las nuevas salvaguardas de ciberseguridad
Según Anthropic, el modelo redesplegado incorpora safety classifiers que lo acompañan para detectar y bloquear usos de ciberseguridad peligrosos. Estos clasificadores se sitúan junto al modelo y buscan interceptar los intentos de empujarlo hacia tareas cibernéticas dañinas, en lugar de la ayuda a la programación del día a día.
Anthropic indica que entrenó un clasificador mejorado que bloquea una técnica concreta descrita en un informe en más del 99 % de los casos. Esa única cifra, el 99 %+, es el único número preciso que Anthropic aporta aquí, y se aplica a una técnica descrita y no a los jailbreaks en general, así que conviene leerlo de forma restringida.

El framework de severidad de jailbreaks
Según Anthropic, la empresa publicó un borrador preliminar de un framework propuesto para evaluar la severidad de los jailbreaks, desarrollado con sus socios (Glasswing). Anthropic indica también que se unió a Amazon, Microsoft y Google en un framework común del sector: el objetivo es, por tanto, un patrón compartido en lugar de la escala privada de un solo laboratorio.
El framework propone cuatro criterios para juzgar la gravedad de un jailbreak dado:
- Capability gain: la ganancia de capacidades que el jailbreak desbloquea más allá de las herramientas no-IA ya existentes.
- Breadth: cuántos objetivos podría afectar la técnica resultante.
- Weaponization ease: el esfuerzo adicional que todavía hace falta para convertirlo en un ataque real.
- Discoverability: lo fácil que resulta descubrir el jailbreak de entrada.
En conjunto, estos criterios tratan de separar un jailbreak que sobre todo repite lo que las herramientas públicas ya hacen de uno que entrega a un atacante una capacidad realmente nueva, amplia y fácil. Para una visión más amplia sobre asegurar sistemas autónomos, mira nuestra guía seguridad de agentes de IA.
Los compromisos de Anthropic
Según Anthropic, la empresa se compromete a investigar y clasificar rápidamente los jailbreaks que identifica, a notificar a sus homólogos gubernamentales y a compartir las nuevas salvaguardas para pruebas independientes. El punto de las pruebas independientes es el más notable: en lugar de tratar los clasificadores como una caja negra, Anthropic los presenta como algo que terceros pueden sondear, que es la forma en que una afirmación de seguridad gana confianza en vez de solo afirmarla.
Qué significa para los desarrolladores
Para la programación del día a día, que Fable 5 esté de nuevo disponible en todo el mundo a partir del 2 de julio de 2026 es la conclusión práctica: un modelo que estaba descartado vuelve a estar sobre la mesa. La capa de seguridad que lo rodea, safety classifiers más un framework de severidad compartido, apunta al mal uso, no al trabajo de desarrollo corriente, así que no debería cambiar cómo el modelo te ayuda a escribir o revisar código.
La reserva honesta es que casi todo esto es temprano. La propia Anthropic llama al framework de severidad borrador preliminar, y la cifra del 99 %+ cubre una técnica descrita, no una garantía amplia. Toma el redespliegue como una buena noticia con una postura de seguridad clara adjunta, y verifica los detalles en los materiales de Anthropic antes de apoyarte en ellos. Si la privacidad pesa en tu decisión, nuestra explicación privacidad de datos e IA y nuestro artículo ¿es seguro ChatGPT? también merecen una lectura.



