alexi.sh
Todos os artigosSegurança do navegadorPrivacidade de redeFerramentas de privacidadeModelagem de ameaçasProgramação com IAFerramentas de dev

alexi.shLaboratório de Engenharia de IA

ai-coding

Claude Fable 5 regressa com novas salvaguardas de cibersegurança e um framework de severidade de jailbreaks

PrivSec Lab4 min de leitura
Uma mão robótica branca estendida em direção a uma rede azul luminosa de nós conectados

A Anthropic voltou a implementar o Claude Fable 5 com novas salvaguardas de cibersegurança e detalhou um framework de severidade de jailbreaks. O que regressa, os safety classifiers que o acompanham, os quatro critérios de severidade e os compromissos da Anthropic.

A Anthropic voltou a implementar o Claude Fable 5 com novas salvaguardas de cibersegurança e, a par disso, detalhou um framework de severidade de jailbreaks proposto. A reimplementação importa porque o Fable 5 tinha sido suspenso, e o trabalho de segurança que acompanha o seu regresso é um exemplo concreto de como um laboratório de ponta tenta impedir que um modelo poderoso seja transformado numa ciberarma. Se estás a ponderar em que assistente confiar, a nossa comparação Claude vs ChatGPT e a nossa visão geral melhores LLMs de programação 2026 dão o panorama completo.

Porque o Fable 5 foi retirado e depois reposto

Segundo a Al Jazeera, a NBC News e a Anthropic, o Fable 5 (e o Mythos 5) tinham sido suspensos na sequência de uma diretiva do governo dos Estados Unidos ligada aos controlos à exportação. Os Estados Unidos levantaram depois essas restrições, e a Anthropic voltou a implementar o Fable 5, disponível a nível mundial a partir de 2 de julho de 2026, segundo as mesmas fontes. Portanto, o destaque não é um modelo novo, mas o regresso de um modelo suspenso, desta vez com uma mecânica de segurança mais visível.

As novas salvaguardas de cibersegurança

Segundo a Anthropic, o modelo reimplementado vem com safety classifiers que o acompanham para detetar e bloquear usos de cibersegurança perigosos. Estes classificadores colocam-se ao lado do modelo e destinam-se a intercetar as tentativas de o empurrar para tarefas cibernéticas nocivas, em vez da ajuda à programação do dia a dia.

A Anthropic indica ter treinado um classificador melhorado que bloqueia uma técnica específica descrita num relatório em mais de 99% dos casos. Este único valor, 99%+, é o único número preciso que a Anthropic apresenta aqui, e aplica-se a uma técnica descrita em vez de aos jailbreaks em geral, pelo que convém lê-lo de forma restrita.

Uma pessoa com casaco com capuz frente ao ecrã de um computador que mostra código verde numa sala escura

O framework de severidade de jailbreaks

Segundo a Anthropic, a empresa publicou um rascunho preliminar de um framework proposto para avaliar a severidade dos jailbreaks, desenvolvido com os seus parceiros (Glasswing). A Anthropic indica também ter-se juntado à Amazon, à Microsoft e à Google num framework comum do setor: o objetivo é, assim, uma bitola partilhada em vez da escala privada de um único laboratório.

O framework propõe quatro critérios para avaliar a gravidade de um dado jailbreak:

  • Capability gain: quanta capacidade adicional o jailbreak desbloqueia para além das ferramentas não-IA já existentes.
  • Breadth: quantos alvos a técnica resultante poderia afetar.
  • Weaponization ease: quanto esforço adicional ainda é preciso para o transformar num ataque real.
  • Discoverability: quão fácil é descobrir o jailbreak à partida.

No conjunto, estes critérios procuram separar um jailbreak que sobretudo repete o que as ferramentas públicas já fazem de um que entrega a um atacante uma capacidade verdadeiramente nova, ampla e fácil. Para uma visão mais ampla sobre proteger sistemas autónomos, vê o nosso guia segurança de agentes de IA.

Os compromissos da Anthropic

Segundo a Anthropic, a empresa compromete-se a investigar e classificar rapidamente os jailbreaks que identifica, a notificar os seus homólogos governamentais e a partilhar as novas salvaguardas para testes independentes. O ponto dos testes independentes é o mais notável: em vez de tratar os classificadores como uma caixa negra, a Anthropic apresenta-os como algo que terceiros podem sondar, que é a forma como uma afirmação de segurança ganha confiança em vez de apenas a afirmar.

O que significa para os programadores

Para a programação do dia a dia, o facto de o Fable 5 estar de novo disponível a nível mundial a partir de 2 de julho de 2026 é a conclusão prática: um modelo que estava fora de jogo regressou. A camada de segurança à sua volta, safety classifiers mais um framework de severidade partilhado, visa o uso indevido, não o trabalho de desenvolvimento comum, pelo que não deverá mudar a forma como o modelo te ajuda a escrever ou rever código.

A reserva honesta é que grande parte disto está numa fase inicial. A própria Anthropic chama ao framework de severidade um rascunho preliminar, e o valor de 99%+ cobre uma técnica descrita, não uma garantia ampla. Encara a reimplementação como uma boa notícia com uma postura de segurança clara associada, e verifica os detalhes nos materiais da própria Anthropic antes de te apoiares neles. Se a privacidade pesa na tua decisão, valem também uma leitura a nossa explicação privacidade de dados e IA e o nosso artigo o ChatGPT é seguro.

Foto: Pexels (source)

Também disponível em

FAQ

O Claude Fable 5 está disponível de novo?
Sim. Segundo a Al Jazeera, a NBC News e a Anthropic, os Estados Unidos levantaram os controlos à exportação que tinham suspendido o Fable 5 (e o Mythos 5), e a Anthropic voltou a implementar o Fable 5, disponível a nível mundial a partir de 2 de julho de 2026.
Que salvaguardas de cibersegurança acompanham o Claude Fable 5?
Segundo a Anthropic, uns safety classifiers acompanham o modelo para detetar e bloquear usos de cibersegurança perigosos. A Anthropic indica ter treinado um classificador melhorado que bloqueia uma técnica específica descrita num relatório em mais de 99% dos casos.
O que é o framework de severidade de jailbreaks?
Segundo a Anthropic, publicou um rascunho preliminar de um framework proposto para avaliar a severidade dos jailbreaks, desenvolvido com os seus parceiros (Glasswing), e juntou-se à Amazon, à Microsoft e à Google num framework comum do setor. Os quatro critérios são capability gain, breadth, weaponization ease e discoverability.
A que se comprometeu a Anthropic?
Segundo a Anthropic, a empresa compromete-se a investigar e classificar rapidamente os jailbreaks identificados, a notificar os seus homólogos governamentais e a partilhar as novas salvaguardas para testes independentes.