alexi.sh
Tutti gli articoliSicurezza del browserPrivacy di reteStrumenti per la privacyModellazione delle minacceProgrammazione con IAStrumenti per sviluppatori

alexi.shLaboratorio di Ingegneria AI

ai-coding

Claude Fable 5 torna con nuove salvaguardie di cybersicurezza e un framework di severità dei jailbreak

PrivSec Lab4 min di lettura
Una mano robotica bianca protesa verso una rete blu luminosa di nodi connessi

Anthropic ha ridistribuito Claude Fable 5 con nuove salvaguardie di cybersicurezza e ha dettagliato un framework di severità dei jailbreak. Cosa torna, i safety classifiers che lo accompagnano, i quattro criteri di severità e gli impegni di Anthropic.

Anthropic ha ridistribuito Claude Fable 5 con nuove salvaguardie di cybersicurezza e, insieme a ciò, ha dettagliato un framework di severità dei jailbreak proposto. La ridistribuzione conta perché Fable 5 era stato sospeso, e il lavoro di sicurezza che accompagna il suo ritorno è un esempio concreto di come un laboratorio di frontiera cerchi di impedire che un modello potente venga trasformato in un'arma informatica. Se stai valutando di quale assistente fidarti, il nostro confronto Claude vs ChatGPT e la nostra panoramica migliori LLM per la programmazione 2026 offrono il quadro d'insieme.

Perché Fable 5 è stato ritirato e poi ripristinato

Secondo Al Jazeera, NBC News e Anthropic, Fable 5 (e Mythos 5) erano stati sospesi a seguito di una direttiva del governo degli Stati Uniti legata ai controlli all'esportazione. Gli Stati Uniti hanno poi revocato tali restrizioni, e Anthropic ha ridistribuito Fable 5, disponibile in tutto il mondo a partire dal 2 luglio 2026, secondo le stesse fonti. La cosa rilevante non è quindi un modello nuovo, ma il ritorno di uno sospeso, questa volta con una meccanica di sicurezza più visibile.

Le nuove salvaguardie di cybersicurezza

Secondo Anthropic, il modello ridistribuito è accompagnato da safety classifiers che lo accompagnano per rilevare e bloccare usi di cybersicurezza pericolosi. Questi classificatori si collocano accanto al modello e mirano a intercettare i tentativi di spingerlo verso compiti informatici dannosi, anziché l'aiuto alla programmazione di ogni giorno.

Anthropic indica di aver addestrato un classificatore migliorato che blocca una tecnica specifica descritta in un rapporto in oltre il 99% dei casi. Questa singola cifra, il 99%+, è l'unico numero preciso che Anthropic presenta qui, e si applica a una tecnica descritta anziché ai jailbreak in generale, quindi va letta in modo restrittivo.

Una persona con una giacca col cappuccio davanti allo schermo di un computer che mostra codice verde in una stanza buia

Il framework di severità dei jailbreak

Secondo Anthropic, l'azienda ha pubblicato una bozza preliminare di un framework proposto per valutare la severità dei jailbreak, sviluppato con i suoi partner (Glasswing). Anthropic indica anche di essersi unita ad Amazon, Microsoft e Google su un framework di settore condiviso: l'obiettivo è dunque un metro comune anziché la scala privata di un singolo laboratorio.

Il framework propone quattro criteri per giudicare quanto sia grave un dato jailbreak:

  • Capability gain: quanta capacità aggiuntiva il jailbreak sblocca oltre agli strumenti non-IA già esistenti.
  • Breadth: quanti bersagli la tecnica risultante potrebbe colpire.
  • Weaponization ease: quanto sforzo aggiuntivo serve ancora per trasformarlo in un attacco reale.
  • Discoverability: quanto è facile scoprire il jailbreak in primo luogo.

Nel complesso, questi criteri cercano di separare un jailbreak che perlopiù ripete ciò che gli strumenti pubblici già fanno da uno che consegna a un attaccante una capacità davvero nuova, ampia e facile. Per uno sguardo più ampio sulla messa in sicurezza dei sistemi autonomi, vedi la nostra guida sicurezza degli agenti IA.

Gli impegni di Anthropic

Secondo Anthropic, l'azienda si impegna a indagare e classificare rapidamente i jailbreak che identifica, a notificare i propri omologhi governativi e a condividere le nuove salvaguardie per test indipendenti. Il punto dei test indipendenti è il più notevole: anziché trattare i classificatori come una scatola nera, Anthropic li presenta come qualcosa che terze parti possono sondare, ed è così che un'affermazione di sicurezza guadagna fiducia invece di limitarsi ad affermarla.

Cosa significa per gli sviluppatori

Per la programmazione di tutti i giorni, il fatto che Fable 5 sia di nuovo disponibile in tutto il mondo dal 2 luglio 2026 è la conclusione pratica: un modello che era fuori dai giochi è tornato. Lo strato di sicurezza attorno a esso, safety classifiers più un framework di severità condiviso, mira all'uso improprio, non al normale lavoro di sviluppo, e non dovrebbe quindi cambiare il modo in cui il modello ti aiuta a scrivere o rivedere codice.

L'onesta riserva è che gran parte di tutto ciò è agli inizi. La stessa Anthropic definisce il framework di severità una bozza preliminare, e la cifra del 99%+ copre una tecnica descritta, non una garanzia ampia. Prendi la ridistribuzione come una buona notizia con annessa una postura di sicurezza chiara, e verifica i dettagli sui materiali di Anthropic prima di farci affidamento. Se la privacy pesa nella tua decisione, valgono una lettura anche la nostra spiegazione privacy dei dati e IA e il nostro articolo ChatGPT è sicuro.

Foto: Pexels (source)

Disponibile anche in

FAQ

Claude Fable 5 è di nuovo disponibile?
Sì. Secondo Al Jazeera, NBC News e Anthropic, gli Stati Uniti hanno revocato i controlli all'esportazione che avevano sospeso Fable 5 (e Mythos 5), e Anthropic ha ridistribuito Fable 5, disponibile in tutto il mondo a partire dal 2 luglio 2026.
Quali salvaguardie di cybersicurezza accompagnano Claude Fable 5?
Secondo Anthropic, dei safety classifiers accompagnano il modello per rilevare e bloccare usi di cybersicurezza pericolosi. Anthropic indica di aver addestrato un classificatore migliorato che blocca una tecnica specifica descritta in un rapporto in oltre il 99% dei casi.
Cos'è il framework di severità dei jailbreak?
Secondo Anthropic, ha pubblicato una bozza preliminare di un framework proposto per valutare la severità dei jailbreak, sviluppato con i suoi partner (Glasswing), e si è unito ad Amazon, Microsoft e Google su un framework di settore condiviso. I quattro criteri sono capability gain, breadth, weaponization ease e discoverability.
A cosa si è impegnata Anthropic?
Secondo Anthropic, l'azienda si impegna a indagare e classificare rapidamente i jailbreak identificati, a notificare i propri omologhi governativi e a condividere le nuove salvaguardie per test indipendenti.