alexi.sh
Tutti gli articoliSicurezza del browserPrivacy di reteStrumenti per la privacyModellazione delle minacceProgrammazione con IAStrumenti per sviluppatori

alexi.shLaboratorio di Ingegneria AI

ai-coding

Come Funzionano i Rilevatori di IA? (E quanto sono affidabili, 2026)

PrivSec Lab6 min di lettura
Una penna stilografica che scrive testo in corsivo su carta a righe

I rilevatori di IA segnalano un testo come scritto da una macchina usando segnali come la perplessità e la burstiness, classificatori addestrati e filigrane. Come funzionano davvero, perché i loro tassi di falsi positivi sono alti e quanto valgono realmente.

«È stato scritto da un'IA?» è ormai una domanda quotidiana per insegnanti, redattori, reclutatori e moderatori di piattaforme — e una piccola industria di rilevatori di IA promette una risposta sì-o-no. Questa guida spiega come questi strumenti funzionano davvero dietro le quinte, su quali segnali si basano e la scomoda verità su quanto siano realmente affidabili.

Cosa cerca di fare un rilevatore di IA

Un rilevatore di testo IA stima la probabilità che un passaggio sia stato generato da un modello linguistico anziché scritto da una persona. È fondamentale notare che non comprende il testo né verifica se è vero. Guarda le statistiche superficiali — la forma e la prevedibilità delle parole — e produce una probabilità. Questa distinzione è importante, perché è la radice di ogni limite che segue.

Per capire perché esistono queste statistiche, è utile sapere come il testo è stato prodotto in primo luogo: un LLM genera la scrittura prevedendo ripetutamente il prossimo token più probabile. Proprio questo processo lascia una debole firma statistica, e i rilevatori vanno a caccia di essa.

Una penna stilografica che scrive testo in corsivo su carta a righe

Le tre tecniche fondamentali

1. Perplessità e burstiness

L'approccio più antico e diffuso misura due cose:

  • Perplessità — quanto è sorpreso un modello linguistico da ogni parola. Poiché un LLM scrive scegliendo parole ad alta probabilità, il testo IA tende a essere molto prevedibile, quindi ottiene una bassa perplessità. La scrittura umana è più disordinata e meno prevedibile.
  • Burstiness — quanto variano la lunghezza e la complessità delle frasi in un passaggio. Le persone scrivono a raffiche: una frase lunga e tortuosa, poi una breve. Il testo automatico è spesso più piatto e uniforme.

Un rilevatore combina bassa perplessità e bassa burstiness in un segnale «questo sembra scritto da una macchina». È intuitivo — ma è anche esattamente il motivo per cui una scrittura umana semplice e ben strutturata viene giudicata male.

2. Classificatori addestrati

L'approccio moderno è un classificatore di apprendimento automatico. Allo strumento vengono mostrati grandi quantità di campioni scritti da umani e da IA e impara, da solo, gli schemi che li separano — per poi produrre una probabilità per nuovi testi. Si tratta della stessa famiglia di tecniche alla base dei filtri antispam, applicata alla paternità del testo.

Il problema: un classificatore è valido solo quanto i suoi dati di addestramento. Apprende gli stili dei modelli e degli argomenti che ha visto e può sbagliare con sicurezza su tutto ciò che esula da quella distribuzione — nuovi modelli, testi modificati o autori il cui stile naturale somiglia agli schemi «IA» appresi.

3. Filigrana

Un'idea fondamentalmente diversa: invece di indovinare a posteriori, il fornitore di IA distorce sottilmente le scelte di parole del modello seguendo uno schema segreto mentre genera. Un rilevatore corrispondente che conosce lo schema può poi individuarlo. In linea di principio questo è il metodo più robusto — ma funziona solo se il fornitore applica effettivamente una filigrana all'output e la filigrana sopravvive. Copiare, parafrasare o anche una modifica moderata tendono a dilavarla.

Primo piano di un circuito stampato con un microchip e i componenti circostanti
Un circuito stampato e un microchip — la maggior parte dei rilevatori esegue un classificatore addestrato, un modello che ha appreso gli schemi statistici che separano il testo umano da quello automatico.

Quanto sono affidabili, davvero?

È qui che il marketing e le prove si separano. I rilevatori di IA commettono due tipi di errori, ed entrambi sono comuni:

  • Falsi positivi — segnalare una scrittura genuinamente umana come IA. Poiché i rilevatori premiano la «semplicità», una scrittura umana chiara, formulare e ben organizzata può ottenere un punteggio da macchina.
  • Falsi negativi — mancare testo IA reale, specialmente dopo che un umano lo modifica leggermente o lo parafrasa.

Due fatti pubblici ancorano lo scetticismo:

  1. OpenAI ha interrotto il proprio AI Text Classifier nel luglio 2023, citandone il basso tasso di accuratezza. L'azienda che costruisce i modelli leader non è riuscita a rilasciare un rilevatore affidabile per essi.
  2. I ricercatori hanno lanciato l'allarme sui pregiudizi. Uno studio di Stanford del 2023 ampiamente citato (Liang et al., pubblicato su Patterns) ha rilevato che i rilevatori segnalano in modo sproporzionato la scrittura di persone non madrelingua inglese, il cui modo di esprimersi più semplice e prevedibile viene letto come «bassa perplessità» — rischiando accuse ingiuste.

Il problema più profondo è strutturale: il rilevamento è un'ipotesi sui modelli superficiali, e qualsiasi cosa che cambi tali modelli lo sconfigge — inclusa la normale revisione che ogni scrittore attento fa comunque.

Perché i rilevatori sono facili da ingannare

Poiché il segnale è statistico anziché semantico, molte azioni banali abbassano la fiducia di un rilevatore: riformulare le frasi, variarne la lunghezza, sostituire poche parole, chiedere al modello di scrivere in uno stile più «umano» o vario, o far passare il testo attraverso un parafrasatore. Il rilevamento tramite filigrana aiuta solo quando una filigrana è stata aggiunta ed è sopravvissuta — spesso non lo era, o non lo è. Questa è una classica corsa del gatto e del topo, e il gatto sta perdendo.

Cosa fare invece

Per qualsiasi cosa con conseguenze reali — voti, lavori, pubblicazione, moderazione — un singolo punteggio di un rilevatore è lo strumento sbagliato. Segnali migliori provengono dal processo e dal contesto:

  • Guarda la cronologia delle bozze e il controllo delle versioni anziché solo il testo finale.
  • Fai domande di approfondimento sul lavoro o confronta con un campione di scrittura noto.
  • Valuta se il contenuto è effettivamente corretto, originale e utile. La vera debolezza di un LLM non è la sua rilevabilità — è l'allucinazione, affermare cose false con sicurezza. Verificare i fatti coglie più problemi reali di qualsiasi rilevatore.
  • Se devi usare un rilevatore, tratta il suo risultato come un input debole, documenta il rischio di falsi positivi e non automatizzare mai una decisione o un'accusa solo su di esso.

Per un contesto correlato su come questi modelli gestiscono i tuoi dati e dove si annidano i veri rischi, vedi se ChatGPT è sicuro da usare.

In conclusione

I rilevatori di IA funzionano misurando le impronte statistiche del testo automatico — bassa perplessità, bassa burstiness, schemi appresi da un classificatore o filigrane del fornitore — mai comprendendo il significato. Questo design li rende fondamentalmente probabilistici: inclini ai falsi positivi (specialmente contro la scrittura semplice o non madrelingua), facili da sconfiggere con una leggera modifica e abbastanza inaffidabili da spingere persino OpenAI a ritirare il proprio rilevatore. Usali, semmai, come un debole indizio — e basa le decisioni reali sul processo, sul contesto e sul fatto che la scrittura sia effettivamente valida.

Photo: Unsplash (source)

Disponibile anche in

FAQ

Come funzionano i rilevatori di IA?
I rilevatori di testo IA cercano le impronte statistiche della scrittura automatica anziché «leggere» il significato. I due segnali classici sono la perplessità (quanto è prevedibile ogni parola — il testo IA tende a essere molto prevedibile, quindi bassa perplessità) e la burstiness (quanto variano la lunghezza e la complessità delle frasi — gli esseri umani variano di più, l'IA tende a essere più uniforme). La maggior parte degli strumenti moderni esegue anche un classificatore addestrato: un modello a cui vengono mostrati molti campioni umani e IA e che impara a produrre una probabilità che un passaggio sia generato da una macchina. Un terzo approccio è la filigrana, in cui il fornitore di IA distorce la scelta delle parole secondo uno schema invisibile che un rilevatore corrispondente può poi individuare. Nessuno di questi ispeziona i fatti o le intenzioni; tutti stimano la probabilità a partire dai modelli superficiali.
I rilevatori di IA sono affidabili?
Non abbastanza affidabili da essere usati come prova. Producono sia falsi positivi (segnalando una scrittura genuinamente umana come IA) sia falsi negativi (mancando testo IA reale, specialmente dopo una leggera modifica o parafrasi). OpenAI ha pubblicamente interrotto il proprio AI Text Classifier nel luglio 2023, citandone il basso tasso di accuratezza. Poiché i rilevatori si basano sulla «semplicità» statistica, una scrittura umana chiara e formulare può attivarli, mentre poche modifiche umane o un passaggio di parafrasi possono sconfiggerli. Tratta qualsiasi punteggio come un segnale debole, mai come un verdetto.
I rilevatori di IA danno falsi positivi?
Sì, ed è la loro debolezza più grave. Un rilevatore misura quanto «prevedibile» appare un testo, quindi una scrittura umana lineare e ben strutturata — il tipo che a studenti e professionisti viene insegnato a produrre — può ottenere un punteggio da IA. La ricerca pubblicata ha anche sollevato preoccupazioni sul fatto che i rilevatori segnalino in modo sproporzionato i testi scritti da persone non madrelingua inglese, il cui modo di esprimersi tende a essere più semplice e prevedibile. Agire su un falso positivo (ad esempio accusando uno studente o respingendo uno scrittore) può causare un danno reale, motivo per cui nessuna politica responsabile dovrebbe affidarsi a un rilevatore da solo.
I rilevatori di IA possono essere ingannati?
Facilmente, nella pratica. Una leggera modifica, la riformulazione, la sostituzione di poche parole, chiedere al modello di scrivere in uno stile più vario o «umano», o far passare il testo attraverso uno strumento di parafrasi possono tutti abbassare la fiducia di un rilevatore. Il rilevamento basato sulla filigrana funziona solo se il fornitore ha aggiunto una filigrana ed essa è sopravvissuta alla modifica, cosa che spesso non accade. Poiché il rilevamento è una stima dei modelli superficiali, qualsiasi cosa che cambi tali modelli — inclusa la normale modifica umana — lo degrada. Questa dinamica del gatto e del topo è il motivo per cui il rilevamento da solo non può essere una barriera affidabile.
Cosa dovrei usare al posto di un rilevatore di IA?
Per qualsiasi cosa importante, affidati al processo e al contesto anziché a un singolo punteggio. Guarda la cronologia delle bozze e il controllo delle versioni, fai domande di approfondimento sul lavoro, confronta con un campione di scrittura noto e valuta se il contenuto è effettivamente corretto, originale e utile — la vera debolezza di un LLM è l'allucinazione, non la rilevabilità. Se usi un rilevatore, trattalo come un input debole tra molti, documenta il rischio di falsi positivi e non formulare mai un'accusa o una decisione automatizzata sul suo solo risultato.