«È stato scritto da un'IA?» è ormai una domanda quotidiana per insegnanti, redattori, reclutatori e moderatori di piattaforme — e una piccola industria di rilevatori di IA promette una risposta sì-o-no. Questa guida spiega come questi strumenti funzionano davvero dietro le quinte, su quali segnali si basano e la scomoda verità su quanto siano realmente affidabili.
Cosa cerca di fare un rilevatore di IA
Un rilevatore di testo IA stima la probabilità che un passaggio sia stato generato da un modello linguistico anziché scritto da una persona. È fondamentale notare che non comprende il testo né verifica se è vero. Guarda le statistiche superficiali — la forma e la prevedibilità delle parole — e produce una probabilità. Questa distinzione è importante, perché è la radice di ogni limite che segue.
Per capire perché esistono queste statistiche, è utile sapere come il testo è stato prodotto in primo luogo: un LLM genera la scrittura prevedendo ripetutamente il prossimo token più probabile. Proprio questo processo lascia una debole firma statistica, e i rilevatori vanno a caccia di essa.
Le tre tecniche fondamentali
1. Perplessità e burstiness
L'approccio più antico e diffuso misura due cose:
- Perplessità — quanto è sorpreso un modello linguistico da ogni parola. Poiché un LLM scrive scegliendo parole ad alta probabilità, il testo IA tende a essere molto prevedibile, quindi ottiene una bassa perplessità. La scrittura umana è più disordinata e meno prevedibile.
- Burstiness — quanto variano la lunghezza e la complessità delle frasi in un passaggio. Le persone scrivono a raffiche: una frase lunga e tortuosa, poi una breve. Il testo automatico è spesso più piatto e uniforme.
Un rilevatore combina bassa perplessità e bassa burstiness in un segnale «questo sembra scritto da una macchina». È intuitivo — ma è anche esattamente il motivo per cui una scrittura umana semplice e ben strutturata viene giudicata male.
2. Classificatori addestrati
L'approccio moderno è un classificatore di apprendimento automatico. Allo strumento vengono mostrati grandi quantità di campioni scritti da umani e da IA e impara, da solo, gli schemi che li separano — per poi produrre una probabilità per nuovi testi. Si tratta della stessa famiglia di tecniche alla base dei filtri antispam, applicata alla paternità del testo.
Il problema: un classificatore è valido solo quanto i suoi dati di addestramento. Apprende gli stili dei modelli e degli argomenti che ha visto e può sbagliare con sicurezza su tutto ciò che esula da quella distribuzione — nuovi modelli, testi modificati o autori il cui stile naturale somiglia agli schemi «IA» appresi.
3. Filigrana
Un'idea fondamentalmente diversa: invece di indovinare a posteriori, il fornitore di IA distorce sottilmente le scelte di parole del modello seguendo uno schema segreto mentre genera. Un rilevatore corrispondente che conosce lo schema può poi individuarlo. In linea di principio questo è il metodo più robusto — ma funziona solo se il fornitore applica effettivamente una filigrana all'output e la filigrana sopravvive. Copiare, parafrasare o anche una modifica moderata tendono a dilavarla.
Quanto sono affidabili, davvero?
È qui che il marketing e le prove si separano. I rilevatori di IA commettono due tipi di errori, ed entrambi sono comuni:
- Falsi positivi — segnalare una scrittura genuinamente umana come IA. Poiché i rilevatori premiano la «semplicità», una scrittura umana chiara, formulare e ben organizzata può ottenere un punteggio da macchina.
- Falsi negativi — mancare testo IA reale, specialmente dopo che un umano lo modifica leggermente o lo parafrasa.
Due fatti pubblici ancorano lo scetticismo:
- OpenAI ha interrotto il proprio AI Text Classifier nel luglio 2023, citandone il basso tasso di accuratezza. L'azienda che costruisce i modelli leader non è riuscita a rilasciare un rilevatore affidabile per essi.
- I ricercatori hanno lanciato l'allarme sui pregiudizi. Uno studio di Stanford del 2023 ampiamente citato (Liang et al., pubblicato su Patterns) ha rilevato che i rilevatori segnalano in modo sproporzionato la scrittura di persone non madrelingua inglese, il cui modo di esprimersi più semplice e prevedibile viene letto come «bassa perplessità» — rischiando accuse ingiuste.
Il problema più profondo è strutturale: il rilevamento è un'ipotesi sui modelli superficiali, e qualsiasi cosa che cambi tali modelli lo sconfigge — inclusa la normale revisione che ogni scrittore attento fa comunque.
Perché i rilevatori sono facili da ingannare
Poiché il segnale è statistico anziché semantico, molte azioni banali abbassano la fiducia di un rilevatore: riformulare le frasi, variarne la lunghezza, sostituire poche parole, chiedere al modello di scrivere in uno stile più «umano» o vario, o far passare il testo attraverso un parafrasatore. Il rilevamento tramite filigrana aiuta solo quando una filigrana è stata aggiunta ed è sopravvissuta — spesso non lo era, o non lo è. Questa è una classica corsa del gatto e del topo, e il gatto sta perdendo.
Cosa fare invece
Per qualsiasi cosa con conseguenze reali — voti, lavori, pubblicazione, moderazione — un singolo punteggio di un rilevatore è lo strumento sbagliato. Segnali migliori provengono dal processo e dal contesto:
- Guarda la cronologia delle bozze e il controllo delle versioni anziché solo il testo finale.
- Fai domande di approfondimento sul lavoro o confronta con un campione di scrittura noto.
- Valuta se il contenuto è effettivamente corretto, originale e utile. La vera debolezza di un LLM non è la sua rilevabilità — è l'allucinazione, affermare cose false con sicurezza. Verificare i fatti coglie più problemi reali di qualsiasi rilevatore.
- Se devi usare un rilevatore, tratta il suo risultato come un input debole, documenta il rischio di falsi positivi e non automatizzare mai una decisione o un'accusa solo su di esso.
Per un contesto correlato su come questi modelli gestiscono i tuoi dati e dove si annidano i veri rischi, vedi se ChatGPT è sicuro da usare.
In conclusione
I rilevatori di IA funzionano misurando le impronte statistiche del testo automatico — bassa perplessità, bassa burstiness, schemi appresi da un classificatore o filigrane del fornitore — mai comprendendo il significato. Questo design li rende fondamentalmente probabilistici: inclini ai falsi positivi (specialmente contro la scrittura semplice o non madrelingua), facili da sconfiggere con una leggera modifica e abbastanza inaffidabili da spingere persino OpenAI a ritirare il proprio rilevatore. Usali, semmai, come un debole indizio — e basa le decisioni reali sul processo, sul contesto e sul fatto che la scrittura sia effettivamente valida.


