alexi.sh
Todos os artigosSegurança do navegadorPrivacidade de redeFerramentas de privacidadeModelagem de ameaçasProgramação com IAFerramentas de dev

alexi.shLaboratório de Engenharia de IA

ai-coding

Como Funcionam os Detetores de IA? (E qual a sua fiabilidade, 2026)

PrivSec Lab6 min de leitura
Uma caneta de tinta permanente a escrever texto em cursiva sobre papel pautado

Os detetores de IA assinalam um texto como escrito por uma máquina usando sinais como a perplexidade e a burstiness, classificadores treinados e marcas de água. Como funcionam realmente, porque as suas taxas de falsos positivos são altas e o que realmente valem.

«Isto foi escrito por uma IA?» é agora uma pergunta diária para professores, editores, recrutadores e moderadores de plataformas — e uma pequena indústria de detetores de IA promete uma resposta de sim-ou-não. Este guia explica como essas ferramentas funcionam realmente nos bastidores, em que sinais se baseiam e a verdade incómoda sobre quão fiáveis são de facto.

O que um detetor de IA tenta fazer

Um detetor de texto de IA estima a probabilidade de um trecho ter sido gerado por um modelo de linguagem em vez de escrito por uma pessoa. É fundamental notar que não compreende o texto nem verifica se é verdadeiro. Olha para as estatísticas superficiais — a forma e a previsibilidade das palavras — e produz uma probabilidade. Essa distinção importa, porque é a raiz de todas as limitações que se seguem.

Para perceber por que existem estas estatísticas, ajuda saber como o texto foi produzido em primeiro lugar: um LLM gera a escrita prevendo repetidamente o próximo token mais provável. Esse mesmo processo deixa uma ténue assinatura estatística, e os detetores andam à caça dela.

Uma caneta de tinta permanente a escrever texto em cursiva sobre papel pautado

As três técnicas fundamentais

1. Perplexidade e burstiness

A abordagem mais antiga e comum mede duas coisas:

  • Perplexidade — quão surpreendido fica um modelo de linguagem por cada palavra. Como um LLM escreve escolhendo palavras de alta probabilidade, o texto de IA tende a ser muito previsível, pelo que obtém baixa perplexidade. A escrita humana é mais desordenada e menos previsível.
  • Burstiness — quanto variam o comprimento e a complexidade das frases ao longo de um trecho. As pessoas escrevem em rajadas: uma frase longa e sinuosa, depois uma curta. O texto de máquina é frequentemente mais plano e uniforme.

Um detetor combina baixa perplexidade e baixa burstiness num sinal de «isto parece escrito por uma máquina». É intuitivo — mas é também exatamente a razão pela qual uma escrita humana simples e bem estruturada é mal avaliada.

2. Classificadores treinados

A abordagem moderna é um classificador de aprendizagem automática. À ferramenta são mostradas grandes quantidades de amostras escritas por humanos e por IA e aprende, por si própria, os padrões que as separam — para depois produzir uma probabilidade para novos textos. Esta é a mesma família de técnicas por trás dos filtros de spam, aplicada à autoria.

O senão: um classificador é tão bom quanto os seus dados de treino. Aprende os estilos dos modelos e temas que viu e pode errar com confiança em tudo o que está fora dessa distribuição — novos modelos, texto editado ou autores cujo estilo natural se assemelha aos padrões «IA» que aprendeu.

3. Marca de água

Uma ideia fundamentalmente diferente: em vez de adivinhar a posteriori, o fornecedor de IA enviesa subtilmente as escolhas de palavras do modelo seguindo um padrão secreto à medida que gera. Um detetor correspondente que conhece o padrão pode depois identificá-lo. Em princípio, este é o método mais robusto — mas só funciona se o fornecedor realmente aplicar uma marca de água à saída e a marca de água sobreviver. Copiar, parafrasear ou mesmo uma edição moderada tendem a apagá-la.

Primeiro plano de uma placa de circuito impresso com um microchip e os componentes circundantes
Uma placa de circuito e um microchip — a maioria dos detetores executa um classificador treinado, um modelo que aprendeu os padrões estatísticos que separam o texto humano do automático.

Qual a sua fiabilidade, na realidade?

É aqui que o marketing e as provas se separam. Os detetores de IA cometem dois tipos de erros, e ambos são comuns:

  • Falsos positivos — assinalar escrita genuinamente humana como IA. Como os detetores premeiam a «simplicidade», uma escrita humana clara, formular e bem organizada pode obter pontuação de máquina.
  • Falsos negativos — não detetar texto de IA real, especialmente depois de um humano o editar ligeiramente ou parafrasear.

Dois factos públicos ancoram o ceticismo:

  1. A OpenAI descontinuou o seu próprio AI Text Classifier em julho de 2023, citando a sua baixa taxa de exatidão. A empresa que constrói os modelos líderes não conseguiu lançar um detetor fiável para eles.
  2. Os investigadores deram o alarme sobre o enviesamento. Um estudo de Stanford de 2023 amplamente citado (Liang et al., publicado na Patterns) concluiu que os detetores assinalam desproporcionadamente a escrita de pessoas que não têm o inglês como língua materna, cuja forma de se exprimir mais simples e previsível é lida como «baixa perplexidade» — arriscando acusações injustas.

O problema mais profundo é estrutural: a deteção é um palpite sobre padrões superficiais, e qualquer coisa que altere esses padrões derrota-a — incluindo a edição habitual que todo o escritor cuidadoso faz de qualquer forma.

Porque os detetores são fáceis de enganar

Como o sinal é estatístico e não semântico, muitas ações mundanas reduzem a confiança de um detetor: reformular frases, variar o seu comprimento, trocar algumas palavras, pedir ao modelo para escrever num estilo mais «humano» ou variado, ou passar o texto por um parafraseador. A deteção por marca de água só ajuda quando uma marca de água foi adicionada e sobreviveu — frequentemente não foi, ou não sobreviveu. Esta é uma clássica corrida de gato e rato, e o gato está a perder.

O que fazer em vez disso

Para qualquer coisa com consequências reais — notas, empregos, publicação, moderação — uma única pontuação de um detetor é a ferramenta errada. Sinais melhores vêm do processo e do contexto:

  • Veja o histórico de rascunhos e o controlo de versões em vez de apenas o texto final.
  • Faça perguntas de seguimento sobre o trabalho ou compare com uma amostra de escrita conhecida.
  • Avalie se o conteúdo é efetivamente correto, original e útil. A verdadeira fraqueza de um LLM não é ser detetável — é a alucinação, afirmar coisas falsas com confiança. Verificar factos apanha mais problemas reais do que qualquer detetor.
  • Se tiver de usar um detetor, trate o seu resultado como uma entrada fraca, documente o risco de falsos positivos e nunca automatize uma decisão ou acusação apenas com base nele.

Para contexto relacionado sobre como estes modelos lidam com os seus dados e onde estão os verdadeiros riscos, veja se o ChatGPT é seguro de usar.

Em conclusão

Os detetores de IA funcionam medindo as impressões digitais estatísticas do texto automático — baixa perplexidade, baixa burstiness, padrões aprendidos por um classificador ou marcas de água do fornecedor — nunca compreendendo o significado. Esse desenho torna-os fundamentalmente probabilísticos: propensos a falsos positivos (especialmente contra escrita simples ou de não nativos), fáceis de derrotar com uma ligeira edição e suficientemente pouco fiáveis para que até a OpenAI tenha retirado o seu próprio detetor. Use-os, se for o caso, como uma ténue pista — e baseie as decisões reais no processo, no contexto e em saber se o texto é efetivamente bom.

Photo: Unsplash (source)

Também disponível em

FAQ

Como funcionam os detetores de IA?
Os detetores de texto de IA procuram impressões digitais estatísticas da escrita automática em vez de «lerem» o significado. Os dois sinais clássicos são a perplexidade (quão previsível é cada palavra — o texto de IA tende a ser muito previsível, logo baixa perplexidade) e a burstiness (quanto variam o comprimento e a complexidade das frases — os humanos variam mais, a IA tende a ser mais uniforme). A maioria das ferramentas modernas também executa um classificador treinado: um modelo a quem são mostradas muitas amostras humanas e de IA e que aprende a produzir uma probabilidade de que um trecho seja gerado por máquina. Uma terceira abordagem é a marca de água, em que o fornecedor de IA enviesa a escolha das palavras segundo um padrão invisível que um detetor correspondente pode depois identificar. Nenhum destes inspeciona factos ou intenções; todos estimam a probabilidade a partir de padrões superficiais.
Os detetores de IA são fiáveis?
Não suficientemente fiáveis para serem usados como prova. Produzem tanto falsos positivos (assinalar escrita genuinamente humana como IA) como falsos negativos (não detetar texto de IA real, especialmente após uma ligeira edição ou paráfrase). A OpenAI descontinuou publicamente o seu próprio AI Text Classifier em julho de 2023, citando a sua baixa taxa de exatidão. Como os detetores se baseiam na «simplicidade» estatística, uma escrita humana clara e formular pode ativá-los, enquanto algumas edições humanas ou uma passagem de paráfrase podem derrotá-los. Trate qualquer pontuação como um sinal fraco, nunca como um veredito.
Os detetores de IA dão falsos positivos?
Sim, e essa é a sua fraqueza mais grave. Um detetor mede quão «previsível» um texto parece, por isso uma escrita humana direta e bem estruturada — o tipo que os estudantes e profissionais aprendem a produzir — pode obter pontuação de IA. A investigação publicada também levantou preocupações de que os detetores assinalam desproporcionadamente textos escritos por pessoas que não têm o inglês como língua materna, cuja forma de se exprimir tende a ser mais simples e previsível. Agir com base num falso positivo (por exemplo, acusar um estudante ou rejeitar um escritor) pode causar danos reais, razão pela qual nenhuma política responsável deve depender de um detetor isolado.
Os detetores de IA podem ser enganados?
Facilmente, na prática. Uma ligeira edição, a reformulação, a troca de algumas palavras, pedir ao modelo para escrever num estilo mais variado ou «humano», ou passar o texto por uma ferramenta de paráfrase podem todos reduzir a confiança de um detetor. A deteção baseada em marca de água só funciona se o fornecedor tiver adicionado uma marca de água e esta tiver sobrevivido à edição, o que muitas vezes não acontece. Como a deteção é uma estimativa de padrões superficiais, qualquer coisa que altere esses padrões — incluindo a edição humana normal — degrada-a. Esta dinâmica de gato e rato é a razão pela qual a deteção isolada não pode ser uma barreira fiável.
O que devo usar em vez de um detetor de IA?
Para qualquer coisa importante, apoie-se no processo e no contexto em vez de uma única pontuação. Veja o histórico de rascunhos e o controlo de versões, faça perguntas de seguimento sobre o trabalho, compare com uma amostra de escrita conhecida e avalie se o conteúdo é efetivamente correto, original e útil — a verdadeira fraqueza de um LLM é a alucinação, não a detetabilidade. Se usar de todo um detetor, trate-o como uma entrada fraca entre muitas, documente o risco de falsos positivos e nunca faça uma acusação ou decisão automatizada apenas com base no seu resultado.