alexi.sh
Tous les articlesSécurité navigateurConfidentialité réseauOutils de confidentialitéModélisation des menacesCodage IAOutils de dev

alexi.shLabo IA

ai-coding

Comment fonctionnent les détecteurs d'IA ? (Et que valent-ils, 2026)

PrivSec Lab6 min de lecture
Un stylo-plume écrivant un texte manuscrit sur du papier ligné

Les détecteurs d'IA signalent un texte comme généré par machine grâce à des signaux comme la perplexité et la « burstiness », des classifieurs entraînés et le filigrane. Comment ils marchent vraiment, pourquoi leur taux de faux positifs est élevé, et ce qu'ils valent réellement.

« Est-ce écrit par une IA ? » est devenu une question quotidienne pour les enseignants, les éditeurs, les recruteurs et les modérateurs de plateformes — et une petite industrie de détecteurs d'IA promet une réponse par oui ou par non. Ce guide explique comment ces outils fonctionnent vraiment sous le capot, sur quels signaux ils s'appuient, et la vérité inconfortable sur leur fiabilité réelle.

Ce qu'un détecteur d'IA essaie de faire

Un détecteur de texte IA estime la probabilité qu'un passage ait été généré par un modèle de langage plutôt qu'écrit par une personne. Point crucial : il ne comprend pas le texte et ne vérifie pas s'il est vrai. Il regarde des statistiques de surface — la forme et la prévisibilité des mots — et produit une vraisemblance. Cette distinction compte, car elle est à la racine de chaque limite qui suit.

Pour comprendre d'où viennent ces statistiques, il faut savoir comment le texte a été produit : un LLM génère son écriture en prédisant de façon répétée le token le plus probable. Ce processus même laisse une faible signature statistique, que les détecteurs traquent.

Un stylo-plume écrivant un texte manuscrit sur du papier ligné

Les trois techniques de base

1. Perplexité et « burstiness »

L'approche la plus ancienne et la plus répandue mesure deux choses :

  • Perplexité — à quel point un modèle de langage est surpris par chaque mot. Comme un LLM écrit en choisissant des mots à forte probabilité, le texte d'IA tend à être très prévisible, donc à faible perplexité. L'écriture humaine est plus désordonnée et moins prévisible.
  • « Burstiness » — à quel point la longueur et la complexité des phrases varient au sein d'un passage. Les gens écrivent par à-coups : une longue phrase sinueuse, puis une courte. Le texte machine est souvent plus plat et plus uniforme.

Un détecteur combine faible perplexité et faible burstiness en un signal « ça ressemble à du texte machine ». C'est intuitif — mais c'est aussi exactement pourquoi une écriture humaine claire et bien structurée est mal jugée.

2. Classifieurs entraînés

L'approche moderne est un classifieur d'apprentissage automatique. On montre à l'outil un grand nombre d'échantillons écrits par des humains et par des IA, et il apprend tout seul les motifs qui les séparent — puis produit une probabilité pour un nouveau texte. C'est la même famille de technique que derrière les filtres anti-spam, appliquée à la paternité du texte.

Le hic : un classifieur ne vaut que ce que valent ses données d'entraînement. Il apprend les styles des modèles et des sujets qu'il a vus, et il peut se tromper avec assurance sur tout ce qui en sort — nouveaux modèles, texte édité, ou rédacteurs dont le style naturel ressemble aux motifs « IA » qu'il a appris.

3. Filigrane (watermarking)

Une idée fondamentalement différente : au lieu de deviner après coup, le fournisseur d'IA biaise subtilement le choix des mots du modèle selon un motif secret au moment de la génération. Un détecteur compatible qui connaît ce motif peut ensuite le repérer. En principe c'est la méthode la plus robuste — mais elle ne marche que si le fournisseur appose effectivement un filigrane et que celui-ci survit. La copie, la paraphrase ou même une édition modérée tendent à l'effacer.

Gros plan d'un circuit imprimé avec une puce et ses composants
Un circuit imprimé et sa puce — la plupart des détecteurs exécutent un classifieur entraîné, un modèle qui a appris les motifs statistiques séparant le texte humain du texte machine.

Quelle fiabilité, vraiment ?

C'est là que le marketing et les faits divergent. Les détecteurs d'IA commettent deux types d'erreurs, toutes deux fréquentes :

  • Faux positifs — signaler une écriture réellement humaine comme étant de l'IA. Parce que les détecteurs récompensent la « platitude », une écriture humaine claire, formatée et bien organisée peut être notée comme issue d'une machine.
  • Faux négatifs — rater un vrai texte d'IA, surtout après qu'un humain l'a légèrement édité ou paraphrasé.

Deux faits publics ancrent le scepticisme :

  1. OpenAI a abandonné son propre AI Text Classifier en juillet 2023, invoquant son faible taux de précision. L'entreprise qui construit les modèles de pointe n'a pas pu livrer un détecteur fiable pour eux.
  2. Des chercheurs ont tiré la sonnette d'alarme sur le biais. Une étude de Stanford de 2023 (Liang et al., publiée dans Patterns) a constaté que les détecteurs signalent de façon disproportionnée les textes de locuteurs non natifs de l'anglais, dont la formulation plus simple et plus prévisible se lit comme une « faible perplexité » — au risque d'accusations injustes.

Le problème de fond est structurel : la détection est une supposition sur des motifs de surface, et tout ce qui change ces motifs la déjoue — y compris l'édition ordinaire que tout rédacteur soigneux pratique de toute façon.

Pourquoi les détecteurs sont faciles à tromper

Parce que le signal est statistique et non sémantique, beaucoup de gestes banals abaissent la confiance d'un détecteur : reformuler des phrases, varier leur longueur, remplacer quelques mots, demander au modèle un style plus « humain » ou plus varié, ou passer le texte dans un paraphraseur. La détection par filigrane n'aide que si un filigrane a été ajouté et a survécu — souvent ce n'était pas le cas, ou il n'a pas tenu. C'est une course classique du chat et de la souris, et le chat perd.

Que faire à la place

Pour tout ce qui a de réelles conséquences — notes, emplois, publication, modération — un score de détecteur unique est le mauvais outil. De meilleurs signaux viennent du processus et du contexte :

  • Regardez l'historique des brouillons et le contrôle de version plutôt que le seul texte final.
  • Posez des questions de suivi sur le travail, ou comparez à un échantillon d'écriture connu.
  • Jugez si le contenu est réellement correct, original et utile. La vraie faiblesse d'un LLM n'est pas d'être détectable — c'est l'hallucination, affirmer des choses fausses avec assurance. Vérifier les faits attrape plus de vrais problèmes que n'importe quel détecteur.
  • Si vous devez utiliser un détecteur, traitez sa sortie comme une entrée faible, documentez le risque de faux positif, et n'automatisez jamais une décision ou une accusation sur cette seule base.

Pour un contexte connexe sur la façon dont ces modèles traitent vos données et où sont les vrais risques, voyez si ChatGPT est sûr à utiliser.

En résumé

Les détecteurs d'IA fonctionnent en mesurant les empreintes statistiques du texte machine — faible perplexité, faible burstiness, motifs appris par un classifieur, ou filigranes du fournisseur — jamais en comprenant le sens. Cette conception les rend fondamentalement probabilistes : sujets aux faux positifs (surtout contre l'écriture simple ou non native), faciles à déjouer par une légère édition, et assez peu fiables pour qu'OpenAI ait retiré son propre détecteur. Utilisez-les, si tant est, comme un faible indice — et fondez les vraies décisions sur le processus, le contexte et la qualité réelle du texte.

Photo : Unsplash (source)

Aussi disponible en

FAQ

Comment fonctionnent les détecteurs d'IA ?
Les détecteurs de texte IA cherchent des empreintes statistiques de l'écriture machine plutôt que de « lire » le sens. Les deux signaux classiques sont la perplexité (à quel point chaque mot est prévisible — le texte d'IA est très prévisible, donc à faible perplexité) et la « burstiness » (la variation de la longueur et de la complexité des phrases — les humains varient davantage, l'IA est plus plate). La plupart des outils modernes exécutent aussi un classifieur entraîné : un modèle ayant vu de nombreux échantillons humains et IA qui apprend à produire une probabilité qu'un passage soit généré par machine. Une troisième approche est le filigrane, où le fournisseur d'IA biaise le choix des mots selon un motif invisible qu'un détecteur compatible peut ensuite repérer. Aucune de ces méthodes n'examine les faits ni l'intention ; elles estiment toutes une vraisemblance à partir de motifs de surface.
Les détecteurs d'IA sont-ils fiables ?
Pas assez fiables pour servir de preuve. Ils produisent à la fois des faux positifs (signaler un texte réellement humain comme étant de l'IA) et des faux négatifs (rater un vrai texte d'IA, surtout après une légère réécriture ou paraphrase). OpenAI a publiquement abandonné son propre AI Text Classifier en juillet 2023, invoquant son faible taux de précision. Comme les détecteurs se basent sur la « platitude » statistique, une écriture humaine claire et formatée peut les déclencher, tandis que quelques retouches humaines ou une passe de paraphrase peuvent les déjouer. Considérez tout score comme un signal faible, jamais comme un verdict.
Les détecteurs d'IA donnent-ils des faux positifs ?
Oui, et c'est leur faiblesse la plus grave. Un détecteur mesure à quel point un texte paraît « prévisible », donc une écriture humaine directe et bien structurée — celle que l'on enseigne aux étudiants et aux professionnels — peut être notée comme IA. Des travaux de recherche publiés ont aussi alerté sur le fait que les détecteurs signalent de façon disproportionnée les textes rédigés par des locuteurs non natifs de l'anglais, dont la formulation est plus simple et plus prévisible. Agir sur un faux positif (par exemple accuser un étudiant ou rejeter un rédacteur) peut causer un vrai préjudice, c'est pourquoi aucune politique responsable ne devrait reposer sur un détecteur seul.
Peut-on tromper les détecteurs d'IA ?
Facilement, en pratique. Une légère réécriture, une reformulation, le remplacement de quelques mots, le fait de demander au modèle d'écrire dans un style plus varié ou « humain », ou le passage du texte dans un outil de paraphrase peuvent tous abaisser la confiance d'un détecteur. La détection par filigrane ne marche que si le fournisseur a ajouté un filigrane et qu'il a survécu à l'édition, ce qui n'est souvent pas le cas. Comme la détection est une estimation de motifs de surface, tout ce qui modifie ces motifs — y compris une édition humaine normale — la dégrade. Cette course du chat et de la souris explique pourquoi la détection seule ne peut pas être un filtre fiable.
Que faut-il utiliser à la place d'un détecteur d'IA ?
Pour tout enjeu sérieux, appuyez-vous sur le processus et le contexte plutôt que sur un score unique. Regardez l'historique des brouillons et le contrôle de version, posez des questions de suivi sur le travail, comparez à un échantillon d'écriture connu, et jugez si le contenu est réellement correct, original et utile — la vraie faiblesse d'un LLM est l'hallucination, pas la détectabilité. Si vous utilisez un détecteur, traitez-le comme une entrée faible parmi d'autres, documentez le risque de faux positif, et ne fondez jamais une accusation ou une décision automatisée sur sa seule sortie.