« Est-ce écrit par une IA ? » est devenu une question quotidienne pour les enseignants, les éditeurs, les recruteurs et les modérateurs de plateformes — et une petite industrie de détecteurs d'IA promet une réponse par oui ou par non. Ce guide explique comment ces outils fonctionnent vraiment sous le capot, sur quels signaux ils s'appuient, et la vérité inconfortable sur leur fiabilité réelle.
Ce qu'un détecteur d'IA essaie de faire
Un détecteur de texte IA estime la probabilité qu'un passage ait été généré par un modèle de langage plutôt qu'écrit par une personne. Point crucial : il ne comprend pas le texte et ne vérifie pas s'il est vrai. Il regarde des statistiques de surface — la forme et la prévisibilité des mots — et produit une vraisemblance. Cette distinction compte, car elle est à la racine de chaque limite qui suit.
Pour comprendre d'où viennent ces statistiques, il faut savoir comment le texte a été produit : un LLM génère son écriture en prédisant de façon répétée le token le plus probable. Ce processus même laisse une faible signature statistique, que les détecteurs traquent.
Les trois techniques de base
1. Perplexité et « burstiness »
L'approche la plus ancienne et la plus répandue mesure deux choses :
- Perplexité — à quel point un modèle de langage est surpris par chaque mot. Comme un LLM écrit en choisissant des mots à forte probabilité, le texte d'IA tend à être très prévisible, donc à faible perplexité. L'écriture humaine est plus désordonnée et moins prévisible.
- « Burstiness » — à quel point la longueur et la complexité des phrases varient au sein d'un passage. Les gens écrivent par à-coups : une longue phrase sinueuse, puis une courte. Le texte machine est souvent plus plat et plus uniforme.
Un détecteur combine faible perplexité et faible burstiness en un signal « ça ressemble à du texte machine ». C'est intuitif — mais c'est aussi exactement pourquoi une écriture humaine claire et bien structurée est mal jugée.
2. Classifieurs entraînés
L'approche moderne est un classifieur d'apprentissage automatique. On montre à l'outil un grand nombre d'échantillons écrits par des humains et par des IA, et il apprend tout seul les motifs qui les séparent — puis produit une probabilité pour un nouveau texte. C'est la même famille de technique que derrière les filtres anti-spam, appliquée à la paternité du texte.
Le hic : un classifieur ne vaut que ce que valent ses données d'entraînement. Il apprend les styles des modèles et des sujets qu'il a vus, et il peut se tromper avec assurance sur tout ce qui en sort — nouveaux modèles, texte édité, ou rédacteurs dont le style naturel ressemble aux motifs « IA » qu'il a appris.
3. Filigrane (watermarking)
Une idée fondamentalement différente : au lieu de deviner après coup, le fournisseur d'IA biaise subtilement le choix des mots du modèle selon un motif secret au moment de la génération. Un détecteur compatible qui connaît ce motif peut ensuite le repérer. En principe c'est la méthode la plus robuste — mais elle ne marche que si le fournisseur appose effectivement un filigrane et que celui-ci survit. La copie, la paraphrase ou même une édition modérée tendent à l'effacer.
Quelle fiabilité, vraiment ?
C'est là que le marketing et les faits divergent. Les détecteurs d'IA commettent deux types d'erreurs, toutes deux fréquentes :
- Faux positifs — signaler une écriture réellement humaine comme étant de l'IA. Parce que les détecteurs récompensent la « platitude », une écriture humaine claire, formatée et bien organisée peut être notée comme issue d'une machine.
- Faux négatifs — rater un vrai texte d'IA, surtout après qu'un humain l'a légèrement édité ou paraphrasé.
Deux faits publics ancrent le scepticisme :
- OpenAI a abandonné son propre AI Text Classifier en juillet 2023, invoquant son faible taux de précision. L'entreprise qui construit les modèles de pointe n'a pas pu livrer un détecteur fiable pour eux.
- Des chercheurs ont tiré la sonnette d'alarme sur le biais. Une étude de Stanford de 2023 (Liang et al., publiée dans Patterns) a constaté que les détecteurs signalent de façon disproportionnée les textes de locuteurs non natifs de l'anglais, dont la formulation plus simple et plus prévisible se lit comme une « faible perplexité » — au risque d'accusations injustes.
Le problème de fond est structurel : la détection est une supposition sur des motifs de surface, et tout ce qui change ces motifs la déjoue — y compris l'édition ordinaire que tout rédacteur soigneux pratique de toute façon.
Pourquoi les détecteurs sont faciles à tromper
Parce que le signal est statistique et non sémantique, beaucoup de gestes banals abaissent la confiance d'un détecteur : reformuler des phrases, varier leur longueur, remplacer quelques mots, demander au modèle un style plus « humain » ou plus varié, ou passer le texte dans un paraphraseur. La détection par filigrane n'aide que si un filigrane a été ajouté et a survécu — souvent ce n'était pas le cas, ou il n'a pas tenu. C'est une course classique du chat et de la souris, et le chat perd.
Que faire à la place
Pour tout ce qui a de réelles conséquences — notes, emplois, publication, modération — un score de détecteur unique est le mauvais outil. De meilleurs signaux viennent du processus et du contexte :
- Regardez l'historique des brouillons et le contrôle de version plutôt que le seul texte final.
- Posez des questions de suivi sur le travail, ou comparez à un échantillon d'écriture connu.
- Jugez si le contenu est réellement correct, original et utile. La vraie faiblesse d'un LLM n'est pas d'être détectable — c'est l'hallucination, affirmer des choses fausses avec assurance. Vérifier les faits attrape plus de vrais problèmes que n'importe quel détecteur.
- Si vous devez utiliser un détecteur, traitez sa sortie comme une entrée faible, documentez le risque de faux positif, et n'automatisez jamais une décision ou une accusation sur cette seule base.
Pour un contexte connexe sur la façon dont ces modèles traitent vos données et où sont les vrais risques, voyez si ChatGPT est sûr à utiliser.
En résumé
Les détecteurs d'IA fonctionnent en mesurant les empreintes statistiques du texte machine — faible perplexité, faible burstiness, motifs appris par un classifieur, ou filigranes du fournisseur — jamais en comprenant le sens. Cette conception les rend fondamentalement probabilistes : sujets aux faux positifs (surtout contre l'écriture simple ou non native), faciles à déjouer par une légère édition, et assez peu fiables pour qu'OpenAI ait retiré son propre détecteur. Utilisez-les, si tant est, comme un faible indice — et fondez les vraies décisions sur le processus, le contexte et la qualité réelle du texte.


