« ¿Esto lo escribió una IA? » se ha vuelto una pregunta diaria para docentes, editores, reclutadores y moderadores de plataformas — y una pequeña industria de detectores de IA promete una respuesta de sí o no. Esta guía explica cómo funcionan de verdad esas herramientas por dentro, en qué señales se apoyan y la verdad incómoda sobre su fiabilidad real.
Qué intenta hacer un detector de IA
Un detector de texto de IA estima la probabilidad de que un pasaje haya sido generado por un modelo de lenguaje en lugar de escrito por una persona. Punto clave: no entiende el texto ni comprueba si es cierto. Mira estadísticas de superficie — la forma y la previsibilidad de las palabras — y produce una probabilidad. Esa distinción importa, porque es la raíz de cada limitación que sigue.
Para entender de dónde salen esas estadísticas, conviene saber cómo se produjo el texto: un LLM genera su escritura prediciendo de forma repetida el token más probable. Ese mismo proceso deja una tenue firma estadística, y los detectores la rastrean.
Las tres técnicas básicas
1. Perplejidad y « burstiness »
El enfoque más antiguo y común mide dos cosas:
- Perplejidad — qué tan sorprendido está un modelo de lenguaje por cada palabra. Como un LLM escribe eligiendo palabras de alta probabilidad, el texto de IA tiende a ser muy predecible, por lo que puntúa con baja perplejidad. La escritura humana es más desordenada y menos predecible.
- « Burstiness » — cuánto varían la longitud y la complejidad de las frases a lo largo de un pasaje. Las personas escriben a ráfagas: una frase larga y sinuosa, luego una corta. El texto de máquina suele ser más plano y uniforme.
Un detector combina baja perplejidad y baja burstiness en una señal de « esto parece texto de máquina ». Es intuitivo — pero también es exactamente por qué una escritura humana clara y bien estructurada se juzga mal.
2. Clasificadores entrenados
El enfoque moderno es un clasificador de aprendizaje automático. A la herramienta se le muestran muchas muestras escritas por humanos y por IA, y aprende por sí sola los patrones que las separan — luego produce una probabilidad para un texto nuevo. Es la misma familia de técnica que hay detrás de los filtros de spam, aplicada a la autoría.
El problema: un clasificador solo vale lo que valen sus datos de entrenamiento. Aprende los estilos de los modelos y temas que vio, y puede equivocarse con seguridad ante cualquier cosa fuera de ahí — modelos nuevos, texto editado o redactores cuyo estilo natural se parece a los patrones « IA » que aprendió.
3. Marca de agua (watermarking)
Una idea fundamentalmente distinta: en lugar de adivinar a posteriori, el proveedor de IA sesga sutilmente la elección de palabras del modelo siguiendo un patrón secreto mientras genera. Un detector compatible que conozca el patrón puede luego detectarlo. En principio es el método más robusto — pero solo funciona si el proveedor realmente pone una marca de agua y esta sobrevive. Copiar, parafrasear o incluso una edición moderada tienden a borrarla.
¿Qué tan fiables son, de verdad?
Aquí es donde el marketing y la evidencia se separan. Los detectores de IA cometen dos tipos de errores, ambos comunes:
- Falsos positivos — marcar una escritura realmente humana como IA. Como los detectores premian la « planitud », una escritura humana clara, formulaica y bien organizada puede puntuar como hecha por máquina.
- Falsos negativos — no detectar texto real de IA, sobre todo tras una edición o paráfrasis ligera.
Dos hechos públicos anclan el escepticismo:
- OpenAI descontinuó su propio AI Text Classifier en julio de 2023, alegando su baja tasa de precisión. La empresa que construye los modelos punteros no pudo lanzar un detector fiable para ellos.
- Investigadores han dado la voz de alarma sobre el sesgo. Un estudio de Stanford de 2023 (Liang et al., publicado en Patterns) halló que los detectores marcan de forma desproporcionada la escritura de hablantes no nativos de inglés, cuya redacción más simple y predecible se lee como « baja perplejidad » — con riesgo de acusaciones injustas.
El problema de fondo es estructural: la detección es una conjetura sobre patrones de superficie, y todo lo que cambia esos patrones la burla — incluida la edición corriente que cualquier redactor cuidadoso hace de todos modos.
Por qué es fácil engañar a los detectores
Como la señal es estadística y no semántica, muchos gestos cotidianos reducen la confianza de un detector: reformular frases, variar su longitud, cambiar algunas palabras, pedir al modelo un estilo más « humano » o variado, o pasar el texto por un parafraseador. La detección por marca de agua solo ayuda si se añadió una marca y sobrevivió — a menudo no fue así, o no aguantó. Es una clásica carrera del gato y el ratón, y el gato va perdiendo.
Qué hacer en su lugar
Para cualquier cosa con consecuencias reales — notas, empleos, publicación, moderación — una sola puntuación de detector es la herramienta equivocada. Las mejores señales vienen del proceso y el contexto:
- Mira el historial de borradores y el control de versiones en lugar de solo el texto final.
- Haz preguntas de seguimiento sobre el trabajo, o compáralo con una muestra de escritura conocida.
- Juzga si el contenido es realmente correcto, original y útil. La verdadera debilidad de un LLM no es que sea detectable — es la alucinación, afirmar cosas falsas con seguridad. Verificar los hechos atrapa más problemas reales que cualquier detector.
- Si debes usar un detector, trata su salida como una entrada débil, documenta el riesgo de falso positivo y nunca automatices una decisión ni una acusación solo con eso.
Para un contexto relacionado sobre cómo estos modelos tratan tus datos y dónde están los riesgos reales, mira si ChatGPT es seguro de usar.
En resumen
Los detectores de IA funcionan midiendo las huellas estadísticas del texto de máquina — baja perplejidad, baja burstiness, patrones aprendidos por un clasificador o marcas de agua del proveedor — nunca entendiendo el significado. Ese diseño los hace fundamentalmente probabilísticos: propensos a falsos positivos (sobre todo contra la escritura simple o no nativa), fáciles de burlar con una edición ligera y lo bastante poco fiables como para que OpenAI retirara su propio detector. Úsalos, si acaso, como una pista tenue — y basa las decisiones reales en el proceso, el contexto y en si el texto es realmente bueno.


