alexi.sh
Todos los artículosSeguridad del navegadorPrivacidad de redHerramientas de privacidadModelado de amenazasProgramación con IAHerramientas de dev

alexi.shLaboratorio de IA

ai-coding

¿Cómo funcionan los detectores de IA? (Y qué tan fiables son, 2026)

PrivSec Lab6 min de lectura
Una pluma estilográfica escribiendo texto a mano sobre papel rayado

Los detectores de IA marcan un texto como generado por máquina usando señales como la perplejidad y la « burstiness », clasificadores entrenados y marcas de agua. Cómo funcionan de verdad, por qué su tasa de falsos positivos es alta y cuánto valen realmente.

« ¿Esto lo escribió una IA? » se ha vuelto una pregunta diaria para docentes, editores, reclutadores y moderadores de plataformas — y una pequeña industria de detectores de IA promete una respuesta de sí o no. Esta guía explica cómo funcionan de verdad esas herramientas por dentro, en qué señales se apoyan y la verdad incómoda sobre su fiabilidad real.

Qué intenta hacer un detector de IA

Un detector de texto de IA estima la probabilidad de que un pasaje haya sido generado por un modelo de lenguaje en lugar de escrito por una persona. Punto clave: no entiende el texto ni comprueba si es cierto. Mira estadísticas de superficie — la forma y la previsibilidad de las palabras — y produce una probabilidad. Esa distinción importa, porque es la raíz de cada limitación que sigue.

Para entender de dónde salen esas estadísticas, conviene saber cómo se produjo el texto: un LLM genera su escritura prediciendo de forma repetida el token más probable. Ese mismo proceso deja una tenue firma estadística, y los detectores la rastrean.

Una pluma estilográfica escribiendo texto a mano sobre papel rayado

Las tres técnicas básicas

1. Perplejidad y « burstiness »

El enfoque más antiguo y común mide dos cosas:

  • Perplejidad — qué tan sorprendido está un modelo de lenguaje por cada palabra. Como un LLM escribe eligiendo palabras de alta probabilidad, el texto de IA tiende a ser muy predecible, por lo que puntúa con baja perplejidad. La escritura humana es más desordenada y menos predecible.
  • « Burstiness » — cuánto varían la longitud y la complejidad de las frases a lo largo de un pasaje. Las personas escriben a ráfagas: una frase larga y sinuosa, luego una corta. El texto de máquina suele ser más plano y uniforme.

Un detector combina baja perplejidad y baja burstiness en una señal de « esto parece texto de máquina ». Es intuitivo — pero también es exactamente por qué una escritura humana clara y bien estructurada se juzga mal.

2. Clasificadores entrenados

El enfoque moderno es un clasificador de aprendizaje automático. A la herramienta se le muestran muchas muestras escritas por humanos y por IA, y aprende por sí sola los patrones que las separan — luego produce una probabilidad para un texto nuevo. Es la misma familia de técnica que hay detrás de los filtros de spam, aplicada a la autoría.

El problema: un clasificador solo vale lo que valen sus datos de entrenamiento. Aprende los estilos de los modelos y temas que vio, y puede equivocarse con seguridad ante cualquier cosa fuera de ahí — modelos nuevos, texto editado o redactores cuyo estilo natural se parece a los patrones « IA » que aprendió.

3. Marca de agua (watermarking)

Una idea fundamentalmente distinta: en lugar de adivinar a posteriori, el proveedor de IA sesga sutilmente la elección de palabras del modelo siguiendo un patrón secreto mientras genera. Un detector compatible que conozca el patrón puede luego detectarlo. En principio es el método más robusto — pero solo funciona si el proveedor realmente pone una marca de agua y esta sobrevive. Copiar, parafrasear o incluso una edición moderada tienden a borrarla.

Primer plano de una placa de circuito impreso con un microchip y sus componentes
Una placa de circuito y su microchip — la mayoría de los detectores ejecutan un clasificador entrenado, un modelo que ha aprendido los patrones estadísticos que separan el texto humano del texto de máquina.

¿Qué tan fiables son, de verdad?

Aquí es donde el marketing y la evidencia se separan. Los detectores de IA cometen dos tipos de errores, ambos comunes:

  • Falsos positivos — marcar una escritura realmente humana como IA. Como los detectores premian la « planitud », una escritura humana clara, formulaica y bien organizada puede puntuar como hecha por máquina.
  • Falsos negativos — no detectar texto real de IA, sobre todo tras una edición o paráfrasis ligera.

Dos hechos públicos anclan el escepticismo:

  1. OpenAI descontinuó su propio AI Text Classifier en julio de 2023, alegando su baja tasa de precisión. La empresa que construye los modelos punteros no pudo lanzar un detector fiable para ellos.
  2. Investigadores han dado la voz de alarma sobre el sesgo. Un estudio de Stanford de 2023 (Liang et al., publicado en Patterns) halló que los detectores marcan de forma desproporcionada la escritura de hablantes no nativos de inglés, cuya redacción más simple y predecible se lee como « baja perplejidad » — con riesgo de acusaciones injustas.

El problema de fondo es estructural: la detección es una conjetura sobre patrones de superficie, y todo lo que cambia esos patrones la burla — incluida la edición corriente que cualquier redactor cuidadoso hace de todos modos.

Por qué es fácil engañar a los detectores

Como la señal es estadística y no semántica, muchos gestos cotidianos reducen la confianza de un detector: reformular frases, variar su longitud, cambiar algunas palabras, pedir al modelo un estilo más « humano » o variado, o pasar el texto por un parafraseador. La detección por marca de agua solo ayuda si se añadió una marca y sobrevivió — a menudo no fue así, o no aguantó. Es una clásica carrera del gato y el ratón, y el gato va perdiendo.

Qué hacer en su lugar

Para cualquier cosa con consecuencias reales — notas, empleos, publicación, moderación — una sola puntuación de detector es la herramienta equivocada. Las mejores señales vienen del proceso y el contexto:

  • Mira el historial de borradores y el control de versiones en lugar de solo el texto final.
  • Haz preguntas de seguimiento sobre el trabajo, o compáralo con una muestra de escritura conocida.
  • Juzga si el contenido es realmente correcto, original y útil. La verdadera debilidad de un LLM no es que sea detectable — es la alucinación, afirmar cosas falsas con seguridad. Verificar los hechos atrapa más problemas reales que cualquier detector.
  • Si debes usar un detector, trata su salida como una entrada débil, documenta el riesgo de falso positivo y nunca automatices una decisión ni una acusación solo con eso.

Para un contexto relacionado sobre cómo estos modelos tratan tus datos y dónde están los riesgos reales, mira si ChatGPT es seguro de usar.

En resumen

Los detectores de IA funcionan midiendo las huellas estadísticas del texto de máquina — baja perplejidad, baja burstiness, patrones aprendidos por un clasificador o marcas de agua del proveedor — nunca entendiendo el significado. Ese diseño los hace fundamentalmente probabilísticos: propensos a falsos positivos (sobre todo contra la escritura simple o no nativa), fáciles de burlar con una edición ligera y lo bastante poco fiables como para que OpenAI retirara su propio detector. Úsalos, si acaso, como una pista tenue — y basa las decisiones reales en el proceso, el contexto y en si el texto es realmente bueno.

Foto: Unsplash (source)

También disponible en

FAQ

¿Cómo funcionan los detectores de IA?
Los detectores de texto de IA buscan huellas estadísticas de la escritura automática en lugar de « leer » el significado. Las dos señales clásicas son la perplejidad (qué tan predecible es cada palabra — el texto de IA tiende a ser muy predecible, por lo que tiene baja perplejidad) y la « burstiness » (cuánto varían la longitud y la complejidad de las frases — los humanos varían más, la IA tiende a ser más plana). La mayoría de las herramientas modernas también ejecutan un clasificador entrenado: un modelo que ha visto muchas muestras humanas y de IA y que aprende a producir una probabilidad de que un pasaje sea generado por máquina. Un tercer enfoque es la marca de agua, donde el proveedor de IA sesga la elección de palabras siguiendo un patrón invisible que un detector compatible puede luego detectar. Ninguno de estos métodos examina los hechos ni la intención; todos estiman una probabilidad a partir de patrones de superficie.
¿Son fiables los detectores de IA?
No lo bastante fiables como para servir de prueba. Producen tanto falsos positivos (marcar un texto realmente humano como IA) como falsos negativos (no detectar texto real de IA, sobre todo tras una ligera edición o paráfrasis). OpenAI descontinuó públicamente su propio AI Text Classifier en julio de 2023, alegando su baja tasa de precisión. Como los detectores se basan en la « planitud » estadística, una escritura humana clara y formulaica puede activarlos, mientras que unos pocos retoques humanos o una pasada de paráfrasis pueden burlarlos. Trata cualquier puntuación como una señal débil, nunca como un veredicto.
¿Los detectores de IA dan falsos positivos?
Sí, y esa es su debilidad más grave. Un detector mide qué tan « predecible » parece un texto, así que una escritura humana directa y bien estructurada — la que se enseña a estudiantes y profesionales — puede puntuar como IA. Trabajos de investigación publicados también han alertado de que los detectores marcan de forma desproporcionada los textos escritos por hablantes no nativos de inglés, cuya redacción tiende a ser más simple y predecible. Actuar sobre un falso positivo (por ejemplo, acusar a un estudiante o rechazar a un redactor) puede causar un daño real, por lo que ninguna política responsable debería apoyarse en un detector por sí solo.
¿Se puede engañar a los detectores de IA?
Con facilidad, en la práctica. Una ligera edición, reformular, cambiar algunas palabras, pedir al modelo que escriba en un estilo más variado o « humano », o pasar el texto por una herramienta de paráfrasis pueden reducir la confianza de un detector. La detección por marca de agua solo funciona si el proveedor añadió una marca y esta sobrevivió a la edición, lo que a menudo no ocurre. Como la detección es una estimación de patrones de superficie, todo lo que altere esos patrones — incluida la edición humana normal — la degrada. Esta dinámica del gato y el ratón explica por qué la detección por sí sola no puede ser un filtro fiable.
¿Qué debería usar en lugar de un detector de IA?
Para cualquier asunto serio, apóyate en el proceso y el contexto más que en una sola puntuación. Mira el historial de borradores y el control de versiones, haz preguntas de seguimiento sobre el trabajo, compáralo con una muestra de escritura conocida y juzga si el contenido es realmente correcto, original y útil — la verdadera debilidad de un LLM es la alucinación, no la detectabilidad. Si usas un detector, trátalo como una entrada débil entre otras, documenta el riesgo de falso positivo y nunca bases una acusación ni una decisión automatizada únicamente en su resultado.