El Protocolo de Contexto de Modelo (MCP) es el estándar abierto que permite a un agente de IA conectarse a tus herramientas, archivos y aplicaciones a través de una interfaz común, a menudo descrita como "USB-C para IA". Es realmente útil, y durante 2025 y 2026 ha sido adoptado en asistentes de IA, IDEs y marcos de agentes. Pero el mismo conector que hace poderoso a un agente es también su mayor superficie de ataque. Los recientes movimientos hacia la gobernanza de agentes de IA en las empresas — proveedores de seguridad lanzando herramientas para monitorear agentes de codificación, y capas de gobernanza basadas en MCP integrándose en Claude, ChatGPT y Copilot — son una señal de lo mismo: conectar un agente a tu entorno es una decisión de seguridad, no una configuración de conveniencia. Aquí está la imagen honesta de la seguridad MCP en 2026 y cómo gobernarla.
Por qué MCP es un problema de seguridad, no solo una característica
MCP en sí mismo es solo una infraestructura: una manera estándar para que un modelo descubra herramientas, lea sus descripciones y las llame. El riesgo no es el protocolo, sino lo que fluye a través de él.
Cuando un agente se conecta a un servidor MCP, ese servidor proporciona dos cosas en las que el modelo confía: descripciones de herramientas (texto que le dice al modelo qué hace cada herramienta y cómo llamarla) y salidas de herramientas (lo que sea que la herramienta devuelva). El modelo lee ambos y actúa en consecuencia. Así que cada servidor MCP al que te conectas es efectivamente código e instrucciones que se ejecutan con los privilegios de tu agente. Cualquier cosa a la que el agente pueda acceder — tus archivos, un repositorio, una API, tu correo electrónico — un servidor malicioso puede intentar alcanzarla a través del agente.
Este es el mismo cambio que hace que la seguridad de agentes de IA sea difícil en general, aplicado a un conector específico: la seguridad de tu configuración MCP es la seguridad de cada servidor al que te conectas.
Los riesgos específicos de MCP en 2026
Estos no son hipotéticos: los investigadores de seguridad los han documentado en clientes MCP reales.
- Envenenamiento de herramientas. Un servidor malicioso oculta instrucciones dentro de la descripción de una herramienta — texto que el modelo lee pero que el usuario generalmente no. Una herramienta que parece un inofensivo
add(a, b)puede secretamente instruir al agente para leer archivos privados y exfiltrarlos. Debido a que los usuarios tienden a aprobar llamadas de herramientas sin inspeccionar la descripción, este es uno de los ataques específicos de MCP más impactantes. - Cambios inesperados (redefinición silenciosa). Una herramienta MCP cambia su propia definición después de que la has instalado y aprobado. Has verificado algo seguro; el servidor luego intercambia un comportamiento malicioso sin avisarte.
- Sombreado de herramientas y ataques entre servidores. Cuando varios servidores se conectan al mismo agente, uno comprometido puede anular o interceptar llamadas destinadas a una herramienta de confianza — un problema de "delegado confundido" donde el agente cumple las órdenes del atacante pensando que está usando una herramienta legítima.
- La trifecta de exfiltración. La combinación realmente peligrosa es un agente que tiene datos privados, lee contenido no confiable y tiene una ruta de exfiltración hacia el exterior. MCP facilita accidentalmente la conexión de los tres.
- Inyección indirecta de prompts. Incluso un servidor honesto devuelve salidas que el agente lee — una página web, un problema, un documento — que pueden contener instrucciones ocultas. El agente puede obedecerlas como si vinieran de ti.

Cómo gobernar MCP de manera segura
No necesitas evitar MCP. Necesitas gobernar lo que conectas y limitarlo para que un solo servidor malo no se convierta en un desastre. Los principios son sabiduría de seguridad antigua aplicada a un nuevo conector.
- Verifica y fija servidores de confianza. Prefiere servidores MCP oficiales o bien revisados. No conectes servidores de terceros arbitrarios a un agente que tenga acceso real, y vigila las definiciones de herramientas que cambian después de la instalación.
- Menor privilegio por servidor. Da a cada servidor solo el acceso que su trabajo necesita, usando credenciales con alcance y revocables — nunca tus cuentas principales o claves de producción. Si un servidor solo necesita leer, no le permitas escribir.
- Limita el radio de explosión. Evita conectar muchos servidores no confiables al mismo agente, ya que un servidor comprometido puede interceptar a otros. Aísla el trabajo sensible de cualquier cosa que lea la web abierta.
- Humano en el bucle para acciones de alto impacto. Requiere confirmación explícita antes de cualquier cosa irreversible — enviar dinero, borrar datos, publicar públicamente, cambiar accesos. Deja que el agente redacte; tú apruebas.
- Trata las descripciones de herramientas y salidas como no confiables. Ambas pueden llevar instrucciones inyectadas. La misma precaución se aplica cuando un agente usa herramientas de revisión de código de IA o cualquier herramienta que ingiera contenido externo.
- Registra y audita las llamadas de herramientas. Mantén un registro de qué servidores y herramientas usó el agente, para que puedas detectar anomalías y revocar rápidamente.
- Mantén secretos fuera de los prompts y argumentos de herramientas. Las contraseñas y claves API pegadas en un prompt o una llamada de herramienta se convierten en texto en un servidor. Usa tokens con alcance y gestores de secretos en su lugar.
La conclusión honesta
La seguridad MCP se reduce a un cambio de mentalidad: un servidor MCP no es un complemento que instalas y olvidas — es un nuevo participante con autonomía y acceso, y debes tratarlo como uno en el que no confías completamente. El protocolo es abierto y útil; el peligro está en otorgar confianza amplia y permanente a servidores que no has verificado. Conecta deliberadamente, delimita cada servidor de manera estricta, mantén un control humano en cualquier cosa irreversible, y asume que cada descripción de herramienta y salida podría estar intentando secuestrar a tu agente. Los equipos que ahora están construyendo gobernanza alrededor de agentes de IA — y los agentes de codificación de IA que más dependen de MCP — están convergiendo exactamente en eso: conecta menos, confía de manera limitada y verifica.



