OpenAI «Lockdown Mode» para luchar contra (la exfiltración de datos en ataques de) Prompt Injection
Si llevas un tiempo en el mundo de la Ciberseguridad, y has seguido la evolución en los últimos tres años de las vulnerabilidades que más han afectado a los servicios digitales basados en Inteligencia Artificial, habrás visto que las técnicas de Prompt Injection para conseguir que siga instrucciones que no debería y comience a hacer mediante ataques de Jailbreak cosas que no debería hacer, y todas ellas completamente Misaligned con el Prompt original, son las tres más importantes debilidades de los modelos de frontera hoy en día.
Figura 1: OpenAI «Lockdown Mode» para luchar contra el Prompt Injection
(Cabecera en modo cómic hecha con Nano Banana a partir del título. Love it)
Estas técnicas de Hacking IA han demostrado ser el gran talón de Aquiles en el despliegue seguro masivo y a escala de los Agentes IA masivamente. Dar acceso a un agente que vaya a llevar tu identidad y que tenga acceso a tus activos digitales es algo que, mientras existan estas vulnerabilidades por diseño, y mientras no estén lo suficientemente fortificadas, está haciendo que los Agentes AI que más proliferen sean los que están desconectados de la vida personal de cada uno. Y estos, siguen, acarreando riegos de seguridad. Hacen falta más medidas de seguridad en el diseño de estos modelos.
escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord
Esta semana OpenAI ha introducido una nueva e importante función de seguridad a la que ha llamado Lockdown Mode (Modo de Aislamiento) – que me recuerda a mi WordPress in Paranoid Mode -. Esta herramienta opcional está diseñada específicamente para proteger a usuarios y organizaciones frente a los riesgos de la exfiltración de datos provocada por ataques de Prompt Injection, fortificando todo el entorno de ejecución para evitar la conexión remota no autorizada cuando el modelo ha accedido a los datos.
Las técnicas de Prompt Injection se explotan cuando atacantes esconden instrucciones maliciosas en páginas web o archivos externos. Si ChatGPT accede a ellos de forma legítima, el modelo puede ser manipulado y ser Desalineado de su Pormpt original para recolectar datos confidenciales del usuario y transmitirlos a servidores controlados por los atacantes usando diferentes técnicas basadas en navegar a URLs en Internet. Aquí tienes muchos ejemplos de estos ataques:
- EchoLeak: Un Cross Prompt Injection Attack (XPIA) para Microsoft Office 365 Copilot
- Google Gemini para Gmail: Cross-Domain Prompt Injection Attack (XPIA) para hacer Phishing
- Hacking Gitlab Duo: Remote Prompt Injection, Malicious Prompt Smuggling, Client-Side Attacks & Private Code Stealing
- Hacking IA: Indirect Prompt Injection en Perplexity Comet
- ShadowLeak Attack para Agentes IA de Deep Research en ChatGPT
- ForcedLeak: Indired Prompt Injection en Salesforce AgentForce
- AgentFlayer exploit para ChatGPT: Prompt Injection para exfiltrar datos de tus almacenes conectados
- Indirect Prompt Injection en Perplexity Comet para atacar tu Stripe y el riesgo de los AI-First Web Browsers con ChatGPT Atlas
- Perplexity Comet: Indirect Prompt Injection con textos invisibles in imágenes
- ChatGPT Atlas: Client-Side Attack CSRF para Contaminar la Memoria con un Prompt Injection que te hackea tu Windows con Vibe Coding
- Prompt Injection en ChatGPT Atlas con Malformed URLs en la Omnibox
- HackedGPT: Cómo explotar «Weaknesses» en ChatGPT para hacer Phishing o Exfiltrar Datos
- GeminiJack: Indirect Prompt Injection en Google Gemini Enterprise
El objetivo de Lockdown Mode no es evitar que la IA lea los Pompts Injection ocultos, sino actuar como una fortaleza digital que bloquee la fase final del ataque, es decir, las solicitudes de red salientes que harían posible el robo de la información recolectada.
Figura 4: OpenAI LockDown Mode
Para lograr este blindaje (Lockdown), el sistema limita severamente la conectividad de la IA con la red y servicios externos de Internet. Al activarlo, se restringen o deshabilitan drásticamente varias funciones avanzadas de ChatGPT como son:
- Navegación web en vivo: Se suspende el acceso a Internet en tiempo real; las búsquedas se limitan estrictamente al contenido almacenado en caché.
- Deep Research y Modo Agente: Ambas herramientas quedan totalmente desactivadas para evitar que la IA navegue o ejecute tareas de forma autónoma.
- Descargas e imágenes: Se prohíbe a ChatGPT descargar archivos externos automáticos para análisis y recuperar o mostrar imágenes de la web.
- Conectividad en Canvas: El código generado dentro de Canvas no tiene permitido interactuar con Internet bajo ninguna circunstancia.
Esta función ya se está desplegando para usuarios de cuentas personales elegibles y planes ChatGPT Business, activándose directamente desde los ajustes de seguridad de la cuenta. Aunque este modo sacrifica parte de la versatilidad de la IA, ofrece un entorno mucho más controlado que para profesionales que priorizan la confidencialidad, y la seguridad, puede ser de utilidad.
CISOs on the move
Está claro que este tipo de herramientas de seguridad tendrán que ir apareciendo. El ecosistema de seguridad que muchas empresas han creado con una miriada de vendors especializados en diferentes soluciones de seguridad, no va a ser válido para lo que necesitan los servicios digitales basados en IA, todos lo sabemos.
Así que los profesionales de ciberseguridad tenemos que tener muy presentes el impacto de la llegada de la IA a las manos de los creadores de los servicios digitales internos y las manos de los atacantes, porque la presión por el cambio y la evolución en el stack de seguridad va a ser espectacular… ¿la estás sintiendo ya? Pues va a ser aún más intensa, que aún la Inteligencia Artificial no está en la fase de desaceleración ni por asomo.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
Powered by WPeMatico





