OpenAI «Lockdown Mode» para luchar contra (la exfiltración de datos en ataques de) Prompt Injection

8 de junio de 2026 Gustavo Genez

Si llevas un tiempo en el mundo de la Ciberseguridad, y has seguido la evolución en los últimos tres años de las vulnerabilidades que más han afectado a los servicios digitales basados en Inteligencia Artificial, habrás visto que las técnicas de Prompt Injection para conseguir que siga instrucciones que no debería y comience a hacer mediante ataques de Jailbreak cosas que no debería hacer, y todas ellas completamente Misaligned con el Prompt original, son las tres más importantes debilidades de los modelos de frontera hoy en día.

Figura 1: OpenAI «Lockdown Mode» para luchar contra el Prompt Injection

(Cabecera en modo cómic hecha con Nano Banana a partir del título. Love it)

Estas técnicas de Hacking IA han demostrado ser el gran talón de Aquiles en el despliegue seguro masivo y a escala de los Agentes IA masivamente. Dar acceso a un agente que vaya a llevar tu identidad y que tenga acceso a tus activos digitales es algo que, mientras existan estas vulnerabilidades por diseño, y mientras no estén lo suficientemente fortificadas, está haciendo que los Agentes AI que más proliferen sean los que están desconectados de la vida personal de cada uno. Y estos, siguen, acarreando riegos de seguridad. Hacen falta más medidas de seguridad en el diseño de estos modelos.

Figura 2:«Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment«

escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord

Esta semana OpenAI ha introducido una nueva e importante función de seguridad a la que ha llamado Lockdown Mode (Modo de Aislamiento) – que me recuerda a mi WordPress in Paranoid Mode -. Esta herramienta opcional está diseñada específicamente para proteger a usuarios y organizaciones frente a los riesgos de la exfiltración de datos provocada por ataques de Prompt Injection, fortificando todo el entorno de ejecución para evitar la conexión remota no autorizada cuando el modelo ha accedido a los datos.

Figura 3: Ciberseguridad & Inteligencia Artificial enNerdearla España 2025 por Chema Alonso

Las técnicas de Prompt Injection se explotan cuando atacantes esconden instrucciones maliciosas en páginas web o archivos externos. Si ChatGPT accede a ellos de forma legítima, el modelo puede ser manipulado y ser Desalineado de su Pormpt original para recolectar datos confidenciales del usuario y transmitirlos a servidores controlados por los atacantes usando diferentes técnicas basadas en navegar a URLs en Internet. Aquí tienes muchos ejemplos de estos ataques:

El objetivo de Lockdown Mode no es evitar que la IA lea los Pompts Injection ocultos, sino actuar como una fortaleza digital que bloquee la fase final del ataque, es decir, las solicitudes de red salientes que harían posible el robo de la información recolectada.

Figura 4: OpenAI LockDown Mode

Para lograr este blindaje (Lockdown), el sistema limita severamente la conectividad de la IA con la red y servicios externos de Internet. Al activarlo, se restringen o deshabilitan drásticamente varias funciones avanzadas de ChatGPT como son:

Navegación web en vivo: Se suspende el acceso a Internet en tiempo real; las búsquedas se limitan estrictamente al contenido almacenado en caché.

Deep Research y Modo Agente: Ambas herramientas quedan totalmente desactivadas para evitar que la IA navegue o ejecute tareas de forma autónoma.

Descargas e imágenes: Se prohíbe a ChatGPT descargar archivos externos automáticos para análisis y recuperar o mostrar imágenes de la web.

Conectividad en Canvas: El código generado dentro de Canvas no tiene permitido interactuar con Internet bajo ninguna circunstancia.

Esta función ya se está desplegando para usuarios de cuentas personales elegibles y planes ChatGPT Business, activándose directamente desde los ajustes de seguridad de la cuenta. Aunque este modo sacrifica parte de la versatilidad de la IA, ofrece un entorno mucho más controlado que para profesionales que priorizan la confidencialidad, y la seguridad, puede ser de utilidad.

CISOs on the move

Está claro que este tipo de herramientas de seguridad tendrán que ir apareciendo. El ecosistema de seguridad que muchas empresas han creado con una miriada de vendors especializados en diferentes soluciones de seguridad, no va a ser válido para lo que necesitan los servicios digitales basados en IA, todos lo sabemos.

Figura 5: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Así que los profesionales de ciberseguridad tenemos que tener muy presentes el impacto de la llegada de la IA a las manos de los creadores de los servicios digitales internos y las manos de los atacantes, porque la presión por el cambio y la evolución en el stack de seguridad va a ser espectacular… ¿la estás sintiendo ya? Pues va a ser aún más intensa, que aún la Inteligencia Artificial no está en la fase de desaceleración ni por asomo.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

TA473 aprovecha una vulnerabilidad de Zimbra para llevar a cabo acciones de espionaje

FBI Seizes Bot Shop ‘Genesis Market’ Amid Arrests Targeting Operators, Suppliers

El troyano bancario Grandoreiro utiliza múltiples plantillas de correo en una intensa campaña dirigida a España