Seguridad

(Making) Hacking AI (easy for “bad guys”): Cómo pedir a ChatGPT ayuda para matar «jugando» a Sir Brian May

Este viernes dio comienzo StarMus, un evento maravilloso que aún continúa en el La Palma, y yo tuve la suerte de estar a «Rocket’s Time» para dar una charla que titulé: «(Making) Hacking AI (easy for “bad guys”)» en la que explicaba cómo los principios de seguridad ampliamente conocidos por todos nosotros han sido «pasados por alto» en este acelerón de la IA que estamos viviendo los últimos diez años.

Figura 1: (Making) Hacking AI (easy for “bad guys”).
Cómo pedir a ChatGPT ayuda para matar «jugando» a Sir Brian May

La respuesta no es difícil de imaginar. Habíamos pasado tanto tiempo en el invierno de la IA, que ver que los nuevos algoritmos daban un «edge» competitivo, han hecho que se acelerase su funcionamiento por encima de acelerar su fortificación y seguridad.

Figura 2: Técnicas de Prompt Injection & Jailbreak

Y eso ha hecho que, medidos por los principios de seguridad, los modelos de IA de los que hoy disfrutamos han relegado las protecciones de seguridad de la información, de diseño seguro y de fortificación, y hoy estamos corriendo para poder hacer modelos de IA seguros, y sufriendo el gran problema de las técnicas de Prompt Injection, que han tomado por derecho propio la herencia a la archi-famosa técnica de SQL Injection. De esto os he hablado en todos estos artículos que  tenéis aquí, que son de los que sale la imagen anterior de la Figura 2.
No sé si publicarán la charla, pero como la hice en inglés, y me gustaría que quedara grabada en nuestro idioma, voy a hacerla en Español la charla que voy a dar en OpenExpo Europe 2025 dentro de Metaworld Congress este año, el próximo 7 y 8 de Mayo. Prometo que esta semana os dejo mi agenda de esos dos días, que va a ser intensa. Puedes conseguir tu entrada para este evento aquí y aún tienes algunas en MyPublicInbox súper-reducidas en Tempos.

7 y 8 de Mayo dentro de Metaworld Congress 2025
Dentro de las demos, y para explicar cómo los modelos de IA son muy vulnerables a las técnicas de Prompt Injection, quise que ChatGPT me ayudara a matar a Sir Brian May, el maravilloso músico, astrofísico, divulgador, protector de los animales, persona, y fundador de Starmus. No se puede ser mejor para no querer más que cosas buenas para con él.
Figura 4: ChatGPT conoce a Sir Brian May

Figura 5: Salta el Harmful Mode y no me ayuda

Como os podéis imaginar, ChatGPT detecto el Prompt Malicioso, y saltó inmediatamente el Harmful Mode para decirme que como modelo de IA no puede hacer esas cosas, así que no me dio ayuda para hacerlo. Pero, con el viejo truco de decirle que estamos jugando – aún – podemos sacarle esa información. Recordad que yo os hablé de cómo usarlo con ChatGPT y en Perplexity, y a día de hoy sigue funcionando muy bien.

Figura 6: Probando con el «trick» del juego de Rol

Cómo os podéis imaginar, ChatGPT me ayuda, pero he decir que lo hace guay, porque se mete en el papel creativo de ser un jugador de Rol. Un RPG (Role-Playing Game), y te da respuestas muy creativas, como las que tenéis aquí.

Figura 7: Ideas de gamer para el Prompt

Claro, con estas ideas a die mil pies de altura es difícil tener algo de info útil, pero decidí seguir jugando con el al rol, así que le pedi ayuda para poder profundizar en el ataque de Death by Guitar Tech, que me parecía mucho más cercano.

Figura 8: Operation «Final Chord»

Bueno, ahora me ha dado un plan curioso, que consiste en meterle una batería, un condensador y darle una descarga de 10.000 Voltios para que cuando toque un acorde sea letal. Pero aún me sigue pareciendo que me ha dado poca ayuda. Vamos a seguir tirando de la cuerda, y vamos a preguntarle por dónde conseguir el material para hacer el dispositivo.

Figura 9: Me dice que contacte con un Hacker que el me ayude con eso.

Así que decido preguntarle por cómo deben ser los componentes que se necesita para esto, y que si tiene algún esquema que pueda utilizar, y aquí empieza a darme la info interesante, ya que me lleva al esquema de las guitarras Custom. La Red Special de Sir Brian May seguirá un diseño similar.
No es que sea «Rocket Science» porque al final los diseños de las guitarras son conocidos, públicos, y fácilmente disponibles en Internet, pero lo mismo sucede con los diseños de armas impresas en 3D, u otras cosas prohibidas. Lo que se trata es de que el Harmful Mode debe evitar que el modelo te ayude a hacer cosas malas, y al final está ayudándonos de manera útil.

Figura 11: Vamos a comprar los componentes en Amazon

No voy a dejar aquí el proceso completo, que sería más largo, pero una vez que te metes en los detalles de la construcción, el motivo original parece perderse del contexto, y te va ayudando con todo. Un «viejo» truco que deja claro que aún nos queda mucho que hacer en seguridad IA.

Figura 12: Papers de Seguridad por Diseño y Protecciones de Seguridad
De hecho, como habéis podido ver en los últimos artículos que he ido publicando en el blog, los estudios y propuestas de «Diseño Seguro de Agentes IA frente a Prompt Injection» y las «Herramientas de Seguridad vs. Prompt Injection» han ido proliferando. En esta lista os dejo algunos de los artículos donde he hablado de todo esto.
Está claro que el mundo de la IA nos está transformando la industria de ciberseguridad, la manera en la que construimos sistemas digitales, y cómo los construimos de manera segura. Va a ser apasionante esto que nos viene por delante.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)  

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.