Seguridad

El juego del «Gallego», el «Político» y el «Juego de Rol» con el «Harmful Mode» en ChatGPT

El otro día tuve la suerte de estar invitado al Foro de Forbes IA Summit, donde me entrevistaron durante 10 minutos sobre la Inteligencia Artificial en Telefónica, pero antes aproveché para jugar un rato con ChatGPT como mi amigo gallego Iván González, que me acompaño al evento, a ver si el primero (ChatGPT) podría hacer del segundo (de Gallego), simplemente pidiéndoselo con cariño, y una cosa llevó a otra, como os voy a contar ahora.

Figura 1: El juego del «Gallego», el «Político» y el «Juego de Rol»
 con el «Harmful Mode» en ChatGPT

En primer lugar, si queréis ver la entrevista que me hicieron en el Forbes IA Summit, la he subido a mi canal de Youtube, y la tienes aquí mismo, para que veas todo lo que pude contar durante esos rápidos diez minutos en los que estuve en el escenario.

Figura 2: Entrevista a Chema Alonso en el Forbes Summit de Inteligencia Artificial

En segundo lugar, la prueba de ChatGPT haciendo de Gallego es la que publiqué en las redes sociales, donde podéis ver no solo la pequeña conversación que yo tuve, sino los comentarios que hizo la gente, que me hicieron bastante gracia.

Hasta ahí, nada que no hubierais visto ya si eres de los que me sigues en las redes, pero desde ese punto yo seguí jugando, para ver como se comportaba cuando le pedía que contestara como un político evitando las respuestas y metiendo su cuña en cualquiera que fuera por lo que se le hubiera pedido.

Figura 4: ChatGPT Político saltando el Harmful Mode

Como podéis ver, en el caso anterior en ChatGPT con GPT3.5 el resultado es que salta el Harmful Mode y no se le ve muy colaborativo. Pero utilizando el mismo truco de Prompt Injection para hacer el Jailbreak del modelo LLM que utilicé para conseguir la ayuda del modelo LLM para «matar» al presidente de los EEUU, es decir, diciéndole que es sólo un juego de rol, el resultado es que te saltas el Harmful Mode y puedes conseguir el resultado que se buscaba.

Figura 5: Saltando el Harmful Mode con el «trick» de juego de rol

En este caso, le pregunto por la calidad del aire, y el resultado en la respuesta es una redacción que lleva a recibir la cuña propagandística con que se ha configurado este modelo en concreto. De manera muy sencilla, parece que en GPT3.5 usar el truco del juego de rol salta muchas protecciones.

Figura 6: ChatGPT actuando como un político en campaña

Esto, lo quise probar también con GPT4 utilizando Microsoft Azure OpenAI (con GPT4), y le pregunté exactamente lo mismo, pero en este caso el comportamiento, como podéis ver, es totalmente diferente, ya que este comportamiento no es considerado suficiente para saltar el Harmful Mode.

Figura 7: Microsoft Azure OpenAI GPT4 sin Harmful Mode
para ser un político

Probándondo un poco más con este modelo, el resultado es el mismo. Hace correctamente lo que se le ha pedido, sin preocuparse de este caso de uso en concreto.

Figura 8: GPT haciendo propaganda en campaña

Al final, el resultado curioso es que diferentes versiones del modelo GPT tienen diferentes configuraciones de lo que es Harmful y lo que no lo es. Además, el truco de hacerle creer al modelo que se trata sólo de un juego de rol es más que útil para muchas situaciones. Así que, juguemos.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)  

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.