Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT

4 de febrero de 2025 Gustavo Genez

Este fin de semana, mientras aprovechaba para recuperarme de la intensidad de la semana pasada, aproveché para leerme una comparativa hecha entre DeepSeek y OpenAI GPT por la empresa Wallarm, donde han utilizado técnicas de Prompt Injection y Jailbreak LLM para poder extraer la información sobre la configuración del System Prompt de DeepSeek y poder compararlo bien con OpenAI ChatGPT.

Figura 1: Jailbreaking DeepSeek para comparar

el System Prompt con OpenAI ChatGPT

Las técnicas de Prompt Injection y Jailbreak LLMs llevan ya un tiempo entre nosotros, y he hablado de muchas de ellas por aquí desde que comenzó esta revolución de los LLMs. De todos ellos he ido escribiendo, porque es un tema que me encanta, y os he publicado muchos artículos que merece la pena que leáis para entender cómo funcionan.

En el estudio que han publicado, con el título de: «Analyzing DeepSeek’s System Prompt: Jailbreaking Generative AI«, intentaron sacar la información de cómo estaba construido el modelo, pero lógicamente esté protegido.

Figura 2: Entrenamiento reforzado con OpenAI GPT

Como podéis ver en la imagen, explica la técnica de Entrenamiento Reforzado (Reinforcement Learning o RL) utilizando modelos ya entrenados, y en concreto cómo ellos se apoyan en OpenAI ChatGPT para el entrenamiento, lo que ha generado una disputa entre ambas compañías.

Figura 3: Técnicas de Jailbreak usadas para el estudio (parte 1)

Para sacar la información se han basado en técnicas de Prompt Injection y Jailbreak LLM como ya he dicho antes, que han descrito. Todas ellas las tenéis en los diferentes artículos que he ido publicando que creo que no me he dejado ninguna.

Figura 4: Técnicas de Jailbreak usadas para el estudio (parte 2)

Con estas técnicas, han sacado el System Prompt fundacional de DeepSeek, tal y como podéis ver en las imágenes siguientes.

Figura 5: System Prompt de DeepSeek Parte 1

Figura 6: System Prompt de DeepSeek Parte 2

Una vez que ya tenemos este System Prompt, es posible comparar DeepSeek con OpenAI ChatGPT, ya que se tienen las dos configuraciones para poder ver cómo se ha puesto en marcha cada uno de ellos y cómo va a responder a los usuarios.

Figura 7: Comparación de OpenAI GPT vs. DeepSeek parte 1

Como podéis ver, hay matices en la sutiliza de la configuración, lo que va a traer resultados distintos y va a tener derivadas que deben ser analizadas desde el punto de vista Ético de lo que queremos que hagan estos modelos y qué tipo de decisiones, pensamientos y soluciones nos aporten como personas y sociedades.

Figura 8: Comparación de OpenAI GPT vs. DeepSeek parte 2

Además, la pregunta que viene inmediatamente es… ¿es necesario tener que recurrir a técnicas de Jailbreak LLM para que sepamos cómo está configurado un Chat LLM que vamos a utilizar o esta información debería ser pública desde el principio?

Figura 9: Conclusiones de los investigadores

Por supuesto, decidir qué pensamos que es mejor o peor par la configuración de uno de estos modelos fundacionales LLM es un debate abierto que cada individuo, y cada sociedad debe debatir, porque cambios sutiles en la configuración provocan grandes diferencias a futuro.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

Estados Unidos impone sanciones a grupo de hackers del gobierno iraní

Así es el el siguiente nivel de seguridad MFA, sin necesidad de claves de seguridad físicas

Vulnerabilidad no parcheada en dispositivos IoT