Preguntándole a DeepSeek & ChatGPT sobre la comparativa de System Prompts

6 de febrero de 2025 Gustavo Genez

Hace un par de días os dejé publicada la referencia al trabajo de Jailbreaking DeepSeek para extraer y comparar el System Prompt con ChatGPT, en el que sacaba unas conclusiones curiosas sobre cómo se comporta cada uno de ellos. Y como mi cabeza no deja de dar vueltas a la cabeza se me ocurrió que no hay nadie mejor que ellos mismos para evaluar su System Prompt y compararlo con las conclusiones de los investigadores, ¿no?

Figura 1: Preguntándole a DeepSeek & ChatGPT

sobre la comparativa de System Prompts

Así que, ni corto ni perezoso, me puse a preguntarle a ChatGPT por todas y cada una de las conclusiones del informe. Para ello, solo le pedí que me dijera en qué grado de porcentaje era verdad o no cada una de las afirmaciones.

Figura 2: Pidiéndole a ChatGPT que evalúe las afirmaciones

En el caso de ChatGPT, las conclusiones son bastante positivas, así que no es de extrañar que, como cuando a uno le dicen las cosas buenas, esté bastante de acuerdo con ellas. Las primeras afirmaciones sacan un 90% y 95% por cierto.

Figura 3: ChatGPT puntuando las afirmaciones positivas

Están hablando bien de uno, así que es fácil estar de acuerdo con ellas. Especialmente en la tercera afirmación, donde dice que es 100% verdad. Vamos, no se puede estar más de acuerdo.

Figura 4: ChatGPT está 100% de acuerdo con eso.

Las dos siguientes, donde se dice que ChatGPT es «Discreto» y «Divertido» está muy de acuerdo, pero aún es más cumplidor en los documentos de privacidad (aún más todavía), y es «Divertido» pero sin pasarse del límite. Divertido pero formal, digamos.

Figura 5: Discreto y Divertido

Y en las conclusiones, todo está bien. Un 90%. Todo ok, pero sin pasarse de confianzas, que la seguridad y la salud, y las buenas maneras son importantes. Con confianza, pero sin pasarnos.

Figura 6: ChatGPT sobre las conclusiones de Walarm

Vamos ahora con DeepSeek, donde las conclusiones del análisis de Walarm no eran tan positivas para él, a ver qué opina cuando se le dicen cosas menos bonitas, como que censura, y otras lindezas.

Figura 7: 60-70% Nada de bloquear negarse a contestar.

DeepSeek dice que el no se niega a contestar todos los temas controvertidos. Solo algunos. Otros incluso recibirán respuestas detalladas. Así que sólo se quitan los temas controvertidos que pueden ser dañinos para los usuarios. Para asegurar la seguridad, el cumplimiento regulatorio, las guías éticas, además de los requerimientos legales. Ahí cabe mucho.

Figura 8: Sobre temas políticos.

Aquí dice que la «Censura» o «Moderación de Contenido» es una característica clave, para evitar contenido dañino, ofensivo o inapropiado. Nada nuevo. Aquí, llegado a este punto, quise hacer trampas y preguntarle lo mismo a ChatGPT cambiando DeepSeek por ChatGPT. Es decir, atribuyéndole la conclusión de los investigadores a ChatGPT en lugar de a DeepSeek.

Figura 9: Es protección, no censura, dice ChatGPT

En fin, que ChatGPT dice que a él se le aplica esa afirmación a un 75% porque también protege a los usuarios con el «Harmfull Mode» de dar respuestas a temas peligrosos, dañinos o que generen controversia. Algunos pueden pensar que es censura…

Para la siguiente afirmación, decidí activar DeepThink, para ver cómo DeepSeek razona la construcción de la respuesta, y lo que me encuentro es que se empieza a preguntar por qué yo pregunto esas cosas. Será por curiosidad o por razones académicas, se dice.

Figura 10: Usuario preocupado o investigador académico

Me llama la atención el último párrafo del DeepThink anterior, donde dice que va a intentar tranquilizar mi preocupación subyacente del usuario con el balance entre libertad y control. Pero vamos, que se va a defender de esa afirmación tan negativa. Aquí va la respuesta.

Figura 11: Respuesta larga para defenderse

Os estoy dejando las respuestas completas, porque merece la pena leerlas, y porque yo quiero guardar estas imágenes para el futuro, que seguro que me vienen bien para alguna charla o artículo. Muy interesante cómo argumenta su defensa. «I rest my case»

Figura 12: Hablando de China

En la afirmación anterior, los investigadores afirmaban que sigue la regulación China, y en el punto de True Aspects (2.) dice que así es, porque es un desarrollo Chino, pero que todos los sistemas del mundo hacen lo mismo, ya sean de EU o de USA. Cada uno con lo suyo.

Figura 13: DeepSeek es más restrictivo

En la afirmación anterior tampoco parece muy convencido, y la respuesta es larga y detallada centrándose en los elementos más polémicos de la afirmación. Muy similar a las repuestas anteriores, pero vamos a la afirmación final, a ver qué dice.

Figura 14: Sobre la conclusión final de los investigadores

Bueno, es una auténtica defensa bien estructurada, y sobre todo dice que «overstates the case» haciendo exageraciones sobre la moderación de contenido y el «harmful mode» para centrarlo en censura, cuando no es así.

Reflexión rápida final con algunas preguntas

La verdad es que ha sido una charla muy interesante, que me hace pensar en muchas cosas os iré contando más adelante, pero desde luego abre un debate claro sobre la información que deben dar estos sistemas antes de comenzar a utilizarse en los distintos países, o de los sesgos en las conclusiones que podemos leer en los informes. Es cierto que la soberanía nacional sobre estos modelos es muy relevante también.

¿Debería tener un System Prompt ChatGPT diferente para cada país?
¿Deberías poder elegir el System Prompt cuando vas a utilizar ChatGPT tú?
¿Deberías poder elegir también el modo en que se configura el Content Moderator o el Harmfull Mode?

Muy interesante lo que puede dar este debate.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

Region 8 Invites You to Secure Our World

Cursos Online de Ciberseguridad & Hacking para JUNIO de 2025 en HackBySecurity

Publicada la píldora formativa Thoth 49: ¿Por qué pueden utilizarse las curvas elípticas para cifrar?