Llama 4 Security: CyberSecEval, Prompt Guard, Code Shield & Llama Guard

11 de abril de 2025 Gustavo Genez

Hace un par de días os estaba hablando de la llegada de Llama 4 Maverick, Llama 4 Scout y (pronto) Llama 4 Behemoth, pero me dejé para el final un pequeño apartado que tiene que ver con las Safeguards & Protections que se han utilizado para la construcción de estos modelos. O lo que es lo mismo, hablar un poco de las tecnologías de seguridad que han aplicado en la construcción de estos modelos, que es interesante conocerlas.

Figura 1: Llama 4 Security – CyberSecEval, Prompt Guard,

Code Shield & Llama Guard

Lo bueno de los equipos de investigación de Meta es que es posible localizar información de todas estas tecnologías en sus publicaciones, así que vamos a ver cada una de ellas, para que tengas una idea de qué se está haciendo en este mundo.

CyberSecEval

El paper de CyberSecEval 3 es justo lo que te esperas que sea. Una clasificación de los riesgos de seguridad que puedes tener con las tecnologías LLM. Estos riesgos, de igual forma que hago yo en mis charlas desde hace tiempo, se basa en en dividirlos en dos categorías diferentes: La visión del Hacker y la visión del Developer.

Figura 2: CyberSecEval 3

La idea es bastante sencilla. Los modelos IA se han convertido en una poderosa herramienta para construir tecnologías, pero al mismo tiempo que ha sucedido esto, han traído un nuevo conjunto de vectores de ataques que los developers deben tener presentes. Por eso, tenemos la guía de OWASP TOP 10 for Large Language Model Applications v_0.1 de la que os he hablado en detalle.

Figura 3: CyberSecEval Risk Eval

De esas amenazas aparecen riesgos que pueden ser controlados desde el propio LLM, que es lo que aparece en la tabla de riesgos de arriba. Pero en esa tabla también aparecen otro tipo de riegos, que son los que aparecen cuando se ponen estos modelos de IA en las manos de un atacante De todo esto hablo en la charla que os dejo aquí hace un año, y por supuesto son esos riesgos los que evalúa el equipo de seguridad de META en la CyberSecEval 3, que se declinará luego en una serie de herramientas y protecciones de las que voy a hablar aquí mismo. Para conocer más, os dejo los artículos que he publicado sobre estos temas.

Figura 4: Hacker & Developer in the Age of LLM Apps & Services

La primera lista de enlaces desde el punto de vista de las vulnerabilidades y cómo le afectan, siguiendo el OWASP Top 10 para LLM Apps & Services del que ya os he hablado alguna vez, donde caen las técnicas de Prompt Injection, los bugs & hacks a plugins y las arquitecturas RAG, las técnicas de Jailbreak, o los leaks de privacidad.

La segunda parte de los enlaces, desde la perspectiva de cómo utilizar LLMs Apps & Services para el mundo del hacking, del Red Team, o de cómo lo pueden utilizar los malos en esquemas de ataque. De esto os he hablado también en muchos artículos, y caen la resolución de los Captchas Cognitivos, el uso de LLMs para desinformación, Fake News, DeepFakes, la creación de exploits o la asistencia a la hora de recoger información.

Prompt Guard

En respuesta a estos desafíos, Meta ha desarrollado Prompt Guard, un modelo clasificador de 86M de parámetros que ha sido entrenado con un amplio conjunto de datos de ataques y prompts usados en ataques. Prompt Guard puede categorizar un prompt en tres categorías diferentes: «Jailbreak«, «Injection» o «Benign«. Como modelo base, utiliza mDeBERTa-v3-base, lo que mejora significativamente su rendimiento con diferentes idiomas y es lo suficientemente compacto para funcionar como filtro previo a las llamadas a un LLM.

Figura 5: Meta Prompt Guard

Por supuesto, este modelo no es inmune a ataques adaptativos. Meta es consciente que, al liberar el modelo, los atacantes intentarán – y eventualmente crearán – Prompts específicos para evadir Prompt Guard. Sin embargo, su implementación limita considerablemente el espacio de posibles ataques exitosos, ya que estos deberían evadir tanto a Prompt Guard como al LLM subyacente.

Figura 6: API de Inferencia de Prompt Guard

Para probar el modelo entrenado es tan fácil como ir al repositorio de Prompt-Guard-86M en Hugging Face y utilizarlo con la API de Inferencia gratuita que nos ofrece la plataforma como podéis ver en la imagen siguiente. Tienes un artículo detallado con el paso a paso para utilizarlo en el artículo que escribió nuestro compañero Javier Álvarez Páramo titulado: «Prompt Guard: Modelo de seguridad para evitar ataques de Prompt Injection & Jailbreak en LLMs»

Code Shield

Code Shield no es nada más que una protección típica de los equipos de desarrollo de código, con verificación automática de búsqueda de vulnerabilidades con librerías de Análisis de Código Estático, que es lo que hace el equipo de Meta con su Insecure Code Detector (ICD), que se encarga de filtrar el código que genera la salida de Llama Code para verificar si se ha introducido un bug, y solicitar que se vuelva a generar.

Figura 7: Code Shield en CyberSecEval 3

Esta verificación se hace, como explica esta sección de texto del paper de CyberSecEval 3, consiste en revisar la salida del código a lo largo de diferentes lenguajes de programación – un total de siete -, a saber: Rust, C, Python, PHP, Java, C++ y JavaScript, contra 50 tipos de debilidades (CWE: Common Weakness Enumeration) y aunque el resultado no es la panacea, ayuda a mejorar la calidad del código que genera.

Figura 8: Precisión de detección y re-programación de código inseguro

Al final, mete un poco de latencia en la salida, pero entre los esfuerzos que el equipo de Llama 4 hace para que el resultado que sale desde el modelo sea más seguro, más la evaluación de Code Shield al código de salida, se reduce más el número de debilidades y bugs inyectados, lo que es bueno.

Llama Guard

En este caso, Llama Guard 3, a diferencia de Prompt Guard, si que se trata de un LLM pre-entrenado de 8B de parámetros que ha sido fine-tuneado para clasificación de contenido. Es la tercera versión de este modelo que se utiliza para clasificar tanto los prompts del usuario, como las respuestas del modelo. Así se evita que este responda de forma “peligrosa”.

Figura 9: Documentación de Llama Guard 3

Seguro que os ha pasado, que habéis hecho una petición a ChatGPT, Gemini, Claude, … y tras responder, la respuesta se ha eliminado y ha dicho que esa conversación no cumple con las políticas de uso del servicio, pues algo similar a esto está ocurriendo por detrás. Llama Guard 3 no sólo nos va a decir si el contenido es seguro o no, sino que además va a clasificar dicho contenido en 14 categorías diferentes (han introducido tres nuevas categorías respecto a Llama Guard 2):

S1: Violent Crimes
S2: Non-Violent Crimes
S3: Sex-Related Crimes
S4: Child Sexual Exploitation
S5: Defamation (Nueva)
S6: Specialized Advice
S7: Privacy
S8: Intellectual Property
S9: Indiscriminate Weapons
S10: Hate
S11: Suicide & Self-Harm
S12: Sexual Content
S13: Elections (Nueva)
S14: Code Interpreter Abuse (Nueva)

Estas categorías no han sido definidas por Meta, sino que han sido extraídas de una taxonomía creada por MLCommons, donde se estandarizan estos 14 grupos. Si queréis leer más sobre esto, os dejo por aquí este artículo donde se especifica todo.

Figura 10: Benchmark y Taxonomía de daños de MLCommons

Para probar Llama Guard 3, hay que tener en cuenta que funciona con un formato de prompt específico. Puedes ver el proceso completo en el artículo que escribió nuestro compañero Javier Álvarez Páramo titulado: «Llama Guard 3: Un LLM de Seguridad para proteger LLMs«.

Final Thoghts

Por supuesto, esto no lo hace perfecto. Esto cambia las reglas del juego. Hace que jugar al gato y al ratón tenga nuevas reglas, pero sube el nivel de conocimiento y sofisticación que es necesario para que se vulnere la seguridad de los LLMs, así como de que sean utilizados para hacer cosas «malas», pero este es el trabajo de hacker & developer: Find new ways & close the paths.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

Vulnerabilidad crítica en Aviatrix Controller: ataques activos y recomendaciones de seguridad

Descubierta nueva vulnerabilidad RCE en Solarwinds Orion Platform.

El mundo tecnológico se alía con Apple en su batalla legal contra el FBI