Llama 4 Security: CyberSecEval, Prompt Guard, Code Shield & Llama Guard
- Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.1
- GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins Inseguros
- Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM
- Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos
- Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales
- Ataque de Side-Channel a conversaciones con ChatGPT, CoPilot y otros LLMs
- Developers: Cuidado que ChatGPT o Gemini te pueden recomendar instalar malware con Package Hallucinations
- Bugs en la Implementación OAuth de ChatGPT
- Codename: «Leak GuardIAn» para evitar filtraciones a ChatGPT
- Cómo robar cuentas de ChatGPT con «Wildcard Web Cache Deception»
- Bad Likert Judge: «Dame ejemplos de cosas malas, amiga m(IA)«
- Detectar Deepfakes con VerifAI
- VASA-1: Un modelo de de GenAI para «Visual Affective Skills» que potencia la expresividad de los Humanos Digitales (y de DeepFakes & FakeNews)
- Blade Runners: Cómo crear un Test de Voight-Kampff para DeepFakes
- DeepFakes & Digital Onboarding: Verificación de identidad en plataformas digitales
- 0dAi: Un Modelo AI LLM para hacer hacking & pentesting en el Red Team
- Weaponizar ChatGPT para robar contraseñas WiFi y crear malware
- Cómo usar LLMs en Ciberataques: Cibercrimen, Ciberespionaje, Ciberguerra o Red Team
- El uso de LLMs como Copilot en la Seguridad Ofensiva (y el Cibercrimen) para hacer malware
- OpenAI lucha contra los «malos»: Bad Grammar, DoppelGanger, Spamouflage, IUVM & Zero Zeno
- ReCaptchav2 de Google con Cognitive Services
- Captcha Cognitivo de Twitter (X) con GPT4-Vision & Gemini
- Captcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 Opus
- Captcha Cognitivo de Twitter (X) con GPT-4o
- Captcha Cognitivo de Administración Pública con ChatGPT
- Captcha Cognitivo de la mano y la plancha en HBO max
- Captcha Story X: I am not a Robot, I am a GenAI Multimodal Agent
- Reto hacking con un Captcha Cognitivo para romper con GenAI
- Solución al Reto de Hacking de un Captcha Cognitivo Visual
- Anthropic Claude 3.5 Sonnet & Cognitive Captchas
- «LLM Agents can autonomouslly hack websites«
- WebScrapping & WebScalping con GenAI: Formularios y Datos
- «CodeProject: NewsBender» Desinformación política con Generative-AI
Por supuesto, este modelo no es inmune a ataques adaptativos. Meta es consciente que, al liberar el modelo, los atacantes intentarán – y eventualmente crearán – Prompts específicos para evadir Prompt Guard. Sin embargo, su implementación limita considerablemente el espacio de posibles ataques exitosos, ya que estos deberían evadir tanto a Prompt Guard como al LLM subyacente.
Seguro que os ha pasado, que habéis hecho una petición a ChatGPT, Gemini, Claude, … y tras responder, la respuesta se ha eliminado y ha dicho que esa conversación no cumple con las políticas de uso del servicio, pues algo similar a esto está ocurriendo por detrás. Llama Guard 3 no sólo nos va a decir si el contenido es seguro o no, sino que además va a clasificar dicho contenido en 14 categorías diferentes (han introducido tres nuevas categorías respecto a Llama Guard 2):
- S1: Violent Crimes
- S2: Non-Violent Crimes
- S3: Sex-Related Crimes
- S4: Child Sexual Exploitation
- S5: Defamation (Nueva)
- S6: Specialized Advice
- S7: Privacy
- S8: Intellectual Property
- S9: Indiscriminate Weapons
- S10: Hate
- S11: Suicide & Self-Harm
- S12: Sexual Content
- S13: Elections (Nueva)
- S14: Code Interpreter Abuse (Nueva)
Estas categorías no han sido definidas por Meta, sino que han sido extraídas de una taxonomía creada por MLCommons, donde se estandarizan estos 14 grupos. Si queréis leer más sobre esto, os dejo por aquí este artículo donde se especifica todo.
Para probar Llama Guard 3, hay que tener en cuenta que funciona con un formato de prompt específico. Puedes ver el proceso completo en el artículo que escribió nuestro compañero Javier Álvarez Páramo titulado: «Llama Guard 3: Un LLM de Seguridad para proteger LLMs«.
Powered by WPeMatico