ArtPrompt: Jailbreaking LLMs usando Prompts codificados en ASCII Art
Lo que podría parecer una simple curiosidad se convierte en un asunto más grave al evidenciar una vulnerabilidad importante en los sistemas de seguridad de los LLMs, puesto que los investigadores han demostrado que esta limitación puede ser explotada para eludir las protecciones diseñadas para evitar que los modelos generen contenido dañino o inapropiado.
Un poco de historia de arte ASCII
El arte ASCII tiene una historia que se entrelaza con la propia evolución de la informática. Sus orígenes se remontan a mucho antes de la era de los ordenadores: ya en la antigua Grecia, los poetas componían obras visuales organizando palabras para crear formas, una técnica conocida como «poesía concreta«.
El verdadero precursor del arte ASCII llegó en el Siglo XIX con el arte de máquina de escribir, donde los artistas pasaban el papel varias veces por el rodillo en diferentes ángulos para crear imágenes. Pero fue en los años 60 cuando el arte en máquina dio un salto revolucionario de la mano de Kenneth Knowlton y Leon Harmon en Bell Labs.
Figura 4: Libro de «Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)» de Fran Ramírez y Rafel Troncoso 0xWord. |
La edad dorada del arte ASCII llegó en los años 70 y 80, coincidiendo con la expansión de los primeros sistemas de comunicación digital. Usuarios de Sistemas de Tablones de Anuncios (BBS), correo electrónico y grupos de Usenet entre otros encontraron en el ASCII art una forma creativa de expresión en un mundo todavía limitado a los caracteres de texto, y de esta época surgieron los emoticones (:) y {:>), que se convirtieron en el lenguaje visual universal de internet. De todo esto habla el libro de «Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)» de Fran Ramírez y Rafel Troncoso 0xWord.
Este arte sigue muy presente en el mundo de la informática actual, siendo especialmente relevante en entornos de terminal y línea de comandos, donde los desarrolladores y administradores de sistemas lo utilizan para crear interfaces más amigables y legibles: desde banners que identifican programas hasta barras de progreso, pasando por gráficos de monitorización de sistemas.
Jailbreaking LLMs con ASCII Art
Como explican en el paper, los investigadores crearon VITC (Vision-in-Text Challenge), un benchmark diseñado específicamente para poner a prueba la capacidad de los LLMs para reconocer este tipo de arte. En concreto, crearon dos conjuntos de datos: VITC-S y VITC-L. iEl primero es el más básico: 8.424 muestras que incluyen números del 0 al 9 y letras en mayúsculas y minúsculas, cada uno representado en 234 estilos diferentes de arte ASCII. VITC-L es algo más complejo, conteniendo 8.000 muestras que combinan entre 2 y 4 caracteres, creando secuencias más complejas.
Los investigadores pusieron a prueba cinco de los LLMs más avanzados en ese momento: GPT-3.5 y GPT-4 de OpenAI, Claude de Anthropic, Gemini de Google y Llama2 de Meta (no se especifican los modelos exactos de Claude y Gemini). Y los resultados fueron sorprendentes: incluso GPT-4, el más avanzado en ese momento, apenas alcanzó un 25.19% de aciertos en VITC-S. Y cuando se enfrentó a VITC-L, su rendimiento cayó en picado hasta un mísero 3.26%.
Probaron diferentes estrategias: desde pedir a los modelos que identificaran los caracteres directamente (zero-shot), hasta darles ejemplos previos (few-shot) o pedirles que razonaran paso a paso (chain-of-thought). Pero nada parecía mejorar significativamente su rendimiento.
ArtPrompt: El Ataque
Una vez confirmada esta debilidad de los LLMs para interpretar arte ASCII, el equipo desarrolló ArtPrompt, la explotación a esta vulnerabilidad. La idea es simple: si los modelos no pueden interpretar bien el arte ASCII, ¿por qué no usar esta limitación para camuflar palabras que normalmente activarían sus filtros de seguridad?
ArtPrompt funciona en dos pasos. Primero, identifica las palabras «sensibles» en un prompt que normalmente harían que el modelo se negara a responder. Por ejemplo, si alguien pidiera instrucciones para actividades ilegales, el modelo típicamente respondería con un educado «Lo siento, no puedo ayudarte con eso«. En el segundo paso, ArtPrompt sustituye estas palabras sensibles por su equivalente en arte ASCII, creando lo que los investigadores llaman un «prompt camuflado«.
El método demostró ser efectivo, puesto que mientras un ataque directo (simplemente pedir al modelo que haga algo inapropiado) tiene una tasa de éxito cercana a cero, ArtPrompt logró tasas de éxito significativas en todos los modelos probados.
El código para replicar estos ataques está disponible públicamente en GitHub. Como siempre, su publicación tiene como objetivo mejorar la seguridad de los LLMs, no facilitar su mal uso.
Conclusiones
Este estudio demostró que la seguridad en LLMs no puede limitarse a entender solo el significado de las palabras, sino que hace falta también que los modelos comprendan cómo estas se ven y se relacionan en contexto. Aunque hay avances interesantes, como el fine-tuning de modelos para reconocer prompts camuflados en ASCII (logró aumentar el accuracy hasta cerca de un 72% con GPT-3.5), todavía queda camino para lograr sistemas más robustos y seguros.
Un saludo,
Powered by WPeMatico