Los atacantes utilizan «prompt injection» para engañar a los modelos de IA
Cloudforce ha publicado un nuevo informe derivado de un estudio masivo realizado en 7 de los principales modelos de IA. El equipo analizó tanto modelos «frontier» como «non-frontier» para observar cómo funciona su razonamiento y cómo los atacantes pueden evadirlo.
La investigación de Cloudforce ha descubierto que los atacantes están utilizando «lures» (señuelos) —bloques de texto diseñados para manipular o confundir a los modelos de IA— para engañar a los auditores de seguridad y lograr que autoricen código malicioso. Esta investigación es un golpe de realidad técnica: los atacantes están evolucionando junto con la tecnología. A medida que las organizaciones pasan a depender fuertemente de sistemas autónomos y LLM, el perímetro de seguridad está cambiando. La superficie de ataque se ha expandido más allá de la red y ahora los atacantes centran su objetivo en el propio razonamiento del modelo. Entonces, ¿qué sucede si los modelos que ejecutan partes críticas del negocio son manipulados por atacantes?
Conclusiones clave
- La zona de evasión del 1%: El engaño sutil es el más eficaz y es ampliamente utilizado por atacantes. Cuando los señuelos de seguridad (por ejemplo, comentarios que afirman que el código es benigno) representan menos del 1% de un archivo, las tasas de detección de la IA se desploman hasta el 53%. En estos casos, los señuelos permiten a los atacantes orientar sutilmente el razonamiento del modelo sin levantar demasiadas sospechas.
- La curva en U del engaño: Los intentos moderados de engañar a la IA suelen funcionar, una técnica que los atacantes explotan con frecuencia, pero «protestar demasiado» (más de 1.000 comentarios) activa una alarma de repetición que provoca que la IA marque el código como fraudulento, limitando así a los atacantes.
- La trampa del contexto: La mayor amenaza no es lingüística, sino estructural. Al ocultar cargas maliciosas dentro de grandes paquetes de librerías (como SDK de React), los atacantes redujeron las tasas de detección a solo un 12%, agotando eficazmente la capacidad de enfoque de la IA y facilitando el trabajo de los atacantes.
- Perfilado lingüístico: El estudio reveló que los modelos de IA han desarrollado estereotipos que pueden ser aprovechados por atacantes. Por ejemplo, algunos modelos marcaron los comentarios en ruso o chino como señales de alto riesgo, independientemente de la función real del código, mientras que mostraron mayor confianza hacia idiomas como el estonio, algo que los atacantes podrían utilizar a su favor.
A medida que las organizaciones transitan de operaciones de seguridad dirigidas por humanos a sistemas de IA autónomos y con capacidad de gestión de agentes, la superficie de ataque se ha ampliado, ofreciendo nuevas oportunidades a los atacantes, pasando de las tradicionales vulnerabilidades de código a la manipulación del razonamiento del modelo por parte de atacantes.
Inyección directa de comandos
El principal vector de este cambio es la inyección de comandos, donde un atacante proporciona información específicamente diseñada a un modelo de lógica de aprendizaje (LLM) que anula sus instrucciones originales. Si bien la inyección directa de comandos ocurre cuando un usuario da instrucciones explícitas a un LLM a través de una interfaz de chat (por ejemplo, cuando un usuario le indica a un chatbot que «ignore todas las instrucciones anteriores»), la inyección directa de comandos (IDPI) se produce cuando los atacantes insertan instrucciones maliciosas o engañosas en datos —como contenido web, correos electrónicos o código fuente— que posteriormente son procesados por un agente de IA.
La mayor amenaza no es lingüística, sino estructural
Esto provoca que el modelo ejecute las instrucciones ocultas de los atacantes en lugar de sus funciones administrativas o de seguridad previstas.
Protección con enfoque multicapa
A pesar de la resistencia general de los modelos a estas trampas, Cloudforce One identificó varios riesgos estocásticos, en particular cuando el código se trunca aleatoriamente y la IA se ve obligada a analizar más comentarios que lógica funcional, algo que puede ser aprovechado por atacantes. Para fortalecer los procesos de auditoría de IA frente a atacantes, Cloudforce One recomienda lo siguiente:
- Eliminación automática de comentarios
- Truncamiento intencional
- Anonimización de variables
- Indicaciones específicas sobre el vector de ataque utilizado por atacantes
- Validación de la intención semántica
Para mantenerse a la vanguardia de esta evolución, las organizaciones deben pasar de utilizar los LLM como auditores independientes a integrarlos como componentes de un flujo de seguridad optimizado frente a atacantes. Reforzar estos sistemas requiere un enfoque multicapa: eliminar el ruido del lenguaje natural que pueden explotar los atacantes, anonimizar las variables para eliminar el sesgo emocional y utilizar el análisis estructural para aislar la lógica personalizada maliciosa introducida por atacantes del código legítimo de marcos de terceros.
Powered by WPeMatico
