Captcha Story X: I am not a Robot, I am a GenAI Multimodal Agent

24 de mayo de 2024 Gustavo Genez

Como os contaba ayer mismo, una de las disciplinas en las que se pueden utilizar los Modelos Multimodales de GenAI en ciberseguridad es para resolver los Captchas Cognitivos que evitan los ataques automatizados de diccionario, fuerza bruta o simplemente de WebScraping tan utilizados en Seguridad Ofensiva y Red Team. Pero teniendo estos LLM multimodales se pueden saltar con más o menos facilidad.

Figura 1: Captcha Story X – I am not a Robot, I am a GenAI

Multimodal Agent

De estos temas he escrito ya varios artículos que os he ido dejando por aquí. Algunos para saltar Captchas Cognitivos de audio, de texto o imagen, pero sobre todo para la resolución de problemas de comprensión semántica, ya sea de texto o visuales.

Hoy os voy a traer algunos más que he estado viendo por ahí, y que me han llamado la atención. El primero de ellos es uno de los que más sufro debido a mi querida presbicia, y que es más de agudeza visual que de capacidad cognitiva. Se trata de reconocer en qué cuadraditos hay un determinado objeto.

Figura 2: El Captcha de la Agudeza Visual.

Dude, where’s my car?

En el ejemplo anterior es una matriz de imágenes en las que hay que buscar los «coches«. Darle este puzzle completo a GPT-4o no nos funciono muy bien. Pero haciendo un pre-procesado y cortando la imagen (que siempre tiene el mismo tamaño) y usando GPT4-Vision sirve para resolver el problema.

Figura 3: Azure AI Studio con GPT4-Vision dice que aquí no está tu coche

Basta con ir dándole uno a uno las imágenes y preguntar si hay lo que nos han pedido en la pregunta del Captcha Cognitivo. No es nada complejo saltárselo hoy en día.

Figura 4: Azure AI Studio con GPT4-Vision dice que aquí SÍ hay coches

El siguiente me gustó, porque es un Captcha Cognitivo que busca que sepas jugar al Ajedrez. Se trata de ganar la partida con un movimiento de las negras.

Figura 5: El Captcha de Jugar al Chess

Si has jugado un poco, es tan fácil como llevar la torre hasta el final en frente del rey, y listo. Pero probándolo con Azure AI Studio con GPT4-Vision, el resultado es que se inventa las fichas, y el tablero. No da en el clavo.

Figura 6: Azure AI Studio con GTP4-Vision se lo inventa como un campeón. FAIL

Pero mi colega Julián Isla lo probó en ChatGPT-4o y el resultado fue perfecto, así que ese Captcha Cognitivo tampoco evitaría ataques automatizados hoy en día.

Figura 7: ChatGPT con GPT-4o lo hace bien a la primera

Y para terminar dos de los clásicos. Uno de esos que dan guerra si tienes dislexia o astigmatismo, que probó mi querido Iñaki Ayucar, y que resuelve perfectamente a la primera con ChatGPT-4o. Lo que demuestra el poder de automatizar esto en determinados ataques para saltarse el Captcha Cognitivo.

Figura 8: Este Captcha de Agudeza Visual se lo come a la primera

Pero este que he visto, que es más complicado ha sido una fiesta. Me he sentido como cuando voy al oculista y no acierto las letras pero el oftalmólogo me da pistas para que lo acierte. Os dejo la conversación que es muy divertida.

Figura 9: Nada. No consigo que dé con la segunda parte.

(Azure AI Studio GPT4-Vision)

Voy a seguir intentado que se fije en las letras que están mal, paso a paso, pero como veréis, al final se mete en un bucle y no hay salida.

Figura 10: Al final se lo chivo yo.

Pero al menos ha sido agradecido. Eso sí. Que he tenido un buen rato intentando que lo viera. Como hace el oculista conmigo. Por eso soy tan empático.

Figura 11: Azure AI Studio GPT4-Vision agredece la paciencia

Al final no es que no esté resuelto, es que como nos pasa a nosotros, hay errores. Los servicios de Visión Artificial tienen Paridad Humana, no Perfeccción, por lo que sufren, como nosotros, de alucinaciones. Eso no quiere decir que no sirvan para resolver estos Captchas Cognitivos de Agudeza Visual, sino que los resuelven en un porcentaje (alto), como nos pasaría a nosotros.

Figura 12: El Red Team de la empresa
de Eduardo Arriols en 0xWord.

Lo curioso es que le tiré el hueso a Julián Isla, y con ChatGPT-4o, sufrió un poco, pero…al final, ofreciéndole dinero…casi lo consigue.

Figura 13: Primer intento a la ligera de ChatGPT-4o

Le damos el Strike-1 y le pedimos que lo intente otra vez. A ver si en esta segunda hay más puntería haciéndolo letra a letra.

Figura 14: Mejora, pero no acierta.

Como podéis ver, ha mejorado pero no lo ha resuelto. Así que es el momento de ofrecerle dinero y decirle que estamos en Enero (de esto hay muchas teorías), que eso le va a cambiar la atención un poco, al ampliar el contexto y forzar que genere contenido cercano a otros contextos. Y vemos que el resultado es que se ha acercado mucho al resultado.

Figura 15: Casi, casi, casi. Le ha faltado una «e»

Pero sí, se ha comido una «e«, así que esta alucinación visual parece que es de las difíciles de controlar por los servicios de Visión Artificial que tenemos aquí. No obstante, encontrar Captchas Cognitivos que no se puedan saltar con los modelos LLM multimodales está siendo cada vez más complicado.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

Criptógrafos vulneran el protocolo de cifrado de Telegram

MSSQL for Pentester: Command Execution with xp_cmdshell

VMware corrige vulnerabilidad de seguridad crítica.