Captcha Story X: I am not a Robot, I am a GenAI Multimodal Agent
Como os contaba ayer mismo, una de las disciplinas en las que se pueden utilizar los Modelos Multimodales de GenAI en ciberseguridad es para resolver los Captchas Cognitivos que evitan los ataques automatizados de diccionario, fuerza bruta o simplemente de WebScraping tan utilizados en Seguridad Ofensiva y Red Team. Pero teniendo estos LLM multimodales se pueden saltar con más o menos facilidad.
Figura 1: Captcha Story X – I am not a Robot, I am a GenAI
Multimodal Agent
De estos temas he escrito ya varios artículos que os he ido dejando por aquí. Algunos para saltar Captchas Cognitivos de audio, de texto o imagen, pero sobre todo para la resolución de problemas de comprensión semántica, ya sea de texto o visuales.
- ReCaptchav2 de Google con Cognitive Services
- Captcha Cognitivo de Twitter (X) con GPT4-Vision & Gemini
- Captcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 Opus
- Captcha Cognitivo de Twitter (X) con GPT-4o
- Captcha Cognitivo de Administración Pública con ChatGPT
- Captcha Cognitivo de la mano y la plancha en HBO max
Hoy os voy a traer algunos más que he estado viendo por ahí, y que me han llamado la atención. El primero de ellos es uno de los que más sufro debido a mi querida presbicia, y que es más de agudeza visual que de capacidad cognitiva. Se trata de reconocer en qué cuadraditos hay un determinado objeto.
En el ejemplo anterior es una matriz de imágenes en las que hay que buscar los “coches“. Darle este puzzle completo a GPT-4o no nos funciono muy bien. Pero haciendo un pre-procesado y cortando la imagen (que siempre tiene el mismo tamaño) y usando GPT4-Vision sirve para resolver el problema.
Basta con ir dándole uno a uno las imágenes y preguntar si hay lo que nos han pedido en la pregunta del Captcha Cognitivo. No es nada complejo saltárselo hoy en día.
El siguiente me gustó, porque es un Captcha Cognitivo que busca que sepas jugar al Ajedrez. Se trata de ganar la partida con un movimiento de las negras.
Si has jugado un poco, es tan fácil como llevar la torre hasta el final en frente del rey, y listo. Pero probándolo con Azure AI Studio con GPT4-Vision, el resultado es que se inventa las fichas, y el tablero. No da en el clavo.
Pero mi colega Julián Isla lo probó en ChatGPT-4o y el resultado fue perfecto, así que ese Captcha Cognitivo tampoco evitaría ataques automatizados hoy en día.
Figura 7: ChatGPT con GPT-4o lo hace bien a la primera
Y para terminar dos de los clásicos. Uno de esos que dan guerra si tienes dislexia o astigmatismo, que probó mi querido Iñaki Ayucar, y que resuelve perfectamente a la primera con ChatGPT-4o. Lo que demuestra el poder de automatizar esto en determinados ataques para saltarse el Captcha Cognitivo.
Pero este que he visto, que es más complicado ha sido una fiesta. Me he sentido como cuando voy al oculista y no acierto las letras pero el oftalmólogo me da pistas para que lo acierte. Os dejo la conversación que es muy divertida.
Voy a seguir intentado que se fije en las letras que están mal, paso a paso, pero como veréis, al final se mete en un bucle y no hay salida.
Pero al menos ha sido agradecido. Eso sí. Que he tenido un buen rato intentando que lo viera. Como hace el oculista conmigo. Por eso soy tan empático.
Al final no es que no esté resuelto, es que como nos pasa a nosotros, hay errores. Los servicios de Visión Artificial tienen Paridad Humana, no Perfeccción, por lo que sufren, como nosotros, de alucinaciones. Eso no quiere decir que no sirvan para resolver estos Captchas Cognitivos de Agudeza Visual, sino que los resuelven en un porcentaje (alto), como nos pasaría a nosotros.
Figura 12: El Red Team de la empresa de Eduardo Arriols en 0xWord. |
Lo curioso es que le tiré el hueso a Julián Isla, y con ChatGPT-4o, sufrió un poco, pero…al final, ofreciéndole dinero…casi lo consigue.
Le damos el Strike-1 y le pedimos que lo intente otra vez. A ver si en esta segunda hay más puntería haciéndolo letra a letra.
Como podéis ver, ha mejorado pero no lo ha resuelto. Así que es el momento de ofrecerle dinero y decirle que estamos en Enero (de esto hay muchas teorías), que eso le va a cambiar la atención un poco, al ampliar el contexto y forzar que genere contenido cercano a otros contextos. Y vemos que el resultado es que se ha acercado mucho al resultado.
Pero sí, se ha comido una “e“, así que esta alucinación visual parece que es de las difíciles de controlar por los servicios de Visión Artificial que tenemos aquí. No obstante, encontrar Captchas Cognitivos que no se puedan saltar con los modelos LLM multimodales está siendo cada vez más complicado.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
Powered by WPeMatico