Anthropic Claude 3.5 Sonnet & Cognitive Captchas
Recientemente Anthropic ha liberado Claude 3.5 Sonnet, y mientras que estaba en mi habitación de Santiago de Chile, decidí darle un visto a su funcionamiento. Por supuesto, si miramos los resultados que se dan de los diferentes Benchmarks, los resultados de este nuevo modelo son espectaculares, sólo superados por GPT-4o en algunos de ellos.
Pero como a nosotros nos interesan otras cosas, he ido a probar otras cosas, como los Captchas Cognitivos y ver cómo se desempeña con algunos de los más difíciles que hemos ido testando los últimos meses, a ver si es tan bueno cómo dice.
Para la prueba he ido a los que más guerra han dado a los diferentes, modelos, pero os dejo aquí las referencias a todas las pruebas con Captchas Cognitivos que he ido recapitulando.
- ReCaptchav2 de Google con Cognitive Services
- Captcha Cognitivo de Twitter (X) con GPT4-Vision & Gemini
- Captcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 Opus
- Captcha Cognitivo de Twitter (X) con GPT-4o
- Captcha Cognitivo de Administración Pública con ChatGPT
- Captcha Cognitivo de la mano y la plancha en HBO max
- Captcha Story X: I am not a Robot, I am a GenAI Multimodal Agent
- Reto hacking con un Captcha Cognitivo para romper con GenAI
- Solución al Reto de Hacking de un Captcha Cognitivo Visual
El primero de los que he querido probar ha sido el Captcha Cognitivo Visual del Tren en Twitter (X) que Anthropic Claude 3.0 Opus NO resolvía bien, en este caso parece que aunque ha mejorado NO lo resuelve perfectamente a la primera.
Es un reto complicado, pero en este caso GPT-4o se lo merienda perfectamente, así que en este caso estaría por encima GPT-4o y tiene que mejorar aún esta capacidad nuestro querido Anthropic Claude 3.5 Sonnet.
Figura 4: El reto del Tren le confunde y no sigue bien la vía del tren y Anthropic Claude 3.5
Sonnet responde que para ir desde la E a la D hay que pasar antes por la C. Fail.
En el segundo de los retos que quería probar es de los textos deformados que es tan común, que ha sido la base de Google reCaptcha muchos años – y que nosotros nos saltábamos con la prueba de audio de accesibilidad usando un Cognitive Service de Voice-To-Text –.
Esta prueba nos dio mucha guerra, así que os lo dejé como Reto hacking con un Captcha Cognitivo para romper con GenAI para resolver durante un fin de semana, y al final lo resolvimos con un pre-procesado de la imagen porque ningún modelo lo resolvía bien sin este tratamiento previo de la imagen.
En el caso de Anthropic Claude 3.5 el resultado ha sido similar, y no he conseguido que a la primera lo resuelva. En el primer caso falla con el reconocimiento de un número, en el segundo caso falla con
Figura 7: Anthropic Claude 3.5 Sonnet confunde
PHxX con PHXX. Falla por poco.
Y enviándoselo con el pre-procesado, lo ha resuelto bien dándole el prompt adecuado que vimos en el solucionario del reto.
El último de las pruebas la hice porque nuestro querido DotCSV publico una imagen del Captcha Cognitivo de HBO max que ya resolví con la plancha y la mano, en este caso con una silla, y la verdad es que lo resuelve pero con una «pequeña» ayuda.
En mi caso, el reto era una plancha, y para automatizarlo bastaba con preguntar si apuntan en la misma dirección Sí o No, y resolver o mover la imagen.
En este caso con la silla, para los seres humanos parece evidente que el frente de la silla es el asiento, y la parte trasera es el respaldo, pero a Anthropic Claude 3.5 Sonnet ha habido que explicarle esto para que lo pudiera resolver.
Figura 11: Anthropic Claude 3.5 Sonnet lo resuelve explicándole
que el asiento es adelante y el respaldo es atrás.
Una vez explicado eso, lo resuelve, pero no a la primera. Eso sí, todos los resultados son «promising» y hacen que incluso fallando estas resoluciones se pudiera hacer «fine-tunning» de las pruebas y conseguir saltarse los Captchas Cognitivos de forma automatizada utilizando esta versión de Anthropic Claude 3.5 Sonnet… pero haciendo más trabajo. Esperemos más avances.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
Powered by WPeMatico