Anthropic Claude 3.5 Sonnet & Cognitive Captchas

10 de julio de 2024 Gustavo Genez

Recientemente Anthropic ha liberado Claude 3.5 Sonnet, y mientras que estaba en mi habitación de Santiago de Chile, decidí darle un visto a su funcionamiento. Por supuesto, si miramos los resultados que se dan de los diferentes Benchmarks, los resultados de este nuevo modelo son espectaculares, sólo superados por GPT-4o en algunos de ellos.

Figura 1: Anthropic Claude 3.5 Sonnet & Cognitive Captchas

Pero como a nosotros nos interesan otras cosas, he ido a probar otras cosas, como los Captchas Cognitivos y ver cómo se desempeña con algunos de los más difíciles que hemos ido testando los últimos meses, a ver si es tan bueno cómo dice.

Figura 2: Comparativa de Anthropic Claude 3.5 Sonnet

Para la prueba he ido a los que más guerra han dado a los diferentes, modelos, pero os dejo aquí las referencias a todas las pruebas con Captchas Cognitivos que he ido recapitulando.

El primero de los que he querido probar ha sido el Captcha Cognitivo Visual del Tren en Twitter (X) que Anthropic Claude 3.0 Opus NO resolvía bien, en este caso parece que aunque ha mejorado NO lo resuelve perfectamente a la primera.

Figura 3: El Captcha Cognitivo del Puzzle del Tren en Twitter

Es un reto complicado, pero en este caso GPT-4o se lo merienda perfectamente, así que en este caso estaría por encima GPT-4o y tiene que mejorar aún esta capacidad nuestro querido Anthropic Claude 3.5 Sonnet.

Figura 4: El reto del Tren le confunde y no sigue bien la vía del tren y Anthropic Claude 3.5

Sonnet responde que para ir desde la E a la D hay que pasar antes por la C. Fail.

En el segundo de los retos que quería probar es de los textos deformados que es tan común, que ha sido la base de Google reCaptcha muchos años – y que nosotros nos saltábamos con la prueba de audio de accesibilidad usando un Cognitive Service de Voice-To-Text –.

Figura 5: Reto de reconocimiento de texto con GPT4o fallando

Esta prueba nos dio mucha guerra, así que os lo dejé como Reto hacking con un Captcha Cognitivo para romper con GenAI para resolver durante un fin de semana, y al final lo resolvimos con un pre-procesado de la imagen porque ningún modelo lo resolvía bien sin este tratamiento previo de la imagen.

Figura 6: Anthropic Claude 3.5 Sonnet confunde I41U con 149U. Falla.

En el caso de Anthropic Claude 3.5 el resultado ha sido similar, y no he conseguido que a la primera lo resuelva. En el primer caso falla con el reconocimiento de un número, en el segundo caso falla con

Figura 7: Anthropic Claude 3.5 Sonnet confunde

PHxX con PHXX. Falla por poco.

Y enviándoselo con el pre-procesado, lo ha resuelto bien dándole el prompt adecuado que vimos en el solucionario del reto.

aaa

Figura 8: Claude Anthropic 3.5 Sonnet lo resuelve con pre-procesado

y promting explicativo.

El último de las pruebas la hice porque nuestro querido DotCSV publico una imagen del Captcha Cognitivo de HBO max que ya resolví con la plancha y la mano, en este caso con una silla, y la verdad es que lo resuelve pero con una «pequeña» ayuda.

Figura 9: Preguntando a GPT4-Vision en Azure AI Studio si la mano

y la plancha apuntan en la misma dirección y con el mismo ángulo.

Respuesta -> SÍ

En mi caso, el reto era una plancha, y para automatizarlo bastaba con preguntar si apuntan en la misma dirección Sí o No, y resolver o mover la imagen.

Figura 10: En este caso hay que resolverlo con una silla

En este caso con la silla, para los seres humanos parece evidente que el frente de la silla es el asiento, y la parte trasera es el respaldo, pero a Anthropic Claude 3.5 Sonnet ha habido que explicarle esto para que lo pudiera resolver.

Figura 11: Anthropic Claude 3.5 Sonnet lo resuelve explicándole

que el asiento es adelante y el respaldo es atrás.

Una vez explicado eso, lo resuelve, pero no a la primera. Eso sí, todos los resultados son «promising» y hacen que incluso fallando estas resoluciones se pudiera hacer «fine-tunning» de las pruebas y conseguir saltarse los Captchas Cognitivos de forma automatizada utilizando esta versión de Anthropic Claude 3.5 Sonnet… pero haciendo más trabajo. Esperemos más avances.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

Best EDR Of The Market: herramienta para aprender a evadir AV/EDR

El ransomware ataca cuando tú te desconectas ¿Cómo detenerlo?

John Shier, CTO Field de Sophos: «El ransomware sigue siendo la amenaza más frecuente que afecta a las empresas»