WebScrapping & WebScalping con GenAI: Formularios y Datos

29 de junio de 2024 Gustavo Genez

Las técnicas de WebScrapping para hacer bases de datos descargando datos de aplicaciones web, y las técnicas de WebScalpping que automatizan acciones en aplicaciones web para comprar entradas, reservar productos, o pujar de manera automática en subastas a través de aplicaciones web, requieren normalmente no sólo de vencer a Captchas Cognitivos que detecten los automatismos – para lo que vemos muy a menudo lo útiles que son los LLM Multimodales -, sino también de rellenar formularios con datos.

Figura 1: WebScrapping & WebScalping con GenAI: Formularios y Datos

Rellenar formularios suele ser una tarea que se automatiza también, y el trabajo consiste en ver los campos que hay que rellenar, automatizar el proceso manualmente una vez, y luego cargarlo con una batería de datos que hay que ir produciendo.

Figura 2: Formulario de Youtube con un montón de campos a automatizar con GenAI

Pero con la llegada de la GenAI, esta es una tarea que también se le puede pedir a los modelos, ya que pueden analizar el formulario con los servicios multimodales de análisis de textos en imágenes.

Figura 3: Azure OpenAI con GPT4-Vision

En este caso he utilizado para la prueba Azure OpenAI con GPT4-Vision para darle una captura de pantalla de un formulario – he usado de ejemplo el de denunciar vídeos de Youtube, y pedirle que me genere automáticamente campos para rellenar este formulario.

Figura 4: Pidiéndole que analice el formulario a GPT4-Vision

Como podéis ver que lo hace de manera muy diligente, y me genera una batería de datos para rellenar ese formulario, lo que si estamos hablando de un script automatizado puede ser muy conveniente.

Figura 5: Datos «inventados» para rellenar el formulario

Lo bueno es que si ya has analizado el formulario con el modelo, le puedes pedir que te vaya generando nuevos conjuntos de datos distintos de manera sencilla.

Figura 6: Dame más datos para otro formulario

Todas las veces que quieras, lo que permite que sea parte del script esta tarea y no de preparar o meter los datos produciéndolos manualmente, aleatoriamente o usando conjuntos de datos que se tengan compilados de otras fuentes.

Figura 7: Más datos para otro formulario

Como os podéis imaginar, esta capacidad está bien para los temas que he puesto al principio, pero también permite hacer scripts de QA para Tests, o hacer Fuzzing de datos en pruebas de Hacking a Aplicaciones Web, ya que le puedes pedir que te cree direcciones de correo electrónico únicamente.

Figura 8: Una lista de direcciones de correo con personas

Llegado a este punto, me surgieron muchas preguntas, muchas dudas, y se abrieron nuevas puertas que quiero cruzar a ver dónde me llevan. La primera de las preguntas que me surgió tiene que ver con lo veraces que parecen los datos que en todas las capturas que os he dejado podéis leer. Son direcciones de e-mail de dominios que es probable que existan o que ya existen. En el caso de que ya existen – y lo he comprobado -, ¿podría ser alguno una leakage de datos del entrenamiento LLM?

Figura 9: Analyzing Leakage of Personally Identifiable Information in Language Models

Recordad que hace un año publiqué el artículo de «Análisis de Filtración de Información Personal en Large Language Models» que hablaba exactamente de estos casos. Y aunque no lo fueran, esta capacidad de generar datos tan fácilmente podría utilizarse para hacer «e-mail guessing» y encontrar direcciones de correo electrónico de objetivos de manera automatizada.

Figura 10: e-mail address guessing para Chema Alonso

Pero también puede ser sin querer GPT4 esté generando datos que sean reales y que lleve a una persona u organización a tener un problema por que haya inventado unos datos públicos. Es decir, si yo publico información inventada por mí en mi blog y luego resulta que es verdad y son datos que, por casualidad, significan el descubrimiento de datos personales… ¿pasa algo? Y aún me quedan algunas más preguntas que voy a probar antes de seguir compartiéndolas con vosotros…

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

Un millón de máquinas aun vulnerables a BlueKeep

Google Chrome limitará la vigencia de los certificados a 1 año

Nueva Edición del Máster Online en Seguridad Ofensiva del Campus Internacional de Seguridad 2025/2026