WebScrapping & WebScalping con GenAI: Formularios y Datos
Las técnicas de WebScrapping para hacer bases de datos descargando datos de aplicaciones web, y las técnicas de WebScalpping que automatizan acciones en aplicaciones web para comprar entradas, reservar productos, o pujar de manera automática en subastas a través de aplicaciones web, requieren normalmente no sólo de vencer a Captchas Cognitivos que detecten los automatismos – para lo que vemos muy a menudo lo útiles que son los LLM Multimodales -, sino también de rellenar formularios con datos.
Rellenar formularios suele ser una tarea que se automatiza también, y el trabajo consiste en ver los campos que hay que rellenar, automatizar el proceso manualmente una vez, y luego cargarlo con una batería de datos que hay que ir produciendo.
Pero con la llegada de la GenAI, esta es una tarea que también se le puede pedir a los modelos, ya que pueden analizar el formulario con los servicios multimodales de análisis de textos en imágenes.
En este caso he utilizado para la prueba Azure OpenAI con GPT4-Vision para darle una captura de pantalla de un formulario – he usado de ejemplo el de denunciar vídeos de Youtube, y pedirle que me genere automáticamente campos para rellenar este formulario.
Como podéis ver que lo hace de manera muy diligente, y me genera una batería de datos para rellenar ese formulario, lo que si estamos hablando de un script automatizado puede ser muy conveniente.
Lo bueno es que si ya has analizado el formulario con el modelo, le puedes pedir que te vaya generando nuevos conjuntos de datos distintos de manera sencilla.
Todas las veces que quieras, lo que permite que sea parte del script esta tarea y no de preparar o meter los datos produciéndolos manualmente, aleatoriamente o usando conjuntos de datos que se tengan compilados de otras fuentes.
Como os podéis imaginar, esta capacidad está bien para los temas que he puesto al principio, pero también permite hacer scripts de QA para Tests, o hacer Fuzzing de datos en pruebas de Hacking a Aplicaciones Web, ya que le puedes pedir que te cree direcciones de correo electrónico únicamente.
Llegado a este punto, me surgieron muchas preguntas, muchas dudas, y se abrieron nuevas puertas que quiero cruzar a ver dónde me llevan. La primera de las preguntas que me surgió tiene que ver con lo veraces que parecen los datos que en todas las capturas que os he dejado podéis leer. Son direcciones de e-mail de dominios que es probable que existan o que ya existen. En el caso de que ya existen – y lo he comprobado -, ¿podría ser alguno una leakage de datos del entrenamiento LLM?
Recordad que hace un año publiqué el artículo de «Análisis de Filtración de Información Personal en Large Language Models» que hablaba exactamente de estos casos. Y aunque no lo fueran, esta capacidad de generar datos tan fácilmente podría utilizarse para hacer «e-mail guessing» y encontrar direcciones de correo electrónico de objetivos de manera automatizada.
Pero también puede ser sin querer GPT4 esté generando datos que sean reales y que lleve a una persona u organización a tener un problema por que haya inventado unos datos públicos. Es decir, si yo publico información inventada por mí en mi blog y luego resulta que es verdad y son datos que, por casualidad, significan el descubrimiento de datos personales… ¿pasa algo? Y aún me quedan algunas más preguntas que voy a probar antes de seguir compartiéndolas con vosotros…
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
Powered by WPeMatico