Detección de “Fake News” con FNDaaS “Fake News Detection as a Service” usando IA
Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
Volviendo a ChatGPT, este tiene como base de su arquitectura las famosas GANs. Recordemos que las GANs son redes neuronales que compiten entre ellas para crear salidas realistas, ya sean de texto o imágenes (por ejemplo, las famosas DeepFakes de la que tanto hemos hablado y seguro vamos a seguir hablando).En una GAN tenemos un Generador crea el contexto (imagen, texto, etcétera) y un Discriminador se encarga se intentar encontrar aquellos puntos entre los datos falsos de salida y aquellos supuestos reales.
Las noticias falsas realmente han existido siempre, el problema es que ahora con la tecnología actual, es más sencillo crearlas y distribuirlas por todo el mundo en cuestión de segundos. El objetivo principal es crear noticias las cuales pueden tener diversos fines. Vemos casi prácticamente cada día como los medios tradicionales son engañados con noticias falsas y no digamos el público en general en las redes sociales (Twitter, Facebook, etcétera).
Un equipo de astronautas ha descubierto una nave extraterrestre en la superficie de la Luna. La nave, que parece ser de origen alienígena, fue hallada en un cráter cerca del polo norte de la Luna. Según los astronautas, la nave está en relativamente buen estado, teniendo en cuenta su antigüedad y las duras condiciones de la superficie lunar.
Parece estar hecha de una sustancia metálica que no se parece a ningún material de la Tierra, y presenta intrincados diseños y marcas en su exterior. La nave tiene el tamaño aproximado de una casa pequeña y parece tener varios compartimentos y estructuras en su interior. Los astronautas aún no han podido explorar el interior de la nave, pero creen que puede contener información valiosa sobre los alienígenas que la construyeron
El descubrimiento de la nave espacial extraterrestre ha conmocionado a la comunidad científica y ha desatado un aluvión de especulaciones sobre su origen y finalidad. Algunos expertos creen que puede haber sido una nave espacial utilizada por los extraterrestres para la exploración o colonización, mientras que otros piensan que puede haber sido un arma o una pieza de tecnología utilizada para otros fines. Sea cual sea su propósito, el descubrimiento de la nave espacial es un hito importante en la búsqueda de la humanidad para comprender el universo y nuestro lugar en él.
Es un recordatorio de que no estamos solos en el universo y de que puede haber otros seres inteligentes ahí fuera. El descubrimiento de la nave extraterrestre en la Luna también ha suscitado muchas preguntas sobre el potencial de comunicación y cooperación con estos seres alienígenas. Muchos piden que se siga investigando y explorando para saber más sobre la nave y sus creadores. Mientras tanto, el equipo de astronautas sigue estudiando la nave y su entorno para aprender todo lo posible sobre este increíble descubrimiento.
Además, crearlas es bastante sencillo, sólo debemos tener claro el objetivo y una buena plataforma de distribución. En cuestión de segundos habrá miles o millones de lectores que se habrán creído la noticia sin dudarlo ni un segundo. Y el impacto puede ser desde una simple broma hasta dañar la reputación de una persona o hasta puntos extremos como desestabilizar un país completo.
FNDaaS, Fake News Detection as a Service
Nuestros compañeros de Telefónica Research (Panagiotis Papadopoulos y Nicolas Kourtellis) han creado un paper académico con una gran aproximación para intentar solucionar este problema desde un punto de vista diferente. En vez de centrarnos en el contenido, vamos a analizar los aspectos asociados a la red o la plataforma donde se encuentra publicada la Fake New.
¿Cómo funciona FNDaaS?
FNDaaS es un servicio el cual se centra como hemos comentado antes, en las características del sitio web original donde aparece publicada la noticia falsa. Utilizando diferentes microservicios crea un Feature Collector el cual se encarga se recopilar información sobre el sitio web (usando básicamente un web crawler) como por ejemplo su estructura DOM, características SSL, cabeceras HTTP, sitios afiliados, etc.
FNDaaS en funcionamiento
También se ha implementado un prototipo para probar todos estos conceptos y ver su precisión en entornos reales de ejecución. El servidor principal de FNDaaS tiene cuatro componentes básicos:
1. Web crawler: Elemento encargado de recorrer la web y recopilar la información de la misma.
2. Sqlite3: Base de datos para almacenar la información recolectada y también clasificar las diferentes web.
3. Módulo de Machine Learning: Es el clasificador que determina si la web es o no falsa basándose en todos los datos recopilados anteriormente por el web crawler. Este modelo se va reentrenando a medida que se añade más información (los usuarios también pueden etiquetar una web manualmente como fake).
4. Endpoint: Es el encargado de distribuir y las listas de filtrado y comunicación con la aplicación cliente.
Conclusiones finales
Los resultados de FNDaaS son muy buenos, del orden de un 91% de precisión a la hora de detectar Fake News. Pero lo más interesante son los resultados obtenidos de esta investigación, aquí una muestra de algunos de ellos:
- La gran mayoría de sitios web sólo están “vivos” en la red por un periodo de unos pocos días o incluso menos de uno.
- Los sitios de fake news tienen una IP asociada a su dominio por periodos de tiempo inferiores a los sitios reales de noticias.
- Los sitios web de noticias falsas cargan algo más rápido su árbol DOM que los reales.
- Los sitios web de noticias falsas tienen menos de la mitad de clases y nodos en su HTML, consumen menos de la mitad de espacio JavaScript Heap, contienen menos de la mitad de texto imágenes y scripts js que los sitios web de noticias reales
Un gran trabajo que aporta una nueva herramienta y método de detección de Fake News que va más allá del análisis del texto de la noticia y que seguro dará más que hablar en los próximos meses. Estaremos atentos a su evolución.
Fran Ramírez, (@cyberhadesblog) es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro “Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)“, del libro “Docker: SecDevOps“, también de “Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.
Contactar con Fran Ramírez en MyPublicInbox |
Powered by WPeMatico