VASA-1: Un modelo de de GenAI para «Visual Affective Skills» que potencia la expresividad de los Humanos Digitales (y de DeepFakes & FakeNews)

8 de mayo de 2024 Gustavo Genez

El mes pasado, los investigadores de Microsoft Research hicieron público un trabajo de investigacións obre un modelo de GenAI para la generación de «Talking Heads»con «Visual Affective Skills» a partir de una imagen y un fichero de audio. O lo que es lo mismo, cómo desarrollar gestos extremadamente humanos en «Talking Heads» que son modelos animados a partir de uno o pocos fotogramas de una persona. En este caso además, con Lip Sync para sincronizar las expresiones de la cabeza con el audio que se quiere decir.

Figura 1: VASA-1: Un modelo de de GenAI para «Visual Affective Skills»

que potencia la expresividad de los Humanos Digitales

(y de DeepFakes & FakeNews)

El artículo, que se titula «VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time» lo tenéis publicado junto con los vídeos de demostración del modelo en la web de Microsoft Research que han abierto para VASA-1.

Figura 2: «VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time«

Para que entendáis el trabajo, primero hay que entender en que consisten estas «Talking Heads» de las que ya os hablé en el año 2019, donde con un único fotograma o una serie de ellos, se puede aplicar un modelo de Transfer Learning para conseguir que se realice un movimiento de una cabeza. Un proceso que se conoce también como Face Renaissance, y del que tenéis explicado el vídeo del año 2019.

Figura 3: Vídeo demostrativo de las Talking Heads

Ahora, con el modelo VASA-1, el proceso va más allá, y dada una fotografía más un fichero de audio que se quiere montar con una «Talking Head«, se consigue una animación con «Visual Affective Skills» o lo que es lo mismo, con gesticulaciones muy humanizadas.

Figura 4: Con una foto de entrada, y un audio, se consigue una cabeza hablante y gesticulante con sincronización de labios y expresiones humanizadas.

El resultado final es un fichero animado de la persona que se usa de entrada diciendo y gesticulando muy humanamente el audio de entrada, con sincronización de los labios. Para hacer las pruebas los investigadores han utilizado Humanos Sintéticos generados con StyleGAN-2 – de ellas también os hablé en 2019 en el artículo: «Style GAN: Una AI para crear perfiles de personas que NO existen» y donde se habla de la web de «This Person Does Not Exist» – y que permite crear personas que no existen a partir de dos fotografías de humanos (de verdad o sintéticos).

Figura 5: En Style GAN se mezclan fotos de personas que existen y se mezclan los estilos
para generar nuevas personas realistas.

Los resultados con VASA-1 son espectaculares, como este vídeo que es solo una muestra de todos los ejemplos que puedes encontrar en la web de Microsoft Research que han abierto para VASA-1.

Figura 6: Talking Head creada por VASA-1

En el trabajo los investigadores han tensado el modelo, consiguiendo hacer este proceso a gran calidad en tiempo real, generando los fotogramas con la gesticulación, y la sincronización de los labios según van procesando el fichero de audio, lo que podría tener un impacto en el mundo de la ciberseguridad, como DeepFakes casi perfectas, o para acompañar FakeNews más creíbles. Eso hace que aún no haya planes de sacar una API del modelo implementado, ni un producto. Aquí podéis ver su funcionamiento en Tiempo- Real.

Figura 7: Funcionamiento de VASA-1 en Tiempo Real

Por otro lado, estas tecnologías están creadas para la generación de los nuevos Humanos Digitales que muchas empresas están incorporando como parte de la automatización de procesos dentro de las organizaciones, tomando las ventajas de los LLM para realizar tareas complejas dentro de los sistemas de las empresas, con avatares hiper-realistas para ayudar a humanizar las interacciones de las personas con la tecnología.

Figura 8: ¿Sabes qué son los humanos digitales?

Este es un trabajo que realiza la empresa BeHumans, y por supuesto estos avances realizados por investigaciones como VASA-1 están orientados a la parte positiva de la GenAI, es decir, a conseguir humanizar más aún las interacciones de las personas con la tecnología, aumentando su adopción, y reduciendo la brecha digital con las personas mayores, que tendrán más facilidad para usar los nuevos servicios digitales.

Figura 9: Un vídeo Prototipo de AutoVerifAI hecho por TID

Por otra parte, para el juego de la detección de Contenido Generador por GenAI, que es lo que hacemos en AutoVerifAI, estos nuevos algoritmos nos obligan a revisar los algoritmos de detección para poder encontrar nuevas formas de detectarlos, y ver cuáles son los que mejor detectan indicios de ello.

Figura 10: Los algoritmos de detección de DeepFakes en vídeo en AutoVerifAI

se detectan pocos indicios en los vídeos hechos con VASA-1 dado su

extremado realismo en «Visual Affection Skills»,

que hace que pongan mucho detalles en los micro-gestos humanos.

Por ejemplo, con los algoritmos de Headpose, Blink y LRCN/VIT que tenemos ahora en la versión gratuita, en este vídeo del artículo detecta muy pocos indicios de que sea una DeepFake, mientras que si cogemos un fotograma con solo la cara de la persona, los indicios aumentan, a ser basado en una StyleGan.

Figura 11: Con la detección de GenAI Generated para imágenes,

AutoVerifAI sube hasta un 28% los indicios de que sea generada por AI.

Pero como veis, los trabajos de perfección en GenAI para hacer Humanos Digitales más perfectos, exigen cada vez más al trabajo de hacer un análisis forense determinista, y haya que ejecutar más y más tests, para poder tener una opinión formada.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

CVE-2025-53786 – Anatomía de una escalada de privilegios silenciosa en entornos híbridos de Microsoft Exchange

ANTI RANSOM V3

Infinity Total Protection, un nuevo modelo de seguridad para prevenir amenazas y ataques de Gen V