SC VALL-E y VET Token: GenAI para clonación de Voces & Tokens Web3 en Blockchain

23 de julio de 2024 Gustavo Genez

Es casi imposible hoy en día estar actualizado con toda la información que aparece relacionada con el mundo de la Inteligencia Artificial, que se ha convertido en el foco principal de la investigación en tecnología, y por eso vemos avances a esta velocidad. Pero de vez en cuando aparece un paper o una nueva aplicación que causa cierto interés y revuelo.

Figura 1: SC VALL-E y VET Token: GenAI para

clonación de Voces & Tokens Web3 en Blockchain

Pues justo éste es el caso de SC VALL-E (Style Controllable VALL-E), un nuevo sistema de síntesis de voz que ofrece unas características bastante innovadoras relacionadas con la forma en la cual interactuamos con el contenido de un audio, ofreciendo una precisión y flexibilidad nunca vista hasta ahora.

La tecnología detrás de SC VALL-E

SC VALL-E es una evolución del modelo VALL-E original, basado en un enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS). Utiliza un modelo de lenguaje de códec neural entrenado con un gran conjunto de datos de habla en inglés y coreano, que incluye más de 21.000 horas de audio de 14.000 hablantes distintos.

Figura 2: SC VALL-E: Style-Controllable Zero-Shot Text toSpeech Synthesizer

La arquitectura de SC VALL-E tiene tres componentes principales:

1. Incrustación de Texto y Cuantización de Audio: El texto se convierte en fonemas utilizando un conversor avanzado de grafema a fonema (KoG2Padvanced para coreano). El audio se cuantiza en tokens discretos mediante EnCodec, un modelo de códec de audio basado en redes neuronales.

2. Predicción de Tokens Cuantizados: Este componente incluye bloques autorregresivos (AR) y no autorregresivos (NAR). El bloque AR predice la longitud temporal de los tokens, mientras que el bloque NAR, que incorpora la innovadora red de estilo, permite el control de diversas características acústicas.

3. Reconstrucción de Audio: Los tokens predichos se convierten de nuevo en formas de onda de audio utilizando un DeCodec pre-entrenado.

Figura 3: Arquitectura SC VALL-E, los módulos con recuadro

rojo son la arquitectura original de VALL-E

El punto clave es la capacidad de control de estilo de SC VALL-E, que utiliza una matriz de incrustación de estilo y un vector de control. Esta configuración permite manipular aspectos como la emoción, la velocidad del habla, el tono y la intensidad de la voz. Y esto es un punto totalmente nuevo en este tipo de tecnología.

Capacidades y aplicaciones

Clonar voces ya sabemos que tiene serias implicaciones desde el punto de vista de la privacidad y la ciberseguridad, pero quiero comenzar con los puntos positivos. SC VALL-E puede clonar voces con una precisión asombrosa del 99% utilizando solo tres segundos de audio de muestra. Esto es más que una simple imitación, ya que el modelo permite un control de ajuste sobre diversos aspectos de la voz sintetizada (como hemos comentado antes):

Emociones: Puede transformar una voz neutral en feliz, triste o enojada.
Velocidad del habla: Permite ajustar la cadencia desde muy lenta hasta muy rápida.
Tono e intensidad: Ofrece control sobre la altura y el volumen de la voz.

Estas capacidades abren un abanico de aplicaciones potenciales:

Producción de contenido personalizado (audiolibros, podcasts)
Localización de contenido manteniendo las voces originales
Creación de material educativo inmersivo
Desarrollo de asistentes de voz más naturales y expresivos
Aplicaciones de accesibilidad para personas con discapacidades del habla
Humanos Digitales

Figura 4: Diagramas del espectrograma MEL cuando

se activa el token de control de emociones.

Los experimentos han demostrado que SC VALL-E supera a modelos anteriores como GST-Tacotron y VAE-Tacotron en términos de similitud con el hablante y naturalidad del habla. Aunque las métricas objetivas como WER (Word Error Rate), FVE (F0 Voiced Error) y F0GPE (F0 Gross Pitch Error) muestran resultados ligeramente inferiores a algunos modelos existentes, las evaluaciones subjetivas (CMOS y SMOS) indican una mayor calidad percibida y similitud con el hablante original.

El ecosistema de los VET Tokens

Y aquí viene otra de la parte original o innovadora dentro de la implementación de este nuevo SC VALL-E. Para impulsar el desarrollo y la adopción de SC VALL-E, se ha creado el VET Token, una criptomoneda diseñada específicamente para este ecosistema.

Figura 5: Logo de la cripmoneda VET Token.

Las características clave de este VET Token incluyen, dentro de su arquitectura de Tokenomics:

Utilidad en la plataforma: Será la moneda principal para transacciones dentro de la aplicación SC VALL-E.

Acceso a funcionalidades premium: Los poseedores de VET tendrán acceso exclusivo a características avanzadas.

Sistema de recompensas: Los usuarios podrán ganar tokens por utilizar y contribuir a la plataforma.

Potencial de gobernanza: Posibilidad futura de participación en decisiones de desarrollo

Ya es posible obtener VET Tokens desde este enlace la web, donde podéis ver cómo se ha repartido la emisión de los mismos en su ICO.

Figura 6: Obtención de web tokens desde la web de SC VALL-E

Desafíos y consideraciones éticas

Ahora sí, vamos a hablar un poco de los problemas éticos y de ciberseguridad, que son muchos. A pesar de su potencial revolucionario, SC VALL-E y tecnologías similares que ya conocemos, plantean importantes desafíos:

Suplantación de identidad: La capacidad de clonar voces con alta precisión podría utilizarse para fraudes o engaños en DeepFakes.

Desinformación: Existe el riesgo de crear contenido falso atribuido a figuras públicas en forma de Fake News.

Privacidad: Aparecen preocupaciones sobre el uso no autorizado de la voz de una persona para cualquier tipo de fin.

Los desarrolladores comentan que están implementando medidas de seguridad, como la verificación de identidad para el uso de voces en la plataforma, para mitigar estos riesgos. Si te interesa este tema de la ciberseguridad y la IA, en este libro de 0xWord tienes una primera aproximación a este apasionante mundo:

Figura 7: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Pero tampoco está de más tener o desarrollar aplicaciones que integren algoritmos de detección de posibles Deepfakes, como VerifAI, una solución que te permite detectar imágenes, vídeo y texto generado por IA y en el cual también estamos trabajando para integrar detección de voces clonadas. Puedes probarlo aquí: https://verifai.tu.com/

Figura 8: Servicio para detectar Deepfakes y Contenido generado por GenAI

creado por Telefónica Innovación Digital

Reflexión final

SC VALL-E, respaldado por el ecosistema VET Token, representa un nuevo enfoque interesante en la tecnología de síntesis de voz y de la implementación de soluciones con IA en general. Combina la potencia del aprendizaje profundo con la flexibilidad del control de estilo, y esto abre nuevas posibilidades en la creación y manipulación de contenido de audio.

Figura 9: Demo con Stable Diffusion + Talking Heads +

+ Voz Clonada + Lips Sync hecha en febrero de 2023

A medida que la tecnología continúa evolucionando, podemos esperar interacciones cada vez más naturales y personalizadas con sistemas de IA. Pero, por otro lado, es importante tener en cuenta los desafíos éticos y de seguridad para garantizar un desarrollo responsable de esta tecnología y el impacto hacia las personas.

Figura 10: En breve, SC Vall-e en forma de App para todo el mundo

El futuro de la síntesis de voz ha dado un salto más, y esto es sólo el principio. SC VALL-E y VET Token están ahora como un punto de referencia en esta revolución, pero seguiremos viendo nuevas implementaciones e ideas que mejorarán y perfeccionarán la síntesis de voz hasta niveles que nunca hemos imaginado.

Happy Hacking Hackers!!

Autor:

Fran Ramírez, (@cyberhadesblog) es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro «Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)«, del libro «Docker: SecDevOps«, también de «Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

Contactar con Fran Ramírez en MyPublicInbox

Comparte esto:

Gustavo Genez

También te puede gustar

CVE-2025-34299: Monsta FTP vulnerable a ejecución remota

Drilling Down on Uncle Sam’s Proposed TP-Link Ban

Nerdearla 2025 España – 13 al 15 de Noviembre (Madrid)