SC VALL-E y VET Token: GenAI para clonación de Voces & Tokens Web3 en Blockchain
La tecnología detrás de SC VALL-E
SC VALL-E es una evolución del modelo VALL-E original, basado en un enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS). Utiliza un modelo de lenguaje de códec neural entrenado con un gran conjunto de datos de habla en inglés y coreano, que incluye más de 21.000 horas de audio de 14.000 hablantes distintos.
La arquitectura de SC VALL-E tiene tres componentes principales:
1. Incrustación de Texto y Cuantización de Audio: El texto se convierte en fonemas utilizando un conversor avanzado de grafema a fonema (KoG2Padvanced para coreano). El audio se cuantiza en tokens discretos mediante EnCodec, un modelo de códec de audio basado en redes neuronales.
2. Predicción de Tokens Cuantizados: Este componente incluye bloques autorregresivos (AR) y no autorregresivos (NAR). El bloque AR predice la longitud temporal de los tokens, mientras que el bloque NAR, que incorpora la innovadora red de estilo, permite el control de diversas características acústicas.
3. Reconstrucción de Audio: Los tokens predichos se convierten de nuevo en formas de onda de audio utilizando un DeCodec pre-entrenado.
El punto clave es la capacidad de control de estilo de SC VALL-E, que utiliza una matriz de incrustación de estilo y un vector de control. Esta configuración permite manipular aspectos como la emoción, la velocidad del habla, el tono y la intensidad de la voz. Y esto es un punto totalmente nuevo en este tipo de tecnología.
Capacidades y aplicaciones
Clonar voces ya sabemos que tiene serias implicaciones desde el punto de vista de la privacidad y la ciberseguridad, pero quiero comenzar con los puntos positivos. SC VALL-E puede clonar voces con una precisión asombrosa del 99% utilizando solo tres segundos de audio de muestra. Esto es más que una simple imitación, ya que el modelo permite un control de ajuste sobre diversos aspectos de la voz sintetizada (como hemos comentado antes):
- Emociones: Puede transformar una voz neutral en feliz, triste o enojada.
- Velocidad del habla: Permite ajustar la cadencia desde muy lenta hasta muy rápida.
- Tono e intensidad: Ofrece control sobre la altura y el volumen de la voz.
Estas capacidades abren un abanico de aplicaciones potenciales:
- Producción de contenido personalizado (audiolibros, podcasts)
- Localización de contenido manteniendo las voces originales
- Creación de material educativo inmersivo
- Desarrollo de asistentes de voz más naturales y expresivos
- Aplicaciones de accesibilidad para personas con discapacidades del habla
- Humanos Digitales
Los experimentos han demostrado que SC VALL-E supera a modelos anteriores como GST-Tacotron y VAE-Tacotron en términos de similitud con el hablante y naturalidad del habla. Aunque las métricas objetivas como WER (Word Error Rate), FVE (F0 Voiced Error) y F0GPE (F0 Gross Pitch Error) muestran resultados ligeramente inferiores a algunos modelos existentes, las evaluaciones subjetivas (CMOS y SMOS) indican una mayor calidad percibida y similitud con el hablante original.
El ecosistema de los VET Tokens
Y aquí viene otra de la parte original o innovadora dentro de la implementación de este nuevo SC VALL-E. Para impulsar el desarrollo y la adopción de SC VALL-E, se ha creado el VET Token, una criptomoneda diseñada específicamente para este ecosistema.
Las características clave de este VET Token incluyen, dentro de su arquitectura de Tokenomics:
- Utilidad en la plataforma: Será la moneda principal para transacciones dentro de la aplicación SC VALL-E.
- Acceso a funcionalidades premium: Los poseedores de VET tendrán acceso exclusivo a características avanzadas.
- Sistema de recompensas: Los usuarios podrán ganar tokens por utilizar y contribuir a la plataforma.
- Potencial de gobernanza: Posibilidad futura de participación en decisiones de desarrollo
Ya es posible obtener VET Tokens desde este enlace la web, donde podéis ver cómo se ha repartido la emisión de los mismos en su ICO.
Desafíos y consideraciones éticas
Ahora sí, vamos a hablar un poco de los problemas éticos y de ciberseguridad, que son muchos. A pesar de su potencial revolucionario, SC VALL-E y tecnologías similares que ya conocemos, plantean importantes desafíos:
- Suplantación de identidad: La capacidad de clonar voces con alta precisión podría utilizarse para fraudes o engaños en DeepFakes.
- Desinformación: Existe el riesgo de crear contenido falso atribuido a figuras públicas en forma de Fake News.
- Privacidad: Aparecen preocupaciones sobre el uso no autorizado de la voz de una persona para cualquier tipo de fin.
Figura 7: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
Pero tampoco está de más tener o desarrollar aplicaciones que integren algoritmos de detección de posibles Deepfakes, como VerifAI, una solución que te permite detectar imágenes, vídeo y texto generado por IA y en el cual también estamos trabajando para integrar detección de voces clonadas. Puedes probarlo aquí: https://verifai.tu.com/
Reflexión final
SC VALL-E, respaldado por el ecosistema VET Token, representa un nuevo enfoque interesante en la tecnología de síntesis de voz y de la implementación de soluciones con IA en general. Combina la potencia del aprendizaje profundo con la flexibilidad del control de estilo, y esto abre nuevas posibilidades en la creación y manipulación de contenido de audio.
A medida que la tecnología continúa evolucionando, podemos esperar interacciones cada vez más naturales y personalizadas con sistemas de IA. Pero, por otro lado, es importante tener en cuenta los desafíos éticos y de seguridad para garantizar un desarrollo responsable de esta tecnología y el impacto hacia las personas.
Happy Hacking Hackers!!
Autor:
Fran Ramírez, (@cyberhadesblog) es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro “Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)“, del libro “Docker: SecDevOps“, también de “Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.
Contactar con Fran Ramírez en MyPublicInbox |
Powered by WPeMatico