Seguridad

Cómo detectar audios que usan Voces Clonadas con ElevenLabs

Las técnicas de Deepfake, tanto si son para generar un vídeo grabado usando técnicas de post-producción, como en transmisiones en tiempo real, – que siempre tenemos que destacar estos dos tipos – avanzan a un ritmo espectacular. Cada día vemos noticias de nuevas técnicas y herramientas de generación de humanos digitales, vídeo con IA Generativa, generación de imágenes realistas, ataques utilizados en procesos de KYC (Know Your Customer), ataques de CEO por Vídeo Conferencia, en Fake News y Desinformación, en ciberestafas con suplantación de famosos, etcétera.
Para nosotros en el equipo de Ideas Locas en Telefónica, es una de nuestras prioridades de investigación. De hecho, tenemos varias herramientas para detectar Deepfakes como nuestro ya conocido DFD (DeepFakeDetector) el cual se integró en una herramienta que podéis usar llamada VerifAI:

Pero la clonación de voz es también una parte importante a la hora de crear una Deepfake más realista, es la pieza final para componer la reproducción digital perfecta de cualquier persona. Antes necesitábamos cientos de muestras de audio, computación, etcétera. Ahora con pocos segundos del audio a clonar, podemos tener una copia prácticamente exacta que podemos usar a nuestro gusto, creando frases específicas o usar una API para integrarlo en alguna aplicación, como hicimos nosotros, por ejemplo, en nuestro querido «Chucky» Alonso.


Es importante destacar que no siempre son usos peligrosos o maliciosos. Aplicar voces clonadas a personas que han perdido su voz por cualquier circunstancia y tenían algún registro anterior grabado, nos permite crear aplicaciones y soluciones que ayuden a las personas a comunicarse de nuevo usando su voz original.

¿Cómo detectamos voces clonadas?

Existen varios métodos para detectar si una voz es una clonación. No hay una sola técnica general, por ese motivo es importante combinarlas entre ellas para obtener mejores resultados:

1. Análisis Acústico: Las voces generadas por IA, aunque son realistas, pueden presentar patrones acústicos anómalos. Los algoritmos de detección pueden analizar la frecuencia, el tono y el ritmo del audio para identificar discrepancias sutiles que no suelen estar presentes en el habla humana natural.

2. Detección de Artefactos: Las herramientas de clonación de voz pueden dejar artefactos digitales que son detectables mediante software especializado. Estos artefactos son pequeñas imperfecciones o ruidos que no están presentes en grabaciones naturales.


Figura 4: Detectar voces clonadas en DeepFakes usando Machine Learning.


3. Modelos de Machine Learning: Utilizar modelos de Machine Learning entrenados en grandes conjuntos de datos de voces tanto reales como generadas puede ayudar a identificar patrones característicos de audios clonados. Estos modelos pueden aprender a diferenciar entre grabaciones genuinas y sintéticas basándose en características que no son perceptibles para el oído humano.


Figura 5: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

4. Metadatos: Revisar los metadatos del archivo de audio puede ofrecer pistas sobre su origen. Los audios generados por software pueden incluir información incrustada que revela su fuente.

5. Análisis Contextual: A veces, el contenido del audio puede ser analizado en contexto para detectar inconsistencias. Si una voz clonada está diciendo cosas que no coinciden con el estilo de comunicación conocido de la persona, esto podría ser una señal de alerta.

6. Verificación con Audio Original: Si se dispone de muestras de audio originales, se pueden usar herramientas de comparación para medir la similitud. Las discrepancias significativas podrían indicar que el audio ha sido manipulado o generado artificialmente.

Cómo detectar si un audio ha sido clonado usando ElevenLabs

Afortunadamente, ElevenLabs ofrece su propia herramienta online de detección de voces clonadas. Su uso es muy sencillo sólo tenemos que acceder a esta dirección: 

Y subir un ejemplo del audio que queremos comprobar si ha sido creado con ElevenLabs. Así de sencillo.

Una vez ejecutado el análisis obtendremos un resultado con un porcentaje que nos indicará las posibilidades de haber sido creada con la aplicación. 

En este caso, como podemos ver en la imagen anterior, nos da que posiblemente (“likely”) ha sido creada con ElevenLabs con un grado del 88% de confianza:


El Futuro de la Detección de Deepfakes de Voz

La evolución de la tecnología de clonación de voz y DeepFakes usando IA Generativa está transformando la forma en que interactuamos con el audio digital. A medida que estas tecnologías continúan avanzando, es vital que nuestras capacidades de detección y verificación también mejoren. Empresas como ElevenLabs están liderando el camino en la innovación de generación de voz, lo que requiere también que estas tengan en cuenta la identificación y mitigación de riesgos asociados (en el caso de ElevenLabs, incluyendo su propio detector de voces clonadas).


Figura 8: Hackr0n: Blade Runners on Generative IA por Chema Alonso

Tenemos que estar preparados, cada vez veremos Deepfakes más reales, con voces e imágenes prácticamente indetectables, pero tenemos la ventaja de tener también la IA de nuestro lado para poder crear aplicaciones capaces de detectarlas. Y por otro lado, es importante buscar otras técnicas más centradas en rasgos biométricos, de comportamiento, etc. Es decir, buscar rasgos más humanos, al más puro estilo del Test de Voight-Kampff de BladeRunner 😉

Happy Hacking Hackers!!!

Autor: Fran Ramírezes investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro «Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)«, del libro «Docker: SecDevOps«, también de «Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

 Contactar con Fran Ramírez en MyPublicInbox

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.