ReplayDF: Replay Attacks contra modelos de detección de Audio DeepFakes

8 de junio de 2025 Gustavo Genez

Hoy domingo os voy a dejar un paper que me ha gustado por lo sencillo que es, por cómo funciona, y por ser un tema que a nosotros nos llevó un tiempo de diversión, y del que di la charla de «Are You Takin’ ta me?» en la RootedCON de hace ya unos años.

Figura 1: ReplayDF – Replay Attacks contra modelos

de detección de Audio DeepFakes

Todo en aquella charla comenzó con los «pranks» que hacíamos a los Alexa de los amigos, y de cómo queríamos clonar voces en Español para que no quedaran grabadas en los servidores de Amazon nuestra voces.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández.

De ahí pasamos a hacer justo lo contrario, que era utilizar algoritmos de Machine Learning para clasificar las voces por su biometría (edad, género, estado de ánimo), para luego detectar si era un voz lanzada desde un altavoz o un micrófono. Os dejo todas las partes del artículo, que si no lo has leído te va a gusta.

– «Are You Talkin’ ta me?» DeepFake of Voices & Who’s talking to my SmartSpeaker?

– «Are You Talkin’ ta me?» Voice Analysis with Machine Learning

– «Are You Talkin’ ta me?» Speaker Recognition & Doxing

– «Are You Talkin’ ta me?» Hacking Voice Biometry with DeepFake of Voice

– «Are You Talkin’ ta me?» DeepFake Voice en Español & Detección de Voces Clonadas

La voz es algo que hemos seguido utilizando como forma de detectar DeepFakes, y en la patente de Sentimetrics hicimos un cruzado temporal de emociones en tono, mensaje, y expresión facial de los vídeos, lo que nos ayudaba a detectarlo. De ese tema os hablé también en la parte de Hash Voice y Cloned Voice Detector, para buscar las marcas de agua, y usar los algoritmos clasificadores que habíamos usado en los artículos que os dejado antes.

Figura 3: Sentimetrics – Demos y ejemplos

Con todo esto, os podéis imaginar que cuando pude leer el paper de «Replay Attacks Against Audio Deepfake Detection» tenía que ver qué es lo que habían realizado, ya que el Replay Attack se basa en reproducir un audio y volver a grabarlo, una y otra vez, hasta conseguir que el detector de DeepFakes no detecte que es una DeepFake, o viceversa, grabar un audio real, y hacer Replay Attacks hasta que haga un falso positivo.

Figura 4: Replay Attacks Against Audio Deepfake Detection

La gracia de ReplayDF es que han publicado el Dataset completo con todos los audios pasados por el regrabado de altavoz a micrófono, utilizando 109 combinaciones de a microfono-altavoz diferentes, lo que ayuda a hacer buenos benchmarks.

Figura 5: Combinaciones de las grabaciones realizadas

Para poder analizar los algoritmos OpenSource se han basado en tres parámetros que son importantes entender, como son:

Acuracy: El grado de detección de DeepFakes correctamente.

Equal Error Rate (EER): Ratio de Falsos Positivos y Falsos Negativos. Es el umbral en el que la probabilidad de que el sistema acepte erróneamente una DeepFake como buena es igual a la probabilidad de que rechace erróneamente a un audio legítimo. Un valor de EER bajo indica que el sistema es más preciso y fiable.

Room Impulse Response (RIR): Es el impacto que hace el espacio donde se emite un audio y la grabación. Modelos entrenados teniendo en cuenta este impacto tienen mejores ratios de efectividad.

Teniendo en cuenta esto, se ha analizado el DataSet completo, que tienes disponible en Hugginface, para sacar métricas con diferentes algoritmos de detección de Deepfakes de audio OpenSource, y los resultados son interesantes.

Figura 6: Dataset de ReplayDF en Hugging Face

En esta primera tabla (Table 2) se puede ver cómo el ataque de ReplayDF reduce el Accuracy de los seis modelos OpenSource de detección de DeepFake de audios, al mismo tiempo que empeora el EER, haciendo que los Falsos Positivos y los Falsos Negativos aumenten.

Figura 7: Impacto de Replay Attacks en Accuracy y EER

En la tabla anterior se puede ver que el modelo W2V2-AASIST (Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation) es el que mejores resultados ofrece para detectar DeepFakes, así que se ha puesto especial hincapié en analizar ese modelo, entrenándolo con diferentes DataSets, para luego ver cómo, evaluando los aprendizajes con el DataSet de ReplayDF se reduce el Accuracy y se aumenta el EER en todos los casos.

Figura 8: Cinco entrenamientos de W2V2-AASIST contra ReplayDF

La última de las tablas tiene en cuenta el RIR (Room Impulse Reponse) en los entrenamientos, y aunque es menor el impacto cuando el modelo está entrenado con RIR, el Accuracy se reduce, y el EER aumenta en todos los ataques (generación de Deepfakes de audio) usando un Replay Attack.

Figura 9: Deepfakes con RIR y sin RIR usando Replay Attacks

Como última conclusión, el Accuracy del modelo es mayor cuando la calidad del audio es mayor. Es decir, correlaciona directamente la calidad de la grabación con la detección, así que cuanto más agresivo se es con el Replay Attack, menor Accuracy, y mayor EER. En la gráfica se usan dos mediciones de calidad de audio que son MOS (Mean Opinion Scores) y PESQ (Perceptual Evaluation of Speech Quality).

Figura 10: Tabla de Accuracy correlada con calidad del audio

Lo interesante de todo este trabajo es poder contar con un DataSet que ayude a mejorar la calidad de los algoritmos de detección, pero he de decir que el proceso para saltarse los modelos es tan simple como hacker. Keep it Simple….

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

Punto y aparte. Vuela alto amigo verde

Manipulating memory of ICS Siemens Simatic S7-300 (and others)

TikTok es vulnerable a ataques Man-In-The-Middle