Seguridad

ReplayDF: Replay Attacks contra modelos de detección de Audio DeepFakes

Hoy domingo os voy a dejar un paper que me ha gustado por lo sencillo que es, por cómo funciona, y por ser un tema que a nosotros nos llevó un tiempo de diversión, y del que di la charla de «Are You Takin’ ta me?» en la RootedCON de hace ya unos años.
Todo en aquella charla comenzó con los «pranks» que hacíamos a los Alexa de los amigos, y de cómo queríamos clonar voces en Español para que no quedaran grabadas en los servidores de Amazon nuestra voces. 

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández.
De ahí pasamos a hacer justo lo contrario, que era utilizar algoritmos de Machine Learning para clasificar las voces por su biometría (edad, género, estado de ánimo), para luego detectar si era un voz lanzada desde un altavoz o un micrófono. Os dejo todas las partes del artículo, que si no lo has leído te va a gusta.
La voz es algo que hemos seguido utilizando como forma de detectar DeepFakes, y en la patente de Sentimetrics hicimos un cruzado temporal de emociones en tono, mensaje, y expresión facial de los vídeos, lo que nos ayudaba a detectarlo. De ese tema os hablé también en la parte de Hash Voice y Cloned Voice Detector, para buscar las marcas de agua, y usar los algoritmos clasificadores que habíamos usado en los artículos que os dejado antes.


Figura 3: Sentimetrics – Demos y ejemplos

Con todo esto, os podéis imaginar que cuando pude leer el paper de «Replay Attacks Against Audio Deepfake Detection» tenía que ver qué es lo que habían realizado, ya que el Replay Attack se basa en reproducir un audio y volver a grabarlo, una y otra vez, hasta conseguir que el detector de DeepFakes no detecte que es una DeepFake, o viceversa, grabar un audio real, y hacer Replay Attacks hasta que haga un falso positivo.
La gracia de ReplayDF es que han publicado el Dataset completo con todos los audios pasados por el regrabado de altavoz a micrófono, utilizando 109 combinaciones de a microfono-altavoz diferentes, lo que ayuda a hacer buenos benchmarks.
Para poder analizar los algoritmos OpenSource se han basado en tres parámetros que son importantes entender, como son: 
  • Acuracy: El grado de detección de DeepFakes correctamente.
  • Equal Error Rate (EER): Ratio de Falsos Positivos y Falsos Negativos. Es el umbral en el que la probabilidad de que el sistema acepte erróneamente una DeepFake como buena es igual a la probabilidad de que rechace erróneamente a un audio legítimo. Un valor de EER bajo indica que el sistema es más preciso y fiable.
  • Room Impulse Response (RIR): Es el impacto que hace el espacio donde se emite un audio y la grabación. Modelos entrenados teniendo en cuenta este impacto tienen mejores ratios de efectividad.
Teniendo en cuenta esto, se ha analizado el DataSet completo, que tienes disponible en Hugginface, para sacar métricas con diferentes algoritmos de detección de Deepfakes de audio OpenSource, y los resultados son interesantes.
En esta primera tabla (Table 2) se puede ver cómo el ataque de ReplayDF reduce el Accuracy de los seis modelos OpenSource de detección de DeepFake de audios, al mismo tiempo que empeora el EER, haciendo que los Falsos Positivos y los Falsos Negativos aumenten.
En la tabla anterior se puede ver que el modelo W2V2-AASIST (Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation) es el que mejores resultados ofrece para detectar DeepFakes, así que se ha puesto especial hincapié en analizar ese modelo, entrenándolo con diferentes DataSets, para luego ver cómo, evaluando los aprendizajes con el DataSet de ReplayDF se reduce el Accuracy y se aumenta el EER en todos los casos.
La última de las tablas tiene en cuenta el RIR (Room Impulse Reponse) en los entrenamientos, y aunque es menor el impacto cuando el modelo está entrenado con RIR, el Accuracy se reduce, y el EER aumenta en todos los ataques (generación de Deepfakes de audio) usando un Replay Attack.
Como última conclusión, el Accuracy del modelo es mayor cuando la calidad del audio es mayor. Es decir, correlaciona directamente la calidad de la grabación con la detección, así que cuanto más agresivo se es con el Replay Attack, menor Accuracy, y mayor EER. En la gráfica se usan dos mediciones de calidad de audio que son MOS (Mean Opinion Scores) y PESQ (Perceptual Evaluation of Speech Quality).
Lo interesante de todo este trabajo es poder contar con un DataSet que ayude a mejorar la calidad de los algoritmos de detección, pero he de decir que el proceso para saltarse los modelos es tan simple como hacker. Keep it Simple…. 
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)  

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.