Seguridad

Advanced Persistent … Toys! : Cómo crear un Chucky «Alonso» [4 de 4] – Conclusión

Y llegamos la última parte de este artículo dedicado a nuestro querido Chucky_as_a_Service que hemos creado en el equipo de Ideas Locas. En este caso para ver el final de los ejemplos de explotación, y para ver algunas contramedidas que vamos a tener que añadir a todos los productos que hagamos que sean «voice-ready» para ver si podemos evitar ataques similares a este donde nos clonen la voz y la utilicen para suplantarnos cuando hablamos a dispositivos que soportan comandos de voz.

Figura 38: Advanced Persistent … Toys!. Cómo crear un Chucky «Alonso»
[4 de 4] – Conclusión

Antes de nada, vamos terminar los ejemplos de explotación con un par de ellos más, pero en este caso no exfiltrando información, sino ejecutando acciones en tu cuenta.
Explotación: Ejecución de Acciones Añadir Tareas
En este ejemplo vamos a hacer la modificación de un elemento de la lista de tareas, para comprobar si podemos hacer cambios en la configuración que tenga un dispositivo, algo que ya sabemos que va a ser que sí.

Figura 39: Chucky Alonso modificando la lista de tareas de Alexa

 
Pero una vez comprobado que la voz de Chucky funciona, lo más importante es que se puede hacer todo lo que pueda hacer la persona que tiene que Alexa o Google Home en su casa. 
En este otro ejemplo, hemos añadido una reunión, que puede modificar el comportamiento de una persona en su día a día. Pero esto puede ser mucho más peligroso con el mundo IoT del hogar, como por ejemplo apagar y encender luces, apagar y encender electrodomésticos o… apagar y encender la alarma de casa.
Esto, podría ser que alguien llegara a la puerta de tu casa y le pidiera a Alexa que apagara la alarma, o que lo hiciera Chucky desde dentro. 
asas

En la demo que hicimos en directo en el programa de Horizonte (05/10/23) con Iker Jiménez y Carmen Porter lo hicimos con una lámpara, pero el funcionamiento sería similar.
Contramedidas: Machine Learning para detectar voces clonadas
Volviendo a la aproximación del artículo de «Are You talkin’ ta me?», donde usamos algoritmos de Machine Learning que analizan los ficheros de audio con una voz (.wav), transformados en un espectograma (imagen) para tener un modelo entrenado, que puede hacer predicción sobre si una voz está clonada o no. Algo que no es perfecto, y que es el juego del gato y el ratón, porque cada día las clonaciones son más perfectas. 
Los resultados son muy sensibles al pre-procesado de los ficheros, al ruido en los audios, etcétera, pero en todo caso, da un indicio más sobre el audio de entrada en tus sistema que va a servir para ejecutar un comando emitido por vez en un sistema que ha pasado previamente el filtro de biometría.
Contramedidas: Machine Learning para detectar voces sintéticas
En este caso la idea es distinguir entre si un audio está sonando desde la voz de una persona o si ha sido grabado. Es decir, si por ejemplo un atacante ha generado una voz sintética de alguien en un ordenador y lo está reproduciendo o se está escuchando mientras está realizando una llamada telefónica para engañar a alguien.  

Figura 45: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández.
Para este algoritmo de Machine Learning se necesita un conjunto de datos de entrenamiento  que incluya audios originales y audios que simulen el escenario comentado, como es el dataset FoR (fake-or-real dataset) que incluye en sus datos un dataset diseñado específicamente para esta tarea. 
Para simular el escenario comentado, los investigadores reprodujeron audios provenientes del altavoz de un ordenador y los re-grabaron utilizando otro dispositivo con micrófono no profesional, simulando escenario de un atacante. También tienen otro dataset con audios sin ser re-grabados, es decir, audios originales. A partir de estos datos, se utiliza Deep Learning para un problema de clasificación, con el objetivo de distinguir entre audios originales y los re-grabados que simulan escenario de atacante. 
No es perfecto y tiene sus limitaciones, y los propios autores comentan en las conclusiones del paper que el dataset que han creado para simular escenarios de atacante no es muy general, ya que solo utilizan un único hablante y un único tipo de dispositivo para la re-grabación, por lo que el modelo entrenado puede que no sea del todo robusto frente a audios provenientes de otras fuentes. Pero evidentemente, es una buena linea de investigación y aproximación a este problema.

Figura 48: El Fary en inglés con su voz clonada
Eso sí, los avances en DeepFakes no paran de avanzar, y como vemos en este vídeo hecho con HeyGen la clonación de una voz tan particular como la de El Fary, para hacerla hablar en inglés traduciendo el contenido de un vídeo se puede hacer en cuestión de unos minutos. Veremos dónde nos lleva el mundo de la Gen-AI aplicada a los Humanos Sintéticos.
¡Saludos Malignos!
***************************************************************************************
***************************************************************************************
Autor: Chema Alonso (Contactar con Chema Alonso)  

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.