Seguridad

«Are You Talkin’ ta me?» DeepFake of Voices & Who’s talking to my smartspeaker

Ayer tuvo lugar la charla de RootedCON 2023 que preparamos para este año, continuando el trabajo que llevamos un tiempo realizando en el mundo de las DeepFakes, desde aquel año 2019 donde construimos la GAN que me suplantaba, para realizar un «Ataque del CDO» por Skype, que utilizaba tanto la GAN como mi voz clonada para suplantarme. 

Figura 1: «Are You Talkin’ ta me?» DeepFake of Voices
& Who’s talking to my smartspeaker 

Aquellas ideas de utilizar DeepFakes para suplantar a personas y perpetrar ataques no tardaron en comenzarse a realizar, y vimos casos como el del Europarlamentario que dijo que le habían engañado utilizando una DeepFake para sacar sus opiniones del régimen ruso, o el de la artista de cómics que dijo que le estafaron con una DeepFake de Mark Ruffalo para sacarle dinero.
En aquellos primeros experimentos que hacíamos nosotros, las técnicas de clonación de voz, sobre todo en español, nos daban un poco más de problemas, pero en inglés no funcionaban mal. 

DeepFake of Voices
Clonamos mi voz con las herramientas que teníamos en aquel entonces, y nos daba un poco más de problema. Aunque las herramientas fueron mejorando para el clonado de voz, aún quedaba un poco raro. Este es el ejemplo que hicimos en 2021 para OpenExpo Europe.

Figura 3: Demo de creación de Voz de Chema Alonso con Real-Time Voice Cloning
Por supuesto, durante este tiempo hemos visto que las técnicas de Clonación de Voces han avanzado en su perfección, tanto para recuperar la auténtica voz de las personas – como en el caso de Val Kilmer, que la perdió por un cáncer de garganta – o el del uso de la voz de Darth Vader para siempre, como también  para que las utilicen los cibercriminales en ataques, como vimos en el ataque del año 2019 con el que se llevaron unos 400.000 €, el que se llevó 35 Millones de Dólares en el año 2021 o el reciente de este mes que usaban ya estafadores para robar dinero a personas en la calle.
Nosotros hemos estado todo este tiempo, y sobre todo, desde la llegada de la pandemia por COVID19 trabajando en este área de las DeepFakes y la Detección de DeepFakes porque vimos cómo el uso de Virtual Replicants en entornos de vídeo de conferencias iba a ser un auténtico problema, y, sobre todo, centrando los esfuerzos en la detección de los mismos, aplicando todas las técnicas de descubrimiento posibles para crear, como en la película de Blade Runner, el Test de Voight Kampff para detectar a estos Virtual Replicantes.

Figura 4: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández.

Durante este tiempo hemos seguido investigando y jugando con todos los avances que en servicios cognitivos usando modelos de Inteligencia Artificial, la mayoría con modelos de Machine Learning, como vamos a ver en los ejemplos, que han ido apareciendo. Tanto para utilizarlos en nuestros nuevos hacks con Cognitive Services como los explicamos en la charla de Cognitive Services & Cyber Security, o los ejemplos como los cuentos interactivos para niños que usan Gaze Tracking con visión artificial.
Al final, todos esos avances se pueden utilizar tanto en lo bueno, como en lo malo, es decir, para hacer DeepFakes de Vídeo o de Audio más perfectas, o para mejorar nuestros sistemas de Detección de DeepFakes con nuestro Test de Voight Kampff, que estamos creando durante los últimos meses, y que es un juguete que no deja de crecer y crecer cada día.
Who’s talking to my Speaker?
Y para comenzar nuestras pruebas, comenzamos a ver dónde las personas estamos dejando rastros de nuestra voz, y es en todas partes. La voz es una biometría que tenemos perdida hace tiempo con la llegada de los interfaces humanos usando servicios cognitivos. Cualquier interacción por voz con Google o Alexa, o los audios que se envían por WhatsApp, Telegram, los vídeos que se suben a redes sociales como TikTok, Instagram, o plataformas con Youtube o Twitch llevan nuestra biometría.
Es la forma natural de interactuar entre las personas, e Internet ya no es una barrera para ello, pero además es que las tecnologías, gracias a estos servicios cognitivos permiten esa interacción humano-máquina, así que para atacar a ChatGPT hay que usar técnicas de Prompt Injection para hacer que nos de datos personales, o para hacer exfiltración de información personal desde un Alexa , Siri, o un Google Assistant se necesita solo hablar a los dispositivos. Y se queda ahí nuestra voz, como en el caso de Google, donde puedes ver todas las búsquedas y todos los audios grabados.
Como nosotros jugamos mucho con Alexa haciendo bromas a las personas, decidimos hacer una primera herramienta que nos ayudara a recuperar todos los audios que estaban guardados en un dispositivo. Voces de las personas que han hablado a tu SmartSpeaker, con el objetivo de realizar tres tareas diferentes.
  • Quién, cuándo y para qué usan mi SmartSpeaker: Esta es una información que puede darte más datos de los que te imaginas. Se trata de transformar la página, por ejemplo de Amazon Alexa, para convertirla en un Dashboard con información más accionable que pue me dé datos de seguridad que utilizar en mi vida personal. Podría sorprenderte lo que hace la gente que visita tu casa cuando tú no estás y en los que confías.
Figura 9: Alexa Dashboard para accionar recordings
  • Voice DOXING: La segunda de las preguntas que queríamos responder es, qué información podemos obtener de las audios que una persona deja en un SmartSpeaker. El objetivo es poder saber cosas de su biometría, y luego poder localizarlo entre una buena cantidad de audios que hayamos podido convertir en un nuestro Data Lake de audios de gente que podría ser el objetivo.
  • Voice Cloning: La última parte que queríamos comprobar es si con los audios, o mejor, con cuántos audios dejados en un SmartSpeaker, seríamos capaces de clonar la voz de una persona que haya estado utilizándolo. Algo que, como veréis, sorprende por lo sencillo que se puede hacer hoy en día.
Para realizar este estudio, nosotros hemos utilizado Amazon Alexa, y diferentes modelos de Machine Learning aplicado sobre ficheros de audio, para hacer los análisis, pero se podría hacer con cualquier otro SmartSpeaker.  

Amazon Alexa Voice Command Dashaboard

En este caso, es un script en Python que está conectando al perfil de la cuenta de Amazon que está asociado al SmartSpeaker de Alexa, y haciendo un poco de WebScrapping, está descargando todos los datos que nos son útiles para la primera pregunta de este estudio, saber quién, cuándo y para qué está utilizándose nuestro SmartSpeaker.

Figura 10: Amazon Alexa Voice Command Dashboard
Esta es una herramienta que en cualquier investigación de un delito que se realice en un domicilio se debería utilizar. Analizar la información que Alexa tiene, los audios, saber quién ha estado, los ruidos que salen de fondo, o, como veremos, el análisis de sentimientos y datos biométricos que salen en los audios grabados en los SmartSpeakers pueden dar información de estados de ánimo, descubrir quién estuvo cuándo y dónde, y ayudar más datos de análisis en un robo, un asesinato, violencia en una casa, o cualquier otro delito que haya tenido lugar cerca de un SmartSpeaker.
Comienza el juego
Por supuesto, a partir de aquí comenzará nuestro juego. Tenemos un Dashboard, y elegimos a los «Unknowns» para comenzar la investigación. En nuestro caso, hemos pedido a un compañero que nos haga de objetivo, para no tener que clonar voces de personas sin su consentimiento, y todas las pruebas las hemos hecho en entornos de laboratorio. Lo vemos en la siguiente parte de esta serie.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)  

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.