Seguridad

Privacy Alert???: Apple patenta cómo reconocer lo que dices por medio de los movimientos que generas en los acelerómetros y giroscopios

Recientemente ha salido a la luz pública la patente de Apple con número US2023/0245657 A1 en la que registra como invención «Keyworking detection using motion sensors«, o lo que es o mismo, detectar palabras dichas por una persona en función de los movimientos que genera esa persona a la hora de decir esas palabras en los sensores de movimiento, como son el acelerómetro y el giroscopio de tus terminales iPhone, que hoy puede ser una mejora en la usabilidad, pero abre la posibilidad de que las apps te puedan espiar mucho más en el futuro, y desarrollar nuestra técnicas de hacking iOS (iPhone&iPad).
El funcionamiento de esta patente es tan sencillo, tan elegante, y tan bonito, como mejorar el rendimiento a la hora de reconocer términos dichos por una persona a una asistente digital por los efectos laterales que generar en los sensores de movimiento. Es decir, por cómo habitualmente esa persona dice y mueve el terminal cuando habla con un asistente digital.

Figura 2: Patente de Apple con número US2023/0245657 A1
Supongamos que un usuario utiliza Siri para pedirle hacer determinadas cosas, y para ello usa, pongamos varios casos de uso distintos: «Hey Siri, Set an alarm at 1 p.m«, «Hey Siri, Play music«, etc… De cada uno de esos casos de uso, el terminal iPhone graba, no solo la señal de audio, sino las señales que genera en movimientos en los acelerómetros y giroscopios en el terminal. 
Con esas señales en los sensores de movimiento, se pueden encontrar patrones de similitudes que, usando algoritmos de Machine Learning, sean capaces de hacer dos cosas. La primera es reconocer mejor las Keywords «Hey Siri«, «Play Music«, «Set an alarm«, usando los datos de todos los sensores (micrófono, acelerómetro y giroscopio) que solo los datos del micrófono.
Y segundo, y más llamativo, si los datos de entrenamiento que se han conseguido son suficientemente grandes, se ha hecho una curación de datos fina, y se ha ajustado bien el entrenamiento, podría llegar a reconocerse esa Keyword sin que hubiera señal de micrófono, ya fuera porque se ha roto el micrófono, no hay acceso a él por seguridad o porque la persona no está hablando.

Figura 5: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

En cualquiera de los casos, si este algoritmo de Machine Learning funciona bien, para las apps que activan el micrófono para reconocer keywords y hacer publicidad segmentada usando las palabras que se detectan en conversaciones, la protección de apagar el micrófono, o no dale acceso al micrófono a una app, podría llegar a no tener ningún valor, y que se pudieran detectar keywords solo por los efectos que genera esa persona en los sensores de movimiento del terminal iPhone cuando dice determinadas palabras.
Nosotros trabajamos para hacer Rubika, el sistema que identifica a las personas por cómo resuelven un cubo de Rubik, con algoritmos de Machine Learning aplicados a los datos capturados del giroscopio y acelerómetro, y la verdad es que, como podéis ver en la conferencia, se llega a identificar bien a una persona. 
Si hablamos de un dispositivo que está escuchando todo lo que decimos durante horas al día, que está en nuestra mano mucho tiempo, el volumen de datos que puede ir clasificando, curando, y utilizando para entrenar y re-enetrenar un algoritmo de Machine Learning para reconocer keywords, frases, horas, números, etcétera, dichos por cada una de las personas, es enorme.

Esto, que hoy en día puede parecer un poco de ciencia ficción, es el mismo caso que cuando salieron los sistemas de visión artificial utilizando algoritmos de Machine Learning sobre las perturbaciones que generan los objetos pasando por delante de señales WiFi, o la técnica PowerSpy que permite geo-posicionar un dispositivo en una ubicación utilizando algoritmos de Machine Learning sobre los patrones de descarga de las baterías de los terminales móviles, influenciadas por la distancia a la que se encuentra un dispositivo a una antena de telecomunicaciones. 
Y es que, usar técnicas de Machine Learning para conseguir objetivos de hacking, no es algo nuevo, y en los ejemplos que os he puesto con identificación en Rúbika, visión artificial con señales WiFi, o GPS basado en baterías, estamos utilizando «Side-Channels» para extraer datos de un sistema, que es algo que en el mundo de la ciberseguridad es parte fundamental de nuestro día a día. Así que, veremos dónde nos llevan estas técnicas.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)  

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.