¿Quieres saber cómo funciona la IA detrás de «Oye Siri» y qué ocurre con tu información?
Siri es el asistente personal de Apple muy utilizado en los países de habla inglesa pero que poco a poco se está comenzando a utilizar más en otros idiomas, como por ejemplo el español. Detrás de esta apariencia de simple asistente se esconde toda una potente maquinaria creada con avanzadas técnicas de IA capaz de evolucionar y aprender del usuario. Nosotros nos preguntamos cómo funciona pero además, también queremos saber qué pasa con todas esas frases que le has dicho a Siri.
Figura 1. Flujo del proceso de activación de Siri. Fuente. |
La parte más importante de Siri es el modelo acústico, ya que es el encargado de procesar cada trozo de audio y compararlo con los modelos previamente almacenados. La DNN del modelo acústico ha recibido un proceso de entrenamiento utilizando cientos de variantes del idioma correspondiente utilizando miles de frases de entrenamiento, analizando todos los parámetros de las frases obtenidas. Para entrenar estos modelos, Apple utiliza herramientas muy conocidas como Theano, Tensorflow y el software de reconocimiento de audio llamado Kaldi. A continuación podemos ver los diferentes estados de la señal acústica recibida cuando recibe la frase «Hey Siri What …«:
Figura 2. Fases del proceso de análisis de la frase «Hey Siri What …». Fuente. |
En la sección del gráfico marcada con el número 1 en rojo, podemos ver la forma de onda captada directamente por el micrófono equivalente a la frase «Hey Siri What …«. Las partes más brillantes que se observan en la imagen son las que tienen mayor volumen de voz. La sección marcada con el número 2, muestra el resultado final de realizar un proceso de ajuste y limpieza de la señal captada en la fase 1 del proceso. La número 3 muestra en verde los diferentes valores numéricos asignados a cada trozo de la frase introducida después de compararlos con los diferentes patrones que Siri tiene almacenados. La sección número 4 muestra la evolución del procesamiento final aplicado por el modelo acústico hasta conseguir una puntuación. Esta puntuación finalmente se compara con unos patrones los cuales decidirán activar o no Siri. Este mismo proceso se aplica también para el resto de frases recibidas después de la activación. Este tema es bastante complejo y extenso para poder explicarlo en profundidad en este artículo pero puedes obtener más información en este enlace.
Powered by WPeMatico