Seguridad

Inteligencia Artificial para ayudar en la Discapacidad Visual

Es innegable el protagonismo que ha alcanzado la inteligencia artificial, no sólo en los medios, sino también en nuestro día a día. Desde el lado del mal ya se ha hablado muchas veces del potencial que tiene la Inteligencia Artificial para la creación e incluso Detección de DeepFakes, así como de la investigación en el mundo de la Inteligencia Artificial que cambió el mundo.

Hace pocos años que surgieron las primeras versiones de DALL-E basados en modelos de difusión y GPT, que ya en aquel momento dejaron ojipláticos a los expertos en la materia. En ese momento, la sociedad todavía no era consciente del mundo de posibilidades que se abría ante sus ojos. Y hasta día de hoy, todos estos avances parecen imparables. Sin embargo, por muchas facilidades que nos ofrezca la Inteligencia Artificial en nuestro día a día, siempre existen minorías olvidadas en dicho avance. 

Por ello, desde el Grupo de Robótica y Visión Tridimensional (RoViT) de la Universidad de Alicante, bajo la dirección de Miguel Cazorla, nos estamos enfocando en la creación de una aplicación móvil que aúna todos estos avances en el campo de la visión por computador y del procesamiento de lenguaje natural. El objetivo es dar respuesta a una necesidad básica desde el punto de vista humano: «¿qué están viendo nuestros ojos?»

Tengo la suerte de llevar unos meses bastante metido en el proyecto y en todo el funcionamiento de la aplicación, para poder decir que la aplicación está destinada a las personas con discapacidad visual parcial o total. Esto cobra mucho más sentido cuando pensamos en aquellos usuarios que adquirieron la discapacidad visual crecidos y debieron aprender a interactuar nuevamente con el entorno. Así nace AIDEN, utilizando los últimos avances tecnológicos en visión por computadora para permitirles explorar el mundo que les rodea.

A menudo, las personas con discapacidad visual se enfrentan a obstáculos cotidianos por la forma en la que el mundo ha sido diseñado. ¿Cómo pueden saber si se les ha olvidado la vitrocerámica encendida, o qué modo del horno está asociado a cada posición? Por supuesto, las empresas mil-millonarias, con el soporte de las grandes tecnológicas, tienen el potencial para llegar a crear modelos más competentes. Salvo por tres particulares:

  • Necesidad de monetizar cualquier producto.
  • Falta de enfoque en este colectivo.
  • Incapacidad de ofrecer transparencia con los datos de los usuarios.

El motivo por el cual aún no existen soluciones competentes para este colectivo por parte de las grandes empresas tecnológicas es sencillo: dinero, dinero, dinero. Hasta que esas mega corporaciones vean la posibilidad de lucro en estas minorías, no habrá una solución real en el mercado, la cual, indiscutiblemente, tendrá que afrontar dos preguntas fundamentales:

  • ¿Queremos que empresas tecnologícas tenga fotografías privadas de nuestro día a día?
  • ¿Superarán los filtros legales de los países europeos?
De ahí, la importancia de que sea una Universidad Pública bajo el sistema europeo quien desarrolle el proyecto, junto con el apoyo de INDRA, una de las mayores empresas del mercado español.

¿Alguna vez os habéis preguntado cómo hacen las personas invidentes para usar un smartphone? ¿O manejarse por una página web? ¿Pensáis que generalmente están adaptas a estos usuarios? AIDEN incorpora los últimos modelos de Visión Artificial para cada tarea especifica, combinados ofrecen al usuario la mejor experiencia de usuario. Permitiendo cuatro opciones fundamentales:

  1. Describir los elementos del entorno.
  2. Preguntar al entorno.
  3. Lectura de texto.
  4. Lector de código de barras y QR instantáneos.

Para ello, la aplicación toma una fotografía y se procesa en nuestros servidores hasta obtener una respuesta. Es esta respuesta la que recibe el móvil y es dictada al usuario gracias al sistema operativo del smartphone.

Figura 3: Diagrama de funcionalidades de AIDEN

El enfoque más novedoso que trae la aplicación es preguntar a la escena y obtener su respuesta con un costo computacional relativamente bajo, especialmente si se compara con LLAMA, BARD o ChatGPT.
Sobre esa imagen tomada, la persona invidente puede saber cuantas sillas hay, qué pone en un cartel o de qué color es la chaqueta, para seguir preguntando si la silla tiene respaldo o si la chaqueta tiene capucha.

Para el desarrollo de la app, se ha jugado con muchas tecnologías hasta encontrar el mejor resultado, uno de los modelos más novedosos que se ha incorporado es el V* que aplica LLMs a la Visión Artificial y así brinda excelentes resultados. Grosso modo, con V estrella logramos localizar los píxeles de la imagen en los que la Inteligencia Artificial debe centrar su atención, con el objetivo de obtener la mejor respuesta en el menor tiempo posible.

Figura 4: Prototipo en pre-producción de AIDEN

Incluso los colores que se pueden apreciar en los botones de la aplicación, o el margen entre los mismos, han sido seleccionados con cuidado para mejorar la accesibilidad y facilitar el uso del asistente del móvil. La utilización de colores lejanos en la escala cromática facilita a ciertos usuarios con ceguera parcial diferenciar los botones.

El proyecto se encuentra en las últimas etapas de desarrollo, y aunque ya dispongamos de un producto mínimo viable, nos enfrentamos a cuestiones muy complejas que requieren tiempo y que estemos por detrás un equipo excelente de doctores e ingenieros del que tengo la suerte de formar parte.

Conclusión   


AIDEN
es el primer paso en la dirección correcta, la de un mundo más accesible gracias a la tecnología. Imaginemos en pocos meses el potencial que puede tener una aplicación como AIDEN junto con las Ray-Ban Smart Glasses, en las que el usuario ya no requiera ni interactuar con el smartphone.

La aplicación tiene previsto abrir sus puertas el segundo trimestre del año, tanto para Android como para iOS, y aunque todavía estamos discutiendo si estaremos ante una versión beta abierta o privada, todo parece marchar sobre ruedas. Además, estamos súper ilusionados por que se haya interesado RTVE para contar esta historia y compartir el trasfondo social de la aplicación.

¡Saludos!

Powered by WPeMatico

Gustavo Genez

Informático de corazón y apasionado por la tecnología. La misión de este blog es llegar a los usuarios y profesionales con información y trucos acerca de la Seguridad Informática.