“Attention is all you need”: La investigación que revolucionó la Inteligencia Artificial con los Transformers (Parte 1)

8 de enero de 2024 Gustavo Genez

En este frenético mundo de la Inteligencia Artificial (IA), donde casi cada día nos encontramos con algo nuevo, debemos recordar el punto de inflexión que nos ha permitido a tener a día de hoy modelos de lenguaje tan espectaculares como el famoso GTP con su implementación en ChatGPT de OpenAI. El Procesamiento del Lenguaje Natural (NLP) ha sufrido una total revolución por la irrupción de los Transformers, cuyo origen fue el artículo «Attention Is All You Need» de Ashish Vaswani y su equipo en 2017.

Figura 1: “Attention is all you need”: La investigación que revolucionó

la Inteligencia Artificial con los Transformers (Parte 1).

(Recreación de Transformers de ficción y reales usando DallE-3)

Este enfoque revolucionario rompió con las limitaciones de las Redes Neuronales Recurrentes y Redes Neuronales Convolucionales, al introducir un mecanismo que permite al modelo enfocarse de una forma selectiva, en diferentes partes de la entrada de texto (luego veremos este proceso un poco más en detalle). Este cambio de paradigma ha mejorado de manera espectacular la capacidad de las máquinas para entender y generar lenguaje, abriendo nuevas posibilidades en tareas como la traducción automática y la generación de texto con sentido y contexto, entre otras muchas aplicaciones.

El impacto de este trabajo ha inspirado una oleada de investigaciones y desarrollos en el campo del NLP. Desde entonces, los Transformers se han convertido en un componente esencial de la IA moderna, impulsando avances en asistentes virtuales, herramientas de análisis de texto y en modelos tan espectaculares como ChatGPT o Bard.
Pero antes un poco de historia …

El origen de la IA se remonta a la década de 1950, (no es algo nuevo como se suele pensar) una época marcada por teorías y desarrollos que crearon los cimientos. Los pioneros como mi admirado Alan Turing establecieron las bases conceptuales, y en 1956, John McCarthy acuñó el término «Inteligencia Artificial» en la conferencia de Dartmouth. Durante estas primeras décadas, la IA se centró en la lógica simbólica y los sistemas basados en reglas. En 1956, el «Logic Theorist» de Newell, Shaw y Simon demostró el potencial de la IA en la resolución de problemas complejos.

Figura 2: John McCarthy

Frank Rosenblatt creó el primer modelo de red neuronal, conocido como el Perceptrón, en 1958 en la Universidad de Cornell (él no inventó el Perceptrón, fueron Warren McCulloch y Walter Pitts en 1943, pero fue el primero en implementarlo en un Mark I). Este modelo innovador, inspirado en la neurociencia, consistía en una sola capa de «neuronas» que podían procesar múltiples entradas para producir una salida.

A pesar de su simplicidad y limitaciones, como resolver problemas no lineales, el Perceptrón fue fundamental en el desarrollo de la inteligencia artificial y el Aprendizaje Automático (o Machine Learning). Introdujo conceptos esenciales como el aprendizaje a partir de datos y la capacidad de las máquinas para mejorar su rendimiento con el tiempo, allanando el camino para redes neuronales más complejas y avanzadas.

Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

La transición a modelos más avanzados de IA comenzó en los años 80 y 90 con un enfoque mayor en las redes neuronales y el aprendizaje automático. La década de 1980 vio el resurgimiento de las Redes Neuronales, impulsado por trabajos en Algoritmos de Retropropagación (Backpropagation) y teorías de Geoffrey Hinton y otros. Los años 90 trajeron avances en Aprendizaje Automático (o Machine Learning) y Minería de Datos, destacando el desarrollo de Máquinas de Vectores de Soporte (SVM).

Sin embargo, un hito crucial en la IA fue la introducción de las Redes Generativas Antagónicas (GANs) por Ian Goodfellow en 2014. Las GANs, con su innovadora estructura de dos redes (una Generativa y otra Discriminativa), revolucionaron el procesamiento de imágenes y la generación de contenido, abriendo nuevas posibilidades en áreas como el arte, el diseño y la simulación.

Figura 4: Generative Adversarial Nets

Como curiosidad, Ian Goodfellow ideó las redes generativas antagónicas (GANs) en una anécdota que parece salida de una película: todo ocurrió mientras debatía técnicas de programación con amigos en un bar. En ese ambiente informal y probablemente impulsado por la creatividad que puede surgir en las discusiones entre colegas, Goodfellow tuvo un momento ¡Eureka! que plasmó en una servilleta del bar.

Figura 5: Ian Goodfellow revoluicionó el mundo de la IA desde un bar.

Reconoció que un tipo de red, que él llamó Discriminador, podría ser utilizado para refinar el proceso de aprendizaje de otra red, llamada generador, si ambos trabajaran en conjunto. Esa misma noche, regresó a casa y programó la primera GAN, dando inicio a una de las innovaciones más significativas en el campo del aprendizaje automático.

Si es que siempre pasan cosas buenas en los bares 😉 … volvamos a tema principal de este artículo.

Pero antes de continuar, debo recordarte que tengo un libro escrito con mi gran amigo Rafael Troncoso donde hablamos de anécdotas parecidas a esta de Ian Goodfellow pero sobre hackers e innovadores en el mundo de la informática (Alan Turing, Steve Wozniak, Kevin Mitnick, entre otros muchos), un regalo perfecto para amig@s hackers 😉

Figura 6: Libro de «Microhistorias: anécdotas y curiosiades de la historia
de la informática (y los hackers)» de Fran Ramírez y Rafel Troncoso 0xWord.

Pero … ¿Por qué es tan importante este artículo de «Attention Is All You Need»?

En primer lugar, destaca por ofrecernos un nuevo punto de vista en el Procesamiento del Lenguaje Natural. En lugar de depender de las arquitecturas tradicionales como las redes neuronales recurrentes (RNN) o las Convolucionales (CNN), los autores introducen el Modelo Transformer (que veremos en la siguiente parte de este artículo) , una estructura basada enteramente en mecanismos de atención (y esta es la clave de todo como veremos a continuación).

La «atención» se refiere a un mecanismo que permite a los modelos de Procesamiento de Lenguaje Natural ponderar diferentes partes de una secuencia de entrada de manera selectiva, mejorando la comprensión y generación del lenguaje. Este enfoque permite a los modelos centrarse en la información relevante y establecer relaciones contextuales complejas a lo largo de toda la secuencia de texto, sin depender de la secuencia en el procesamiento de datos.

Figura 7: Artículo “Attention Is All You Need”

Esta nueva arquitectura resuelve una limitación que es crítica de los modelos anteriores: la dificultad para manejar secuencias largas y la dependencia de la información secuencial, que solía tener como efecto secundario pérdidas de contexto y eficiencia. El Transformer, al utilizar un enfoque de atención completa, lo que permite al modelo procesar simultáneamente toda la secuencia de palabras, y esto resulta finalmente en una comprensión y generación de lenguaje mucho más coherente y contextual.

En otras palabras, la importancia reside en su propuesta de que la atención, y no la secuencia de procesamiento, es vital para el rendimiento en tareas de NLP. Los Transformers logran esto a través de lo que se denomina «atención de cabezas múltiples» (multi-head), que permite al modelo poder gestionar diferentes partes de la entrada simultáneamente, proporcionando una comprensión mejor del contexto y las relaciones entre palabras. Este enfoque además de mejorar la precisión también aumenta significativamente la eficiencia computacional, facilitando el entrenamiento de modelos más grandes y complejos.

Y en la siguiente parte de este artículo, vamos a ver Cómo Funcionan Los Transformers en más detalle.

Happy Hacking, Hackers!!!

Autor:

Fran Ramírez es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro «Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)«, del libro «Docker: SecDevOps«, también de «Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

Contactar con Fran Ramírez en MyPublicInbox

Comparte esto:

Gustavo Genez

También te puede gustar

¡Reto! Humano contra SUNO: rompiendo cascarones (primeros pasos)

Mozilla Drops Onerep After CEO Admits to Running People-Search Networks

Where is Wally? Así puedes geolocalizar de forma remota un terminal móvil