“Attention is all you need”: La investigación que revolucionó la Inteligencia Artificial con los Transformers (Parte 1)
Este enfoque revolucionario rompió con las limitaciones de las Redes Neuronales Recurrentes y Redes Neuronales Convolucionales, al introducir un mecanismo que permite al modelo enfocarse de una forma selectiva, en diferentes partes de la entrada de texto (luego veremos este proceso un poco más en detalle). Este cambio de paradigma ha mejorado de manera espectacular la capacidad de las máquinas para entender y generar lenguaje, abriendo nuevas posibilidades en tareas como la traducción automática y la generación de texto con sentido y contexto, entre otras muchas aplicaciones.
Pero antes un poco de historia …
El origen de la IA se remonta a la década de 1950, (no es algo nuevo como se suele pensar) una época marcada por teorías y desarrollos que crearon los cimientos. Los pioneros como mi admirado Alan Turing establecieron las bases conceptuales, y en 1956, John McCarthy acuñó el término “Inteligencia Artificial” en la conferencia de Dartmouth. Durante estas primeras décadas, la IA se centró en la lógica simbólica y los sistemas basados en reglas. En 1956, el “Logic Theorist” de Newell, Shaw y Simon demostró el potencial de la IA en la resolución de problemas complejos.
Frank Rosenblatt creó el primer modelo de red neuronal, conocido como el Perceptrón, en 1958 en la Universidad de Cornell (él no inventó el Perceptrón, fueron Warren McCulloch y Walter Pitts en 1943, pero fue el primero en implementarlo en un Mark I). Este modelo innovador, inspirado en la neurociencia, consistía en una sola capa de “neuronas” que podían procesar múltiples entradas para producir una salida.
Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
Figura 4: Generative Adversarial Nets |
Como curiosidad, Ian Goodfellow ideó las redes generativas antagónicas (GANs) en una anécdota que parece salida de una película: todo ocurrió mientras debatía técnicas de programación con amigos en un bar. En ese ambiente informal y probablemente impulsado por la creatividad que puede surgir en las discusiones entre colegas, Goodfellow tuvo un momento ¡Eureka! que plasmó en una servilleta del bar.
Pero antes de continuar, debo recordarte que tengo un libro escrito con mi gran amigo Rafael Troncoso donde hablamos de anécdotas parecidas a esta de Ian Goodfellow pero sobre hackers e innovadores en el mundo de la informática (Alan Turing, Steve Wozniak, Kevin Mitnick, entre otros muchos), un regalo perfecto para amig@s hackers 😉
Figura 6: Libro de “Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)” de Fran Ramírez y Rafel Troncoso 0xWord. |
Pero … ¿Por qué es tan importante este artículo de “Attention Is All You Need”?
En primer lugar, destaca por ofrecernos un nuevo punto de vista en el Procesamiento del Lenguaje Natural. En lugar de depender de las arquitecturas tradicionales como las redes neuronales recurrentes (RNN) o las Convolucionales (CNN), los autores introducen el Modelo Transformer (que veremos en la siguiente parte de este artículo) , una estructura basada enteramente en mecanismos de atención (y esta es la clave de todo como veremos a continuación).
Esta nueva arquitectura resuelve una limitación que es crítica de los modelos anteriores: la dificultad para manejar secuencias largas y la dependencia de la información secuencial, que solía tener como efecto secundario pérdidas de contexto y eficiencia. El Transformer, al utilizar un enfoque de atención completa, lo que permite al modelo procesar simultáneamente toda la secuencia de palabras, y esto resulta finalmente en una comprensión y generación de lenguaje mucho más coherente y contextual.
En otras palabras, la importancia reside en su propuesta de que la atención, y no la secuencia de procesamiento, es vital para el rendimiento en tareas de NLP. Los Transformers logran esto a través de lo que se denomina “atención de cabezas múltiples” (multi-head), que permite al modelo poder gestionar diferentes partes de la entrada simultáneamente, proporcionando una comprensión mejor del contexto y las relaciones entre palabras. Este enfoque además de mejorar la precisión también aumenta significativamente la eficiencia computacional, facilitando el entrenamiento de modelos más grandes y complejos.
Autor:
Contactar con Fran Ramírez en MyPublicInbox |
Powered by WPeMatico