Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)
Desde la generación de contenido hasta la atención al cliente automatizada, así como la mejora de la accesibilidad y la personalización de servicios, los LLMs están siendo aprovechados de diferentes maneras innovadoras en diversas industrias.
![]() |
Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
Los principales problemas de los LLMs actuales son la complejidad computacional, el requerimiento de cantidades masivas de datos para su entrenamiento y su capacidad limitada de razonamiento bi-direccional.
A pesar de que los LLMs sí que pueden leer el input completo, el output se va produciendo de manera secuencial (autoregresiva). Los LLMs actuales predicen un token a cada paso, basándose en el texto anterior.
¿Qué son los modelos de difusión?
Los modelos de difusión son un tipo de arquitectura que genera datos (típicamente imágenes, aunque también se aplican para otro tipo de datos como vídeo y audio) empezando con ruido aleatorio que luego se va eliminando gradualmente, hasta obtener un resultado claro. Este proceso inverso de eliminar el ruido paso a paso permite crear imágenes realistas a partir de datos aleatorios o ruidosos.
¿Cómo funciona un Diffusion LLM (dLLM)?
Un Diffusion LLM es un modelo de lenguaje que combina la técnica de difusión con procesamiento de texto. Funciona generando texto o completando tareas lingüísticas de manera similar a cómo los modelos de difusión generan imágenes. Empieza con ruido (texto aleatorio o blanks) y, paso a paso, lo va refinando hasta obtener un texto coherente y preciso.
Los dLLMs son entrenados con grandes cantidades de texto.
La mejora más intuitiva de un LLM basado en difusión sería su capacidad de devolver un output sin necesidad de seguir un orden temporal, es decir, que pueden devolver más de un token en cada paso y en la posición que deseen. Esto permite que sean mejores razonando, estructurando y comprendiendo sus propias respuestas.
Mercury de Inception, el primer dLLM de escala comercial
Inception, una empresa fundada por profesores pioneros en difusión de Standford, Cornell y UCLA, ha publicado recientemente el primer diffusion LLM de escala comercial.
Mercury Coder, el primer dLLM que se puede comparar en rendimiento a los LLMs públicos como GPT, Gemini, Claude o DeepSeek, está refinado para la generación de código. Su principal ventaja es la velocidad, siendo de 5 a 10 veces más rápido que los LLM de generación actuales. La necesidad de menos iteraciones para la generación viene mano en mano con la reducción de complejidad computacional y costes.
Sus resultados en benchmarks de generación de código son mejores en comparación a modelos mini siendo muchísimo menos costoso. Esta velocidad de respuesta, pudiendo ser de hasta 1000 tokens por segundo, sólo ha podido ser obtenida anteriormente usando hardware especializado, aunque Inception lo consigue optimizando el algoritmo de generación.
Para leer más sobre el tema visita los siguientes links:
- Mercury de Inception
- What is Diffusion LLM and why It matters
- LLaDA: The Diffusion Model That Could Redefine Language Generation
En definitiva, los Diffusion LLMs representan un avance significativo en el procesamiento del lenguaje natural, ofreciendo mayor eficiencia sin sacrificar calidad. Su impacto se reflejará en una adopción más amplia y en el desarrollo de soluciones más accesibles y sostenibles.
Powered by WPeMatico