IA y modelos de lenguaje: ¿razonamiento real o memorización de patrones?

5 de febrero de 2026 Gustavo Genez

Los grandes modelos de lenguaje se han convertido en intermediarios cotidianos del conocimiento. Responden con fluidez a preguntas académicas, jurídicas o técnicas, lo que sugiere una comprensión profunda de los contenidos. Sin embargo, un estudio reciente liderado por investigadores de la Universidad Nacional de Educación a Distancia (UNED) plantea una cuestión clave: ¿hasta qué punto esos aciertos reflejan razonamiento real y no simple memorización de patrones?

El trabajo, del departamento de Lenguajes y Sistemas Informáticos, publicado en IEEE bajo el título: Sobre los límites del razonamiento en LLM: evidencia de contaminación, traducción y modificación de respuestas en pruebas de opción múltiple propone una metodología para separar de forma sistemática dos capacidades que a menudo se confunden en la evaluación de la IA: recordar respuestas vistas previamente y razonar eliminando alternativas incorrectas.

Del buscador a la IA: una confianza que conviene matizar

La investigación se enmarca en un contexto en el que millones de usuarios han sustituido el buscador tradicional por sistemas conversacionales basados en IA. Para Eva Sánchez Salido, investigadora predoctoral del Departamento de Lenguajes y Sistemas Informáticos de la UNED y una de las autoras del estudio, este cambio tiene implicaciones relevantes: “Cuando se usa un chatbot para consultas que antes se hacían en un buscador, la respuesta puede generarse de dos maneras: o bien el modelo contesta con la información que recuerda de su entrenamiento, o bien consulta internet antes de responder”.

En el primer caso, explica, el sistema no tiene acceso a información reciente y es más propenso al error si la actualidad es relevante. En el segundo, el proceso resulta más fiable, aunque no infalible: “Aunque sigue siendo posible que se invente la respuesta, es mucho más probable que sea correcta”.

La principal ventaja frente al buscador clásico es que la IA no solo localiza fuentes, sino que las selecciona y sintetiza. Sin embargo, esa misma capacidad introduce un riesgo añadido, ya que a medida que es más avanzada, resulta menos fiable. “Si la veracidad de la respuesta es crítica, siempre hay que comprobarla”, señala Eva Sánchez.

Benchmarks públicos: cuando el examen ya estaba estudiado

Uno de los ejes centrales del estudio es la crítica a los sistemas actuales de evaluación de la IA. Los llamados benchmarks —conjuntos de preguntas y respuestas utilizados para medir el rendimiento de los modelos— suelen ser públicos y ampliamente difundidos.

Eva Sánchez lo resume con una metáfora clara: “Cuando los datos son públicos, el modelo es como un estudiante que ha visto las respuestas antes de examinarse. La evaluación mide su capacidad de memorizarlas, no su conocimiento real de la asignatura”.

Este fenómeno, conocido como data contamination, hace que los altos resultados obtenidos en pruebas estándar no sean necesariamente una garantía de comprensión real. Por este motivo, el estudio combina benchmarks públicos, como MMLU, con conjuntos privados diseñados por la UNED, a los que los modelos no han tenido acceso durante su entrenamiento.

Diferencias entre idiomas

El trabajo también analiza la capacidad de generalización lingüística de los modelos, una cuestión clave para contextos educativos y administrativos no anglófonos. Los resultados muestran una tendencia clara: “En todos nuestros experimentos encontramos una mayor fiabilidad en inglés que en español, aunque la diferencia varía mucho entre modelos y áreas de conocimiento”.

En los sistemas más avanzados la brecha se reduce, pero sigue siendo significativa en determinadas disciplinas. Según la investigadora, en áreas relacionadas con la cultura y la sociedad española, como derecho o geografía de España, todos los modelos tienden a contestar bastante peor. Estos resultados subrayan que la fluidez lingüística no equivale necesariamente a una comprensión contextual profunda.

Cuando la respuesta correcta desaparece

El eje metodológico central de la investigación es la reformulación NOTO (None Of The Other answers). En este enfoque, la respuesta correcta se elimina de las opciones disponibles y se sustituye por “Ninguna de las otras respuestas”.

“Responder a una pregunta de opción múltiple puede hacerse por simple reconocimiento de patrones”, explica Eva Sánchez. “Pero sustituir la respuesta correcta por ‘ninguna de las otras’ obliga a comprobar que todas las demás opciones son incorrectas”.

Este razonamiento eliminativo, más cercano al humano, provoca caídas significativas en el rendimiento de los modelos: “Las caídas son muy grandes, lo que sugiere que en muchos casos aparentan razonar, pero solo están reconociendo patrones familiares”.

La conclusión es contundente: los benchmarks tradicionales pueden estar sobrestimando la capacidad real de razonamiento de la IA

Incluso los modelos que lideran los rankings habituales muestran un descenso acusado, lo que lleva a una conclusión clara: los benchmarks tradicionales pueden estar sobrestimando la capacidad real de razonamiento de la inteligencia artificial.

Más allá del tamaño de los modelos

Frente a la idea dominante de que el progreso pasa únicamente por modelos cada vez más grandes, el estudio apunta en otra dirección. “Nuestros resultados indican que no basta con hacer modelos más grandes”, señala la investigadora. “Se necesitan estrategias de entrenamiento avanzadas, como el aprendizaje por refuerzo con recompensas verificables”.

Además, la mejora exige repensar los sistemas de evaluación, ya que es necesario cambiar cómo medimos lo que los modelos realmente entienden, incorporando pruebas menos predecibles y más cercanas al uso real, destaca la investigadora.

El mensaje final del estudio es tan técnico como relevante para la sociedad: acertar no siempre significa entender. Distinguir entre ambas cosas será clave en un contexto en el que la inteligencia artificial influye cada vez más en decisiones académicas, profesionales y cotidianas.

Del buscador a la IA: una confianza que conviene matizar

Benchmarks públicos: cuando el examen ya estaba estudiado

Diferencias entre idiomas

Cuando la respuesta correcta desaparece

La conclusión es contundente: los benchmarks tradicionales pueden estar sobrestimando la capacidad real de razonamiento de la IA

Más allá del tamaño de los modelos

Comparte esto:

Gustavo Genez

También te puede gustar

Por qué va lenta la VPN y cómo solucionarlo

Snap crece 15% sus ventas y anuncia recompra de acciones por 500 mdd

Por qué la seguridad en la nube es más importante que nunca