RenderFormer: Renderización con Inteligencia Artificial de escenas 3D, con puntos de luz y cámara.

19 de septiembre de 2025 Gustavo Genez

Ya os he contado alguna que otra vez que mi Proyecto de Fin de Carrera de la Ingeniería Técnica de Informática de Sistemas en la Universidad Politécnica de Madrid se centró en Geometría Computacional. Algo que me gustaba mucho por aquel entonces, ya que descubrir la Marcha de Jarvis o el Algoritmo de Melkman, era siempre un descubrimiento. Mi proyecto, que hice luego con ChatGPT en poco tiempo, os lo conté tiempo atrás: Encontrar el par de puntos más próximos en una nube de puntos usando un algoritmo de complejidad nLog(n).

Figura 1: RenderFormer: Renderización con Inteligencia Artificial

de escenas 3D, con puntos de luz y cámara.

Despues de eso, la vida dictó otro camino. Primero me metí en una startup como programador de Visual C++ para Windows ya que estaban construyendo un GIS, y luego mi vida paso a las bases de datos, llegó el SQL Injection, y el mundo del hacking, pentesting y ciberseguridad absorbió mi carrera profesional. Sin embargo, sigo teniendo mucho interés por este mundo, y cuado veo algo que tiene que ver con el mundo de los gráficos en mi RSS, me lo marco para echarle un ojo con calma.

Figura 2: «RenderFormer: Transformer-based Neural Rendering

of Triangle Meshes with Global Illumination«

Esto es lo que hice con el paper publicado por Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu & Xin Tong del equipo de Microsoft Research Asia, que se titula: «RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination» y que plantea un sistema de renderización sin cálculo de física utilizando redes neuronal basadas en Transformers para generar mallas de triángulos iluminados, que posteriormente se convierten en una imagen en 3D final.

Figura 3: Metaverso y Mundos Virtuales: Tecnologías, Retos y Oportunidades

de 0xWord Brain, escrito por Sandra Vázquez, José María Blanco y Carmen Jordá

Este modelo de Inteligencia Artificial, llamado RenderFormer, está pensado para resolver un problema costoso en tiempo, como es la renderización de mallas 3D en imágenes 3D visuales que es de alto impacto en juegos, vídeos 3D o mundos virtuales, y que RenderFormer intenta mejorar con Inteligencia Artificial.

Figura 4: Arquitectura de RenderFormer

El proceso, como está descrito en la imagen superior cuenta con dos redes de transformers que generan mallas de triángulos iluminados, a partir de la imagen de la malla 3D, del punto de luz, y de la posición de la cámara. En la primera fase del proceso, la red Transformer se resuelve el problema del foco de luz triángulo a triángulo de manera independiente, para codificar las propiedades de reflejo de cada triangulo.

Figura 5: Resultados de renderización con Blender y con RenderFormer

Después, para generar la imagen final, se hace un nuevo proceso antes de tener la imagen final en el que se toma como referencia la posición de la cámara, y como resultado final obtenemos una imagen renderizada en 3D desde el punto de vista de la cámara con luces y sombras creadas por RenderFormer.

Figura 6: Digital Nomads: El aprendizaje consiste en generar un

vídeo rasterizado que responda el prompt

Cuando hablamos de los Digital Nomads para entrenar a los Robots en el Physical Turing Test, vimos cómo se utilizaba una generación de vídeo que simulaba el punto de vista del robot. En este caso no se trata de un Modelo de Difusión para generar una imagen rasterizada a partir de imágenes finales entrenadas, sino una imagen 3D generada a partir de una imagen construida con triángulos con sus propiedades de reflejo de luz. Es decir, se genera el 3D de los triángulos con Inteligencia Artificial sin utilizar las técnicas de física que utilizan programas como Blender, y luego se rasteriza.

Figura 7: Resultados de RenderFormer y Blender con el mismo tiempo

Si miramos las imágenes de la Figura 5 y Figura 7, podemos ver la comparación del método de RenderFormer comparado con el funcionamiento clásico con Blender. Los resultados no son perfectos, ni iguales, pero las diferencias son muy pequeñas. Sin embargo, si miramos los resultados con el mismo tiempo de ejecución en ambos, es decir, limitando la calidad en Blender para asegurar que tarda lo mismo que RenderFormer, se puede ver que el resultado de RenderFormer es espectacular.

Figura 8: Renderización de escenas con RenderFormer

El resultado de calidad es muy bueno, y aunque el modelo aún tiene muchas limitaciones, como soportar cámaras dentro de objetos, o materiales de distintos grados de reflexión en los objetos, los resultados son muy interesantes para acelerar el mundo de la renderización usando IA en lugar de Física.

Figura 9: Resultados preliminares de rendezación con

triángulos de diferentes materiales y grados de reflexión.

Además, esta arquitectura permite renderización de escenas animadas para hacer vídeo con unos resultados de gran calidad, lo que abre la posibilidad de renderizar no solo una imagen, sino una escena completa utilizando la Inteligencia Artificial.

Figura 10: Renderización de escenas en vídeo

De nuevo, esta es una aproximación diferente a renderización utilizando física, o renderización utilizando modelos de difusión, como vimos en el caso de Genie3 de Google, que sigue creando vídeo con mundos en 3D con Inteligencia Artificial, pero no basado en el esta arquitectura.

Figura 11: Genie3 de Google

Cada día encontramos un nuevo caso de uso de la Inteligencia Artificial, un nueva y mejor Inteligencia Artificial, y una nueva tecnología que pone en disrupción – o en el camino de ello – otra área de investigación tecnológica. Me encanta.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Comparte esto:

Gustavo Genez

También te puede gustar

ShadowPad explota vulnerabilidad crítica en WSUS

Finland’s Most-Wanted Hacker Nabbed in France

OceanLotus APT usa el RAT Ratsnif en sus ataques.