Despues de eso, la vida dictó otro camino. Primero me metí en una startup como programador de
Visual C++ para
Windows ya que estaban construyendo un
GIS, y luego mi vida paso a las bases de datos, llegó el
SQL Injection, y el mundo del
hacking, pentesting y ciberseguridad absorbió mi carrera profesional. Sin embargo, sigo teniendo mucho interés por este mundo, y cuado veo algo que tiene que ver con el mundo de los gráficos en mi
RSS, me lo marco para echarle un ojo con calma.
Esto es lo que hice con el paper publicado por
Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu & Xin Tong del equipo de
Microsoft Research Asia, que se titula: «
RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination» y que plantea un sistema de renderización sin cálculo de física utilizando redes neuronal basadas en
Transformers para generar mallas de triángulos iluminados, que posteriormente se convierten en una imagen en
3D final.
El proceso, como está descrito en la imagen superior cuenta con dos redes de transformers que generan mallas de triángulos iluminados, a partir de la imagen de la malla 3D, del punto de luz, y de la posición de la cámara. En la primera fase del proceso, la red Transformer se resuelve el problema del foco de luz triángulo a triángulo de manera independiente, para codificar las propiedades de reflejo de cada triangulo.
Después, para generar la imagen final, se hace un nuevo proceso antes de tener la imagen final en el que se toma como referencia la posición de la cámara, y como resultado final obtenemos una imagen renderizada en
3D desde el punto de vista de la cámara con luces y sombras creadas por
RenderFormer.
Cuando hablamos de los
Digital Nomads para entrenar a los Robots en el Physical Turing Test, vimos cómo se utilizaba una generación de vídeo que simulaba el punto de vista del robot. En este caso no se trata de un
Modelo de Difusión para generar una imagen rasterizada a partir de imágenes finales entrenadas, sino una imagen
3D generada a partir de una imagen construida con triángulos con sus propiedades de reflejo de luz. Es decir, se genera el
3D de los triángulos con
Inteligencia Artificial sin utilizar las técnicas de física que utilizan programas como
Blender, y luego se rasteriza.
Si miramos las imágenes de la
Figura 5 y
Figura 7, podemos ver la comparación del método de
RenderFormer comparado con el funcionamiento clásico con
Blender. Los resultados no son perfectos, ni iguales, pero las diferencias son muy pequeñas. Sin embargo, si miramos los resultados con el mismo tiempo de ejecución en ambos, es decir, limitando la calidad en
Blender para asegurar que tarda lo mismo que
RenderFormer, se puede ver que el resultado de
RenderFormer es espectacular.
El resultado de calidad es muy bueno, y aunque el modelo aún tiene muchas limitaciones, como soportar cámaras dentro de objetos, o materiales de distintos grados de reflexión en los objetos, los resultados son muy interesantes para acelerar el mundo de la renderización usando IA en lugar de Física.
Además, esta arquitectura permite renderización de escenas animadas para hacer vídeo con unos resultados de gran calidad, lo que abre la posibilidad de renderizar no solo una imagen, sino una escena completa utilizando la Inteligencia Artificial.
De nuevo, esta es una aproximación diferente a renderización utilizando física, o renderización utilizando modelos de difusión, como vimos en el caso de
Genie3 de Google, que sigue creando vídeo con mundos en
3D con
Inteligencia Artificial, pero no basado en el esta arquitectura.
Cada día encontramos un nuevo caso de uso de la Inteligencia Artificial, un nueva y mejor Inteligencia Artificial, y una nueva tecnología que pone en disrupción – o en el camino de ello – otra área de investigación tecnológica. Me encanta.
¡Saludos Malignos!