NVIDIA Research publicó el 25 de mayo PiD, un decodificador de difusión de píxeles que fusiona la decodificación latente y el escalado de imágenes en un único módulo generativo, junto con un artículo, código abierto y pesos de modelo de investigación. El decodificador fue desarrollado por el laboratorio de IA de Toronto de la compañía y admite aumentos de resolución de 4× y 8×.
El trabajo aborda un cuello de botella estructural en la generación de imágenes de alta resolución. Los modelos de difusión latente estándar —Stable Diffusion, Flux y otros— primero generan un latente de baja resolución, lo decodifican a píxeles y luego canalizan el resultado a través de una red de superresolución independiente. PiD sustituye esta cascada de dos pasos por un proceso condicional de difusión de píxeles que decodifica directamente al tamaño de salida objetivo, lo que podría reducir la latencia y las transferencias entre fases.
La arquitectura emplea un adaptador ligero consciente de sigma que inyecta latentes corrompidos por ruido en una columna vertebral de difusión de píxeles, lo que permite al módulo trabajar con latentes que solo están parcialmente desruidos. Esto posibilita una salida temprana del modelo base de difusión latente, truncando la inferencia antes de que se complete todo el programa de desruido. Los checkpoints publicados están destilados con DMD2 y realizan la inferencia en cuatro pasos, según el artículo.
Todas las cifras de velocidad y calidad son autoinformadas por los autores. Afirman que la decodificación de un latente de 512×512 a una imagen de 2048×2048 se completa en menos de un segundo en una Nvidia RTX 5090 con 13 GB de memoria pico, y hasta en 210 milisegundos en una GPU Nvidia GB200. El equipo sostiene que PiD es aproximadamente seis veces más rápido que el proceso de superresolución basado en difusión en cascada SeedVR2. La fidelidad visual, según los autores, obtuvo una puntuación más alta en evaluaciones de jueces, pero no se han publicado pruebas de referencia independientes.
El código está disponible en GitHub bajo una licencia Apache 2.0. Los pesos del modelo se publicaron en Hugging Face bajo la licencia no comercial NSCLv1, con checkpoints para el escalado 4× de latentes de Flux, Flux2, Stable Diffusion 3 y DINOv2, además de una variante 8× para representaciones SigLIP y Scale-RAE. El módulo funciona tanto con latentes VAE convencionales como con los latentes semánticos utilizados en modelos basados en RAE.
Dado que todas las afirmaciones de rendimiento y calidad proceden del equipo de investigación y no han sido revisadas por pares ni replicadas de forma independiente, los resultados deben considerarse preliminares. La licencia no comercial impide el despliegue en producción sin un acuerdo aparte, y la página del proyecto no contiene ningún anuncio de producto. Una cifra de 2,6 millones de imágenes de alta calidad como datos de entrenamiento, mencionada por un medio tecnológico japonés que cita el artículo, no fue verificada de forma independiente.
La publicación apunta a un creciente interés investigador en los decodificadores de difusión de extremo a extremo, a medida que la demanda de imágenes de alta resolución tensiona los procesos tradicionales de múltiples etapas. Que las ganancias reportadas resistan el escrutinio independiente determinará la rapidez con la que el enfoque gane tracción en la comunidad investigadora más amplia.