Nueve investigadores del laboratorio NVlabs de NVIDIA publicaron el 14 de mayo un artículo y un repositorio de código con los detalles de SANA-WM, un modelo de mundo de 2.600 millones de parámetros que genera vídeo de 60 segundos a 720p a partir de una única imagen inicial y una trayectoria de cámara con seis grados de libertad. La publicación en arXiv, fechada a las 17:58 UTC, representa un avance en la investigación hacia la generación de vídeo eficiente de larga duración, pero no ofrece todavía un producto listo para usar: los pesos del modelo y la documentación específica no estaban disponibles públicamente en el momento de la verificación.
El trabajo es relevante porque los modelos de mundo de escala de un minuto han requerido históricamente clústeres de computación industrial. Los autores demuestran que una variante destilada y cuantizada puede eliminar el ruido de un minuto completo de metraje en 720p con una sola GeForce RTX 5090, lo que apunta a una inferencia más accesible. El entrenamiento del modelo, sin embargo, sigue siendo una tarea de centro de datos: 64 GPU H100 durante aproximadamente dos semanas.
A diferencia de los sistemas de texto a vídeo, SANA-WM toma como entrada un fotograma inicial y una trayectoria precisa de cámara con seis grados de libertad, y predice cómo evoluciona la escena a medida que se desplaza el punto de vista. El resultado es un clip coherente de un minuto en resolución 720p. Estos modelos de mundo son buscados para simulación robótica, entrenamiento de vehículos autónomos y generación de datos de entrenamiento sintéticos, donde la consistencia de largo alcance reduce la necesidad de costosas capturas en el mundo real.
El artículo se enmarca dentro de la familia SANA de NVlabs, que ya había lanzado modelos eficientes de imagen y vídeo como SANA-Video y LongSANA. Para SANA-WM, el equipo entrenó el transformador de difusión central con unos 213.000 clips de vídeo públicos emparejados con supervisión de pose a escala métrica; el artículo recoge con exactitud 212.975 clips. Ese entrenamiento duró aproximadamente 15 días en 64 GPU H100, con el flujo completo consumiendo hasta 74,7 GB de memoria. Algunas fuentes secundarias añaden una fase de adaptación separada de 3,5 días para el autoencoder variacional, lo que eleva la preparación total a cerca de 18 días.
En el apartado de inferencia, la cifra más comentada del artículo son los 34 segundos de eliminación de ruido en una sola GeForce RTX 5090. Los autores informan de que una variante destilada que usa la cuantización NVFP4 de Nvidia alcanzó esa velocidad tras aplicar una técnica de gestión de memoria denominada "sink" para evitar errores de memoria agotada. Los 34 segundos corresponden solo a la eliminación de ruido; el tiempo total de ejecución de extremo a extremo —que incluye el preprocesamiento de fotogramas, la decodificación y un refinador opcional— sigue sin medirse fuera del artículo.
En un benchmark autorreportado, SANA-WM con su refinador procesó 22,0 vídeos de un minuto por hora en ocho H100, una ventaja de rendimiento 36 veces superior a los 0,6 vídeos por hora de LingBot-World y una ventaja comparable sobre HY-WorldPlay. Los autores también afirman una calidad visual comparable según las métricas VBench. No ha aparecido hasta ahora ninguna replicación independiente de estos resultados.
A pesar de que el artículo describe SANA-WM como un modelo de código abierto y de que el repositorio de GitHub afirma que está "publicado", la página de documentación específica devolvió un error 404, y no se adjuntaron pesos del modelo a la página del artículo en Hugging Face. Nvidia no ha emitido un comunicado de prensa corporativo, por lo que el anuncio se mantiene en los canales de investigación. El repositorio de código tiene una licencia Apache-2.0, pero la licencia para los eventuales pesos sigue sin conocerse.
El artículo de SANA-WM refuerza el argumento de que la inferencia para modelos de mundo de larga duración puede desplazarse hacia hardware de consumo, al menos en las variantes cuantizadas de forma agresiva. Para equipos de investigación sin acceso a grandes clústeres de GPU, esa posibilidad es significativa, siempre que los pesos, los scripts de inferencia y las evaluaciones independientes lleguen finalmente. Por ahora, el trabajo queda como una notable referencia de eficiencia con un lanzamiento público incompleto.
