Google presentó Gemini Omni para edición de vídeo conversacional en el I/O 2026

El lanzamiento de Gemini Omni Flash incorpora al ecosistema de Google vídeo generado por IA de 10 segundos con audio nativo y marca de agua SynthID, pero aún no hay benchmarks independientes disponibles.

Sábado, 23 de mayo de 2026 · min

Google presentó el 19 de mayo Gemini Omni, una nueva familia de modelos multimodales para generación y edición de vídeo, durante su conferencia de desarrolladores I/O 2026. El primer modelo, Gemini Omni Flash, acepta texto, imagen, vídeo y entradas de audio limitadas y permite una edición conversacional y multiturno que se basa en instrucciones previas. El lanzamiento integra la creación de vídeo en el chatbot Gemini, Google Flow y YouTube Shorts, lo que indica una apuesta por convertir la tecnología en una herramienta de consumo masivo.

El anuncio traslada la generación de vídeo desde aplicaciones especializadas a interfaces conversacionales cotidianas, una jugada de ecosistema de producto que aprovecha la capacidad de distribución de Google. Sin embargo, la compañía no reivindicó una victoria técnica sobre sus rivales; no existen benchmarks de rendimiento independientes y las capacidades del modelo se definen en gran medida por las demostraciones y declaraciones de la propia Google.

Gemini Omni Flash produce vídeos de hasta 10 segundos con audio nativo. En una sesión informativa, Google dijo que el límite de 10 segundos es una decisión de despliegue, no un límite permanente, y que están previstas duraciones más largas. La entrada de audio en el lanzamiento se limita a referencias de voz; una edición de audio más amplia sigue bajo revisión para un lanzamiento responsable. La ficha técnica del modelo publicada junto al lanzamiento señala que la coherencia total entre ediciones, el movimiento complejo y la representación precisa de texto siguen siendo retos.

Gemini Omni Flash empezó a llegar esta semana a los suscriptores de Google AI Plus, Pro y Ultra a través de la aplicación Gemini y Google Flow. También está disponible sin coste en YouTube Shorts Remix y YouTube Create. El despliegue mundial varía según la geografía y el plan, y los usuarios deben ser mayores de 18 años.

Google no desveló las cuotas por generación segmentadas por nivel de suscripción. El acceso a la API para desarrolladores y empresas está previsto para las próximas semanas; la compañía dijo que las evaluaciones de rendimiento se publicarán cuando la API esté disponible.

En YouTube, la nueva función Shorts Remix permite a los usuarios aplicar ediciones basadas en Omni a Shorts ya existentes, añadiendo marcas de agua digitales, metadatos y enlaces que remiten al vídeo original.

Todo el contenido creado o editado con Omni en Gemini, Flow o YouTube incorpora marcas de agua digitales SynthID y credenciales de contenido C2PA. En una entrada paralela en el blog de transparencia, Google dijo que está ampliando las herramientas de identificación de medios generados por IA en Search, Chrome, Pixel y Cloud.

Gemini Omni sustituye a Veo en la experiencia de la aplicación Gemini, pero Veo sigue siendo una familia separada de modelos de vídeo bajo Google DeepMind.

Google afirma que Omni Flash ofrece una mejor comprensión de la física —incluyendo la gravedad, la energía cinética y la dinámica de fluidos— y una mayor coherencia entre ediciones. Estas afirmaciones no han sido verificadas por terceros; la ficha técnica carece de resultados comparativos de referencia frente a Veo 3.1, Sora de OpenAI u otras herramientas. El personal de Google informó a los periodistas de que las instrucciones de edición deben ser muy específicas, o el modelo puede editar en exceso o alterar elementos no deseados.

Incluso con esas salvedades, el lanzamiento sitúa a Google por delante de sus pares de las grandes tecnológicas al integrar la edición conversacional de vídeo en un asistente de IA de amplio uso y en una plataforma de vídeo corto. Competidores como Sora de OpenAI, Runway y Seedance de ByteDance se han centrado en herramientas creativas independientes, lo que deja a Google la prueba de si los flujos de trabajo de creación casual dentro de Gemini y YouTube pueden atraer una adopción masiva.

La compañía dijo que la familia Omni admitirá más adelante generación de imagen y audio, pero el lanzamiento inicial es solo de vídeo. El acceso a la API para desarrolladores y los benchmarks de rendimiento se esperan en las próximas semanas.

Para estrategas e inversores, el movimiento indica una apuesta por que la generación de vídeo pueda convertirse en un hábito de consumo masivo integrado en el ecosistema central de Google. El veredicto sobre si Gemini Omni puede cumplir esa ambición dependerá de pruebas independientes que aún están por llegar.

— Fin —

Google presentó Gemini Omni para edición de vídeo conversacional en el I/O 2026

Relacionados

Un modelo de OpenAI refutó una conjetura central de Erdős en geometría discreta

Cohere lanzó Command A+, modelo abierto de mezcla de expertos para IA empresarial soberana

El pago mensual de 1.250 millones de Anthropic a SpaceX por IA figura en la OPV

Un modelo de OpenAI refutó la conjetura de distancias unitarias de Erdős