Gemini Omni: Google crea un modelo que genera video desde cualquier cosa

No es text-to-video: es cualquier cosa a video

Google presentó Gemini Omni durante el I/O 2026, y el nombre no es casualidad. Mientras herramientas como Sora o el propio VEO de Google convierten texto en video, Omni hace algo distinto: acepta cualquier combinación de texto, imágenes, audio y clips de video como entrada, y genera contenido audiovisual coherente que respeta las leyes de la física — gravedad, energía cinética, dinámica de fluidos — y que mantiene consistencia visual entre escenas.

Demis Hassabis, director de Google DeepMind, lo presentó como un salto significativo hacia la comprensión del mundo real por parte de la inteligencia artificial. Y las demostraciones en el escenario respaldaron la afirmación.

Edición conversacional: el verdadero diferencial

Lo que realmente distingue a Omni no es la generación en sí — es la forma en que se edita. En lugar de ajustar parámetros técnicos o recortar clips manualmente, el usuario describe los cambios en lenguaje natural. "Haz que esa escultura de metal sea de burbujas", y el modelo transforma el material mientras mantiene al personaje caminando a través de ella sin deformarse.

Puedes subir un video tuyo desde la cámara del celular, aplicar una plantilla con un clic y modificar cualquier elemento de la escena mediante una instrucción. Un círculo se convierte en un agujero negro. Un paseo vespertino cobra vida con efectos cinemáticos. La continuidad de personajes y escenarios se mantiene a lo largo de múltiples ediciones, algo que los modelos de video generativo anteriores no lograban de forma confiable.

Avatar personalizado y disponibilidad inmediata

Omni también incluye una función de avatar que permite crear una versión digital del usuario — con su apariencia y voz — a partir de un breve registro en la app de Gemini. El proceso es similar al de Sora: sonreír a la cámara y leer unos números para que el sistema construya un modelo tridimensional rostro.

El primer modelo de la familia es Gemini Omni Flash, disponible ya para suscriptores de Google AI Plus, Pro y Ultra a través de la app de Gemini y Google Flow. También es gratuito en YouTube Shorts Remix y en la app de YouTube Create para usuarios mayores de 18 años. Cada video generado incluye de forma imperceptible una marca de agua SynthID que permite verificar su origen artificial desde Chrome, Search o la propia app de Gemini.

La familia Omni recién comienza

Omni Flash es solo la primera versión. Google confirmó que Omni Pro llegará antes de fin de año con capacidades expandidas. A futuro, el modelo no se limitará a generar video: la intención es que pueda producir cualquier tipo de salida — imágenes, audio, simulaciones — desde cualquier tipo de entrada.

Con 900 millones de usuarios activos mensuales en la app de Gemini, Google no está lanzando una herramienta experimental para investigadores. Está integrando la creación de contenido directamente en el ecosistema que la gente ya usa todos los días.

Gemini Omni: Google crea un modelo que genera video desde cualquier cosa

No es text-to-video: es cualquier cosa a video

Edición conversacional: el verdadero diferencial

Avatar personalizado y disponibilidad inmediata

La familia Omni recién comienza

Fuentes

¿Te interesó este análisis?