Modelos

Google anuncia IA para crear imágenes en segundos y editar videos por comando

Por

30 de junio de 2026

En resumen

Google presentó Nano Banana 2 Lite, un modelo que genera imágenes en hasta 4 segundos, y Gemini Omni Flash, orientado a la creación y edición de videos por texto o voz. La apuesta importa porque reduce el costo y el tiempo de producción visual, acercando herramientas avanzadas a creadores, empresas y flujos automatizados.

Google anunció dos nuevos modelos de inteligencia artificial orientados a la creación visual: Nano Banana 2 Lite, enfocado en generar imágenes en pocos segundos, y Gemini Omni Flash, diseñado para crear y editar videos a partir de comandos de texto o voz. La información fue publicada originalmente por Canaltech, que destacó la promesa de generación de imágenes en hasta 4 segundos y la edición de videos mediante lenguaje natural.

La novedad refuerza una dirección clara del mercado de IA generativa: menos demostraciones aisladas y más herramientas capaces de integrarse en flujos reales de producción. En lugar de apuntar solo a imágenes de alta complejidad o videos largos, los modelos parecen priorizar velocidad, costo y consistencia, atributos importantes para publicidad, redes sociales, prototipado, comercio electrónico, educación y producción interna de empresas.

Imágenes en segundos y menor costo por generación

Nano Banana 2 Lite fue presentado como una versión más rápida y eficiente para la generación de imágenes a escala. Según el resumen de la noticia base, el modelo puede crear imágenes a partir de prompts de texto en hasta 4 segundos, con foco en respuestas rápidas, mayor consistencia y mejor legibilidad de textos insertados dentro de las imágenes, una dificultad recurrente en los sistemas de generación visual.

Otro punto relevante es el precio. El modelo Lite costaría cerca de US$ 0,034 por imagen en resolución 1K, mientras que Nano Banana 2 rondaría los US$ 0,067 por imagen en la misma resolución. La diferencia puede parecer pequeña en un uso individual, pero se vuelve significativa cuando se aplica a miles o millones de generaciones, como en pruebas de campañas, personalización de piezas y automatización de catálogos.

Esta reducción de costo sugiere que Google quiere competir no solo en calidad creativa, sino también en la capa operativa de la IA visual. Para las empresas, el valor de un modelo no está solo en producir la mejor imagen puntual, sino en permitir muchos intentos rápidos, con previsibilidad, integración por API y presupuesto controlado.

Los videos por voz entran en el centro de la disputa

Gemini Omni Flash amplía la apuesta hacia el video, un área más cara y técnicamente exigente. El modelo permite generar videos cortos y editar escenas usando comandos de texto o voz, además de combinar texto, imágenes y videos para preservar la consistencia del contenido. En la práctica, esto puede reducir la necesidad de interfaces complejas para tareas simples, como cambiar el estilo de una escena, ajustar un encuadre o crear una variación corta de una pieza.

La edición por voz es especialmente importante porque acerca la producción audiovisual a una lógica conversacional. En lugar de manipular líneas de tiempo, capas y parámetros técnicos, el usuario puede pedir cambios en lenguaje común. Esto no elimina las herramientas profesionales, pero puede acelerar etapas iniciales, borradores, versiones para aprobación y contenidos de baja o media complejidad.

El uso del conocimiento del mundo de Gemini también indica un intento de hacer que el modelo sea más consciente del contexto solicitado. En los sistemas de video, la coherencia temporal, la plausibilidad de la escena y la continuidad visual siguen siendo desafíos relevantes. Si la integración con Gemini ayuda a interpretar mejor objetos, acciones, lugares y relaciones entre elementos, el resultado puede ser menos aleatorio y más útil para la producción recurrente.

Qué cambia para creadores y empresas

Creación más rápida de variaciones visuales para anuncios, publicaciones y materiales internos.
Menor costo por imagen, lo que favorece pruebas a gran escala y automatización.
Edición de videos mediante comandos naturales, reduciendo barreras para usuarios no técnicos.
Mayor presión competitiva sobre otras plataformas de IA visual y suites creativas tradicionales.

Para creadores independientes, la promesa es ganar velocidad. Una imagen generada en pocos segundos cambia la dinámica de experimentación: el usuario puede probar más estilos, encuadres y mensajes antes de elegir una dirección. Para los equipos de marketing, la ventaja está en transformar briefs en alternativas visuales rápidamente, sin depender de ciclos largos para cada pequeña variación.

Para desarrolladores, los modelos más baratos y rápidos también vuelven viables productos que antes habrían sido demasiado costosos. Herramientas de diseño asistido, editores de video simplificados, plataformas de generación de contenido para vendedores, sistemas de personalización de imágenes y prototipos visuales pueden incorporar generación en tiempo casi real, siempre que los resultados sean confiables y los costos sigan siendo previsibles.

Aun así, la adopción dependerá de factores que van más allá de la velocidad. Derechos de autor, transparencia sobre contenido sintético, seguridad frente a usos abusivos, control de estilo y consistencia de marca siguen siendo puntos sensibles. Las empresas que trabajan con imagen institucional deberán evaluar si los modelos ofrecen calidad suficiente sin introducir errores visuales, textos incorrectos o elementos que comprometan la comunicación.

Google acelera la carrera por la IA multimodal

Los lanzamientos también muestran cómo la competencia en IA se está desplazando hacia sistemas multimodales, capaces de trabajar con texto, imagen, audio y video dentro de una misma experiencia. Google ya venía posicionando a Gemini como una familia de modelos con fuerte integración entre modalidades, y las nuevas herramientas refuerzan esa estrategia al apuntar a una producción visual rápida, conversacional y escalable.

La noticia, por lo tanto, no trata solo de una imagen que aparece en 4 segundos. Apunta a una fase en la que la IA generativa empieza a medirse por productividad concreta: cuánto cuesta, cuánto tarda, qué tan fácil es editar y qué tan bien se mantiene consistente el resultado entre versiones. Si Google logra combinar estos atributos con una integración amplia en sus productos y APIs, la creación visual automatizada puede dejar de ser un recurso experimental y convertirse en infraestructura cotidiana de producción.

Nuestro prisma

El movimiento de Google es relevante porque trata la velocidad y el costo como partes centrales de la calidad de un modelo, no como detalles secundarios. En imagen y video, la disputa tiende a salir del espectáculo técnico y entrar en el terreno de la producción a escala, donde los segundos y los centavos por generación cambian la viabilidad de productos enteros. La edición por voz también reposiciona el video como una tarea más accesible, aunque todavía dependiente de controles sólidos para evitar resultados imprecisos, inconsistentes o jurídicamente problemáticos. En la práctica, el lanzamiento presiona a competidores y suites creativas a ofrecer flujos más conversacionales, económicos e integrados.

Fuente: Canaltech

Preguntas frecuentes

¿Qué es Nano Banana 2 Lite?

Es un nuevo modelo de IA de Google orientado a la generación rápida de imágenes a partir de comandos de texto, con la promesa de entregar resultados en hasta 4 segundos.

¿Qué hace Gemini Omni Flash?

El modelo permite crear videos cortos y editar escenas usando comandos de texto o voz, combinando texto, imagen y video para mantener la consistencia visual.

¿Por qué son importantes estos lanzamientos?

Pueden hacer que la creación de imágenes y videos con IA sea más rápida, económica e integrada a los flujos de trabajo de empresas, desarrolladores y creadores.

Recibe Radar de IA todos los días

Las noticias de inteligencia artificial que importan — con nuestro prisma y siempre con las fuentes. Gratis.

Google anuncia IA para crear imágenes en segundos y editar videos por comando

Imágenes en segundos y menor costo por generación

Los videos por voz entran en el centro de la disputa

Qué cambia para creadores y empresas

Google acelera la carrera por la IA multimodal

Preguntas frecuentes

Recibe Radar de IA todos los días

RECOMENDACIONES DEL EDITOR

ENTRADAS POPULARES

Los chatbots de IA aún tienden a la izquierda en preguntas...

Blip dice que la IA resuelve hasta el 90% de las...

Radar de modelos de IA 2026: todos los modelos con precios,...

CATEGORÍA POPULAR

Imágenes en segundos y menor costo por generación

Los videos por voz entran en el centro de la disputa

Qué cambia para creadores y empresas

Google acelera la carrera por la IA multimodal

Preguntas frecuentes

Recibe Radar de IA todos los días

Artículos relacionadosMás del autor

Base44 lanza modelo propio mientras las startups de IA buscan defensa competitiva

Z.ai dice que GLM-5.2 rivaliza con Mythos en pruebas de ciberseguridad

Un tutorial usa Open-SWE-Traces de NVIDIA para crear datos de fine-tuning

RECOMENDACIONES DEL EDITOR

ENTRADAS POPULARES

Los chatbots de IA aún tienden a la izquierda en preguntas...

Blip dice que la IA resuelve hasta el 90% de las...

Radar de modelos de IA 2026: todos los modelos con precios,...

CATEGORÍA POPULAR

Artículos relacionados Más del autor