Gemini Omni Flash es el primer modelo de la familia Gemini Omni de Google, diseñado para crear y editar vídeo a partir de diferentes tipos de entrada. Desarrollado con el razonamiento multimodal de Gemini, puede utilizar referencias de texto, imágenes, vídeo y audio para ayudar a transformar metraje existente, generar nuevas escenas y crear resultados visuales más contextualizados.
Commercial useText to SpeechREST API
Model variant
Pricing
Gemini Omni audio asset creation does not consume credits.
Input
*
Basic Voice
Input description
Textarea description
Input description
Loading editor...
View expected fields (4)
audio_id:string*
name:string*
voice_description:string
example_dialogue:string
Output
text
Loading JSON viewer...
Input
Input description
Drag, paste, or click to upload
JPEG · PNG · WEBP · up to 20MB · max 1 files
Upload an image file to use as input for the API
Text
0 / 1
No items yet. Click Add to start.
Character Description
Loading editor...
View expected fields (4)
character_name:string
image_urls:array*
audio_ids:array
descriptions:string*
Output
text
Loading JSON viewer...
Input
Describe the image you want to generate.
Drag, paste, or click to upload
JPEG · PNG · WEBP · JPG · up to 10MB · max 7 files
Upload an image file to use as input for the API
Note: when video input is provided, the output duration is determined by the model automatically. This duration parameter will not take effect.
Text
0 / 3
No items yet. Click Add to start.
Audio ID list. Up to 3 ID is allowed.
Video ratio
Text
0 / 3
No items yet. Click Add to start.
Character ID list. Each character ID uses 1 image slot. Available character slots: 3/7. Remaining image slots: 5/7.
Output video resolution. Valid values: 720P(default), 1080P, 4k.
0 / 1
No items yet. Click Add to start.
Optional video input. Only 1 video is allowed and it uses 2 image slots.
Random seed. Range: [0, 2147483647]. If not specified, the system generates a seed automatically. Fixing the seed can improve reproducibility, but results may still vary due to the model’s stochasticity.
Loading editor...
View expected fields (9)
prompt:string*
image_urls:array
duration:string (4 | 6 | 8 | 10)
audio_ids:array
aspect_ratio:string (16:9 | 9:16)
character_ids:array
resolution:string (720p | 1080p | 4k)
video_list:array
seed:number
Output
video
Examples
Explore different use cases and parameter configurations
README.md
API de Gemini Omni Flash para la creación y edición de vídeo a partir de cualquier tipo de entrada
Desarrolla funciones de generación y edición de vídeo con la API de Google Gemini Omni Flash en EMix.ai, potenciadas por la creación a partir de cualquier tipo de entrada, instrucciones en lenguaje natural y resultados de vídeo guiados por referencias.
Conoce Google Gemini Omni Flash para la generación de vídeo a partir de cualquier tipo de entrada
Google Gemini Omni Flash es el primer modelo de la familia Gemini Omni, diseñado para llevar la capacidad de razonamiento de Gemini a la creación de vídeo a partir de distintos tipos de entrada. Puede utilizar referencias de texto, imágenes, vídeo y audio para generar o editar resultados de vídeo coherentes, logrando que el proceso creativo dependa menos de un solo prompt escrito. Con instrucciones en lenguaje natural, los usuarios pueden partir de materiales existentes, transformar escenas, ajustar detalles específicos y perfeccionar el resultado en varios turnos, manteniendo intacto el contexto general del vídeo. Esto hace que el modelo sea especialmente relevante para la creación de vídeo multimodal, la edición guiada por referencias, los vídeos explicativos y las herramientas creativas que necesitan una mayor comprensión de la escena. En EMix.ai, la API de Gemini Omni Flash pone esta capacidad al alcance de los desarrolladores que quieran integrar funciones de generación y edición de vídeo a partir de cualquier tipo de entrada en sus propios productos.
Características principales de la API de Gemini Omni Flash para la creación de vídeo a partir de cualquier entrada
La API de Gemini Omni Flash convierte la edición de vídeo en una conversación
La API de Gemini Omni Flash le da a la edición de vídeo un proceso más natural y basado en instrucciones. Los usuarios pueden describir los cambios que desean con palabras sencillas, como modificar el entorno, cambiar una acción, añadir un efecto o ajustar detalles visuales específicos. Esto convierte a la API de Gemini Omni Flash en la opción ideal para aplicaciones donde el contenido de vídeo existente necesita ser más fácil de transformar y controlar.
Reimagina tus vídeos existentes con la API de Google Gemini Omni Flash
El metraje existente puede convertirse en el punto de partida creativo para la API de Google Gemini Omni Flash. Un vídeo de origen puede transformarse en un mundo visual distinto, una nueva secuencia de acción o una escena más expresiva, manteniendo la conexión del clip original con el resultado final. Esto permite a las herramientas de vídeo ofrecer ediciones creativas que van más allá de los filtros básicos o los simples cambios de estilo.
Creación de vídeo multimodal con la API de Gemini Omni Flash
La API de Gemini Omni Flash está diseñada para la creación de vídeo a partir de múltiples tipos de entrada, entre los que se incluyen referencias de texto, imágenes, vídeo y audio. El texto puede definir la dirección creativa, las imágenes pueden guiar el aspecto visual, el vídeo puede aportar el contexto de la escena y las referencias de audio pueden ayudar a dar forma al ritmo o la atmósfera. Para conocer las entradas compatibles exactas, los requisitos de los archivos, los parámetros de la solicitud y los ajustes de generación, consulta la documentación más reciente de la API de EMix.ai.
La API de Google Gemini Omni Flash aporta conocimiento del mundo real a la generación de vídeo
La generación visual resulta más útil cuando la API de Google Gemini Omni Flash conecta el resultado creativo con el contexto del mundo real. Las instrucciones (prompts) que involucran física, ciencia, historia, significado cultural o lógica narrativa pueden producir resultados de vídeo que se perciben más fundamentados que la generación basada únicamente en el estilo. Esto es especialmente valioso para vídeos explicativos, escenas educativas, vídeos conceptuales y herramientas creativas impulsadas por la narrativa.
Control de vídeo basado en referencias en la API de Gemini Omni Flash
La API de Gemini Omni Flash puede usar referencias para guiar el sujeto, el estilo, el movimiento, la atmósfera o el comportamiento de la escena de un vídeo generado. Las imágenes aportan dirección visual, los clips de vídeo ofrecen contexto de movimiento o de la escena y las referencias de audio ayudan a definir la atmósfera del resultado. Esto ofrece a los usuarios un mayor control cuando el vídeo final debe mantenerse fiel a los materiales creativos existentes.
API de Gemini Omni Flash vs. Seedance, Kling y otros modelos de vídeo líderes
Gemini Omni Flash tiene un gran desempeño en Edición de vídeo, Texto a vídeo, Imagen a vídeo y Referencia a vídeo, lo que abarca las principales tareas que los desarrolladores pueden evaluar antes de elegir una API para funciones de generación o edición. Frente a modelos de vídeo como Seedance 2.0, Kling v3 Pro, HappyHorse, Grok Imagine Video y Wan 2.7, Gemini Omni Flash muestra resultados líderes en varias métricas de preferencia y cumplimiento de instrucciones, aunque las tareas individuales aún revelan diferentes puntos fuertes de cada modelo. Las puntuaciones a continuación se basan en las pruebas de referencia oficiales de Google DeepMind.
Tarea de evaluación
Métrica
Gemini Omni Flash
Seedance 2.0
HappyHorse
Kling v3 Pro
Grok Imagine Video
Wan 2.7
Video Editing
Overall Preference
1087
946
1044
1020
—
902
Video Editing
Instruction Following
1082
960
1036
1022
—
900
Text to Video
Overall Preference
1113
1070
957
999
913
948
Text to Video
Instruction Following
1108
1051
971
1000
919
951
Text to Video
Fast Motion
1050
1112
1025
1015
955
842
Image to Video
Overall Preference
1057
1003
1003
1053
1054
830
Reference to Video
Overall Preference
1004
996
—
—
—
—
Reference to Video
Speech Adherence
1028
972
—
—
—
—
Reference to Video
Reference Adherence
962
1038
—
—
—
—
Integra la API de Gemini Omni Flash en EMix.ai en cuatro pasos
Comienza a usar nuestro producto en unos simples pasos...
Paso 1: Crea una cuenta y obtén tu clave de API de Gemini Omni Flash
Regístrate o inicia sesión en EMix.ai, luego abre el panel de la API para generar una clave de API de Gemini Omni Flash. Esta clave conecta el entorno de tu aplicación con el acceso a la API de Google Gemini Omni Flash y debe guardarse en un lugar seguro durante el desarrollo y la implementación.
Paso 2: Prueba la API de Gemini Omni Flash con créditos disponibles
Usa los créditos disponibles para probar la API de Gemini Omni Flash antes de iniciar la integración completa. Los desarrolladores pueden ejecutar prompts de muestra, revisar los resultados generados y evaluar el rendimiento de la API de Gemini Omni Flash en escenarios de edición de vídeo, creación de texto a vídeo, vídeo guiado por imágenes y generación basada en referencias.
Paso 3: Prepara las entradas de los prompts y la configuración de la solicitud
Prepara el prompt, las referencias creativas, los ajustes de generación y la lógica de manejo de respuestas según tu caso de uso. La API de Gemini Omni Flash puede requerir distintos tipos de entrada dependiendo de la tarea; por ello, te recomendamos consultar los formatos de archivo exactos, los límites de entrada, los parámetros, los ajustes de salida y la compatibilidad del modelo en la documentación más reciente de la API de EMix.ai.
Paso 4: Conecta la API de Gemini Omni Flash a tu backend
Integra la API de Gemini Omni Flash a través de tu servicio backend para gestionar los prompts de los usuarios, las referencias subidas, los trabajos de generación, la comprobación del estado de las tareas y la entrega del resultado final del vídeo. La integración del lado del servidor ayuda a proteger las claves API, controlar el uso, gestionar reintentos y crear una experiencia más estable para los usuarios finales.
Dónde encaja la API de Gemini Omni Flash en los productos de vídeo reales
Crea apps de edición de vídeo con IA usando la API de Gemini Omni Flash
Las aplicaciones de edición de vídeo con IA pueden usar la API de Gemini Omni Flash para ayudar a los usuarios a convertir el metraje en bruto en clips creativos más pulidos. Un usuario puede subir un vídeo sencillo grabado con el móvil, describir el cambio deseado y generar un resultado con una nueva atmósfera, tratamiento visual o dirección de escena. Esto es útil para los productos que buscan reducir la fricción de la edición manual, al mismo tiempo que ofrecen a los usuarios el control creativo.
API de Google Gemini Omni Flash para herramientas para creadores de vídeos cortos
Las herramientas para creadores de vídeos cortos pueden usar la API de Google Gemini Omni Flash para generar clips estilo TikTok, YouTube Shorts, Reels y publicaciones de vídeo para redes sociales. A partir de un prompt, una imagen, un clip existente o una referencia visual, los creadores pueden crear escenas para tutoriales, anuncios, ganchos (hooks), contenido de tendencias o formatos narrativos rápidos.
Convierte los materiales del producto en vídeos de campaña con la API de Gemini Omni Flash
Las plataformas de comercio electrónico y las herramientas de marketing pueden utilizar la API de Gemini Omni Flash para transformar los materiales del producto en vídeos promocionales cortos. Una imagen del producto, una referencia lifestyle o una simple idea de campaña pueden convertirse en un teaser de lanzamiento, una demostración de funciones, una creatividad de temporada o un concepto de anuncio para redes sociales antes de la revisión final de la marca.
Productos para vídeos explicativos educativos impulsados por la API de Google Gemini Omni Flash
Los productos educativos pueden usar la API de Google Gemini Omni Flash para facilitar la comprensión de ideas complejas mediante escenas visuales. Los conceptos científicos, eventos históricos, procesos técnicos, materiales de formación o temas de clase pueden convertirse en vídeos cortos donde el movimiento, los objetos y el contexto ayudan a explicar la materia de forma más clara.
La API de Gemini Omni Flash en storyboards y previsualización de conceptos
Los equipos creativos pueden usar la API de Gemini Omni Flash para transformar ideas iniciales en previsualizaciones visuales antes de la producción. Un storyboard preliminar, un boceto de personajes, una referencia de escena o un concepto escrito pueden ayudar a generar un borrador de vídeo que muestre el tono, el ritmo, la ambientación y la dirección visual de un proyecto.
Herramientas de variación creativa para marcas con la API de Google Gemini Omni Flash
Los equipos de marketing pueden usar la API de Google Gemini Omni Flash para explorar múltiples direcciones de vídeo a partir de materiales creativos aprobados. Las imágenes de producto, el material audiovisual propio, las referencias de campaña y las guías de estilo originales pueden ayudar a generar distintos conceptos de escena, manteniendo el proceso creativo más cerca de los activos controlados por la marca.
¿Por qué elegir EMix.ai para la API de Gemini Omni Flash?
Acceso asequible a la API de Gemini Omni Flash para proyectos de generación de vídeo
EMix.ai ofrece una forma rentable de empezar a usar la API de Gemini Omni Flash para proyectos de generación y edición de vídeo. Los desarrolladores pueden probar direcciones creativas, evaluar la calidad de los resultados y planificar el uso con un mejor control de costes, lo que hace que la exploración inicial sea más práctica antes de una integración de producto a mayor escala.
Prueba la API de Google Gemini Omni Flash con créditos disponibles
Los créditos disponibles en EMix.ai ayudan a los equipos a evaluar la API de Google Gemini Omni Flash antes de comprometerse con un desarrollo completo. Durante la fase de prueba, los desarrolladores pueden ejecutar prompts de muestra, comparar diferentes tareas de vídeo y comprobar si los resultados se ajustan a las necesidades de su producto.
Documentación clara de la API de Gemini Omni Flash para una configuración más rápida
La documentación de la API de Gemini Omni Flash en EMix.ai ayuda a los desarrolladores a entender la configuración de la cuenta, la autenticación, la estructura de las peticiones, los inputs compatibles, el estado de las tareas y la gestión de respuestas. Una documentación clara reduce la fricción de configuración al pasar de una primera prueba a una conexión backend operativa.
La API de Gemini Omni Flash junto a otros modelos multimodales
EMix.ai ofrece a los desarrolladores acceso a múltiples modelos de IA para tareas de generación de vídeo, imagen, audio y multimodales. Los equipos pueden usar la API de Gemini Omni Flash para la creación de vídeos a partir de cualquier input y, al mismo tiempo, comparar otras opciones de modelos para funciones creativas adyacentes en la misma plataforma.
Soporte de integración de la API de Google Gemini Omni Flash desde la prueba hasta el lanzamiento
Los proyectos de la API de Google Gemini Omni Flash pueden implicar pruebas de prompts, preparación de inputs, conexión backend, gestión del estado de las tareas y entrega de resultados. EMix.ai ofrece soporte a los desarrolladores en estos pasos de implementación para que los equipos puedan avanzar desde los primeros experimentos hasta la preparación del lanzamiento con menos fricción de integración.
Servicio 24/7 de la API de Gemini Omni Flash para proyectos en curso
EMix.ai ofrece asistencia técnica 24/7 para los usuarios de la API de Gemini Omni Flash en caso de dudas sobre acceso, uso o integración. Esto es especialmente útil para equipos que ejecutan funciones de generación de vídeo en diferentes zonas horarias o que preparan lanzamientos a producción que requieren un soporte inmediato.
Preguntas frecuentes sobre la API de Gemini Omni Flash
Q
¿Qué es Gemini Omni Flash?
A
Gemini Omni Flash es el primer modelo de la familia Gemini Omni de Google, diseñado para la creación y edición de vídeo multimodal. Puede crear o transformar vídeos a partir de texto, imágenes, vídeo y referencias de audio mediante instrucciones en lenguaje natural, llevando la capacidad de razonamiento de Gemini a una generación de vídeo más contextualizada.
Q
¿Para qué sirve la API de Gemini Omni Flash?
A
La API de Gemini Omni Flash se utiliza para integrar las capacidades de Google Gemini Omni Flash en aplicaciones, plataformas y sistemas backend. Los desarrolladores pueden usarla para la edición de vídeo con IA, la creación de vídeo a partir de texto, la generación de vídeo a partir de imágenes, la transformación de vídeos existentes y la creación de vídeo basada en referencias.
Q
¿Qué tipos de entrada admite la API de Google Gemini Omni Flash?
A
La API de Google Gemini Omni Flash está diseñada para admitir entradas multimodales, como texto, imágenes, vídeo y referencias de audio. Estas entradas permiten definir el sujeto, la escena, el movimiento, el estilo o la atmósfera del resultado final. Para conocer los formatos de archivo exactos, los límites de tamaño y duración, y los parámetros de solicitud, consulta la documentación más reciente de la API de EMix.ai.
Q
¿Puede la API de Gemini Omni Flash editar vídeos existentes?
A
Sí. La API de Gemini Omni Flash puede usar un vídeo existente como punto de partida y aplicar instrucciones en lenguaje natural para cambiar la escena, la acción, el estilo visual, los objetos o los efectos. Esto la hace útil para editores de vídeo con IA y herramientas para creadores que necesitan una transformación de vídeo más flexible.
Q
¿La API de Gemini Omni Flash es solo para la generación de texto a vídeo?
A
No. La API de Gemini Omni Flash no se limita a la generación de texto a vídeo. También admite escenarios de conversión de imagen a vídeo, edición basada en vídeo y generación guiada por referencias, dependiendo de la configuración disponible de la API y los tipos de entrada compatibles.
Q
¿Cómo ayuda la API de Gemini Omni Flash a los productos de vídeo?
A
La API de Gemini Omni Flash permite a los productos de vídeo integrar edición en lenguaje natural, creación de vídeos cortos, clips de marketing, vídeos explicativos, vistas previas de storyboards y variaciones creativas. Es ideal cuando los usuarios necesitan crear contenido a partir de materiales existentes en lugar de empezar solo con un prompt de texto.
Q
¿Cómo deben redactar los desarrolladores los prompts para la API de Gemini Omni Flash?
A
Los prompts para la API de Gemini Omni Flash deben describir la escena, el sujeto, la acción, la dirección de la cámara, el estilo visual, el uso de referencias y los elementos que deben mantenerse constantes. Para las tareas de edición, es mejor indicar el cambio exacto de forma clara en lugar de escribir una instrucción general o vaga.
Q
¿Es asequible la API de Gemini Omni Flash en EMix.ai?
A
EMix.ai ofrece una forma rentable de probar y utilizar la API de Gemini Omni Flash para proyectos creativos de vídeo. Los desarrolladores pueden evaluar prompts con los créditos disponibles, comprobar la calidad de los resultados y planificar su uso antes de una integración más profunda, sin depender de los detalles de precios oficiales en el texto de la página.
Q
¿Por qué elegir EMix.ai para la API de Gemini Omni Flash?
A
EMix.ai ofrece acceso a la API de Gemini Omni Flash con créditos disponibles para pruebas, documentación de la API, opciones de modelos multimodales, soporte de integración y asistencia 24/7. Esto ayuda a los desarrolladores a pasar de las pruebas iniciales a la integración en el producto con una ruta de configuración más clara.