| Principales ventajas | Imagen a video + Sincronización de audio nativa, coherencia y velocidad | Entrada multimodal (referencia de imagen/video/audio), fidelidad de personajes | Control del primer y último fotograma, edición de video, flexibilidad |
| Resolución | 480p / 720p | 720p / 1080p | 720p / 1080p |
| Duración | 1-15 segundos | 1-15 segundos | 2-15 segundos |
| Audio nativo | Sí (diálogo, sincronización labial, efectos de sonido y música de fondo en una sola generación) | Sí (multilingüe, a nivel de fonema) | Sí (compatible con control por audio) |
| Opciones de entrada | Principalmente de imagen a video (imagen única + prompt) | Multimodal (hasta 9 imágenes + 3 videos + 3 pistas de audio) | Primer y último fotograma, imágenes de referencia, múltiples modos de edición |
| Ranking en Arena (I2V 720p) | Pregunta frecuente n.º 1 | #2 o cerca del #1 | De medio a alto |
| Casos de uso ideales | Animación rápida de imágenes, videos cortos con voz, validación de conceptos | Storyboards complejos, contenido coherente con múltiples referencias | Control narrativo preciso, edición / extensión de video |