| Hauptstärken | Bild-zu-Video + native Audiosynchronisation, Konsistenz, Geschwindigkeit | Multimodale Eingabe (Bild-/Video-/Audio-Referenzen), Charaktertreue | Kontrolle über ersten/letzten Frame, Videobearbeitung, Flexibilität |
| Auflösung | 480p / 720p | 720p / 1080p | 720p / 1080p |
| Videodauer | 1-15 Sekunden | 1-15 Sekunden | 2-15 Sekunden |
| Natives Audio | Ja (Dialoge, Lippensynchronisation, SFX und Hintergrundmusik in einer Generierung) | Ja (mehrsprachig, auf Phonem-Ebene) | Ja (unterstützt audio-gesteuerte Generierung) |
| Unterstützte Eingabeformate | Hauptsächlich Bild-zu-Video (Einzelbild + Prompt) | Multimodal (bis zu 9 Bilder + 3 Videos + 3 Audiodateien) | Erster/letzter Frame, Referenzbilder, Multi-Bearbeitungsmodi |
| Arena-Ranking (I2V 720p) | FAQ #1 | Platz 2 oder knapp hinter Platz 1 | Mittel bis hoch |
| Ideale Anwendungsfälle | Schnelle Bildanimationen, Talking-Head-Kurzvideos, Konzeptvalidierungen | Komplexe Storyboards, referenzübergreifend konsistente Inhalte | Präzise narrative Kontrolle, Videobearbeitung / -erweiterung |