Představujeme výzkumnou ukázku projektu Self-Flow: škálovatelný přístup pro trénování multimodálních generativních modelů. Multimodální generování vyžaduje komplexní učení napříč modalitami: obraz, video, audio, text – bez omezení externími modely pro učení reprezentací. Self-Flow to řeší pomocí samo-řízeného porovnání flow, které efektivně škáluje napříč modalitami. Výsledky: • Až 2,8x rychlejší konvergence napříč modalitami. • Zlepšená časová konzistence ve videu • Ostřejší vykreslování textu a typografie To je základní výzkum na naší cestě k multimodální vizuální inteligenci.
Self-Flow zlepšuje časovou konzistenci při generování videa. 4B parametrový multimodální model trénovaný na 6M videích.
Čistší typografie a zpracování textu. Multimodální model s 4B parametry trénovaným na 200M obrázcích.
Společná generace videa a zvuku z jednoho modelu (zapnutý zvuk) Multimodální model s parametry 4B trénovaný na 2M párech audio-video.
Self-Flow otevírá cestu k modelům světa: kombinuje vizuální škálovatelnost se sémantickou abstrakcí pro plánování a porozumění. Zde je předpověď akce z modelu s parametry 675M.
117