我們呈現了 Self-Flow 的研究預覽:一種可擴展的多模態生成模型訓練方法。 多模態生成需要跨模態的端到端學習:圖像、視頻、音頻、文本——不受外部模型在表示學習上的限制。Self-Flow 通過自我監督的流匹配來解決這個問題,並在各模態之間高效擴展。 結果: • 在各模態之間的收斂速度提高了最多 2.8 倍。 • 改善了視頻的時間一致性 • 更清晰的文本渲染和排版 這是我們邁向多模態視覺智能的基礎研究。
Self-Flow 提升了視頻生成的時間一致性。 4B 參數的多模態模型在 600 萬個視頻上進行訓練。
更清晰的排版和文本渲染。 基於2億張圖片訓練的4B參數多模態模型。
從單一模型生成聯合視頻音頻(開啟聲音) 基於200萬對音頻視頻訓練的4B參數多模態模型。
Self-Flow 開啟了通往世界模型的道路:將視覺可擴展性與語義抽象結合,用於規劃和理解。 這是來自一個 675M 參數模型的行動預測。
148