一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我們呈現了 Self-Flow 的研究預覽：一種可擴展的多模態生成模型訓練方法。多模態生成需要跨模態的端到端學習：圖像、視頻、音頻、文本——不受外部模型在表示學習上的限制。Self-Flow 通過自我監督的流匹配來解決這個問題，並在各模態之間高效擴展。結果： • 在各模態之間的收斂速度提高了最多 2.8 倍。 • 改善了視頻的時間一致性 • 更清晰的文本渲染和排版這是我們邁向多模態視覺智能的基礎研究。

Self-Flow 提升了視頻生成的時間一致性。 4B 參數的多模態模型在 600 萬個視頻上進行訓練。

更清晰的排版和文本渲染。基於2億張圖片訓練的4B參數多模態模型。

從單一模型生成聯合視頻音頻（開啟聲音）基於200萬對音頻視頻訓練的4B參數多模態模型。

Self-Flow 開啟了通往世界模型的道路：將視覺可擴展性與語義抽象結合，用於規劃和理解。這是來自一個 675M 參數模型的行動預測。

148