熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我們呈現了 Self-Flow 的研究預覽:一種可擴展的多模態生成模型訓練方法。
多模態生成需要跨模態的端到端學習:圖像、視頻、音頻、文本——不受外部模型在表示學習上的限制。Self-Flow 通過自我監督的流匹配來解決這個問題,並在各模態之間高效擴展。
結果:
• 在各模態之間的收斂速度提高了最多 2.8 倍。
• 改善了視頻的時間一致性
• 更清晰的文本渲染和排版
這是我們邁向多模態視覺智能的基礎研究。

Self-Flow 提升了視頻生成的時間一致性。
4B 參數的多模態模型在 600 萬個視頻上進行訓練。
更清晰的排版和文本渲染。
基於2億張圖片訓練的4B參數多模態模型。


從單一模型生成聯合視頻音頻(開啟聲音)
基於200萬對音頻視頻訓練的4B參數多模態模型。
Self-Flow 開啟了通往世界模型的道路:將視覺可擴展性與語義抽象結合,用於規劃和理解。
這是來自一個 675M 參數模型的行動預測。
148
熱門
排行
收藏
