熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
🚨 NVIDIA 剛剛做到了不可能的事。
他們在 10 兆個標記上訓練了一個 120 億參數的語言模型,完全使用 4 位精度。
這個模型叫做 NVFP4,可能會重新定義前沿 AI 模型的訓練方式。
這為什麼重要:
• NVFP4 提供 2–3 倍更快的數學吞吐量,並且比 FP8 少 50% 的內存
• 準確性?幾乎相同。(MMLU-Pro: FP8 = 62.62%,NVFP4 = 62.58%)
• 穩定性問題?通過隨機哈達瑪變換、隨機取整和 2D 縮放解決
• 完全在 NVIDIA Blackwell GPU 上訓練,首次 4 位運行在 10T 標記上穩定
這是大型 4 位預訓練成功的首次示範,且沒有損失準確性。
下一代前沿模型將會更快、更便宜、更環保,且不妥協。

熱門
排行
收藏
