🚨 NVIDIA 刚刚做到了不可能的事情。 他们在 10 万亿个标记上训练了一个 120 亿参数的语言模型,完全使用 4 位精度。 它被称为 NVFP4,可能会重新定义前沿 AI 模型的训练方式。 这为什么重要: • NVFP4 提供 2–3 倍更快的数学吞吐量和比 FP8 少 50% 的内存 • 准确性?几乎相同。(MMLU-Pro: FP8 = 62.62%,NVFP4 = 62.58%) • 稳定性问题?通过随机哈达玛变换、随机舍入和 2D 缩放解决 • 完全在 NVIDIA Blackwell GPU 上训练,首次 4 位运行在 10T 标记上稳定 这是大规模 4 位预训练成功的首次展示,且没有损失准确性。 下一代前沿模型将更快、更便宜、更环保,而不妥协。