🚨 突發消息:一位谷歌研究員和一位圖靈獎得主剛發表了一篇論文,揭示了人工智慧的真正危機。 這不是訓練。是推理。而我們使用的硬體從未為此設計。 這篇論文的作者是馬小宇和大衛·帕特森。被IEEE計算機接受,2026年。 沒有炒作。沒有產品發布。只是冷靜地分析為什麼服務大型語言模型在硬體層面上根本是錯誤的。 核心論點非常殘酷: → GPU FLOPS從2012年到2022年增長了80倍 → 在同一時期,記憶體帶寬僅增長了17倍 → 每GB的HBM成本在上升,而不是下降 → 解碼階段是受記憶體限制,而不是計算限制 → 我們在為訓練設計的晶片上構建推理 最瘋狂的部分是: OpenAI在37億美元的收入中損失了大約50億美元。瓶頸不是模型質量。是為每個用戶提供每個標記的成本。推理正在讓這些公司耗盡資金。 而且五個趨勢同時使情況變得更糟: → 像DeepSeek-V3這樣的MoE模型擁有256個專家,導致記憶體爆炸 → 推理模型在回答之前生成大量思考鏈 → 多模態輸入(圖像、音頻、視頻)壓倒文本 → 長上下文窗口使KV快取緊張 → RAG管道每個請求注入更多上下文 他們提出的四個硬體轉變: → 高帶寬閃存:512GB堆疊,達到HBM級別的帶寬,每個節點的記憶體增加10倍 → 接近記憶體處理:邏輯晶片放置在記憶體旁邊,而不是在同一晶片上 → 3D記憶體-邏輯堆疊:垂直連接提供比HBM低2-3倍的功耗...