熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Gemini 3 Flash 目前在 PinchBench 上顯示出 OpenClaw 的最高成功率,達到 95.1 %。
PinchBench 是一個開放的基準測試,評估模型在現實世界場景中使用 OpenClaw 的表現。它專注於實際使用,而非孤立的能力測試。
任務包括編寫代碼、管理文件、排程和研究。
PinchBench 會考慮以下幾點:
- 工具使用。模型能否用正確的參數調用正確的工具?
- 多步推理。它能否鏈接行動以完成複雜任務?
- 現實世界的混亂。它能否處理模糊的指示和不完整的信息?
- 實際結果。它是否真的創建了文件、發送了電子郵件或排定了會議?
完整的排行榜如下。
1/2

熱門
排行
收藏
