Gemini 3 Flash 目前在 PinchBench 上顯示出 OpenClaw 的最高成功率,達到 95.1 %。 PinchBench 是一個開放的基準測試,評估模型在現實世界場景中使用 OpenClaw 的表現。它專注於實際使用,而非孤立的能力測試。 任務包括編寫代碼、管理文件、排程和研究。 PinchBench 會考慮以下幾點: - 工具使用。模型能否用正確的參數調用正確的工具? - 多步推理。它能否鏈接行動以完成複雜任務? - 現實世界的混亂。它能否處理模糊的指示和不完整的信息? - 實際結果。它是否真的創建了文件、發送了電子郵件或排定了會議? 完整的排行榜如下。 1/2