Gemini 3 Flash 目前在 PinchBench 上显示出 OpenClaw 的最高成功率,为 95.1 %。 PinchBench 是一个开放基准,评估模型在现实场景中使用 OpenClaw 的表现。它侧重于实际使用,而不是孤立的能力测试。 任务包括编写代码、管理文件、调度和研究。 PinchBench 关注以下方面: - 工具使用。模型能否使用正确的参数调用正确的工具? - 多步骤推理。它能否将动作串联起来完成复杂任务? - 现实世界的复杂性。它能否处理模糊的指令和不完整的信息? - 实际结果。它是否真的创建了文件、发送了电子邮件或安排了会议? 完整排行榜如下。 1/2