热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Gemini 3 Flash 目前在 PinchBench 上显示出 OpenClaw 的最高成功率,为 95.1 %。
PinchBench 是一个开放基准,评估模型在现实场景中使用 OpenClaw 的表现。它侧重于实际使用,而不是孤立的能力测试。
任务包括编写代码、管理文件、调度和研究。
PinchBench 关注以下方面:
- 工具使用。模型能否使用正确的参数调用正确的工具?
- 多步骤推理。它能否将动作串联起来完成复杂任务?
- 现实世界的复杂性。它能否处理模糊的指令和不完整的信息?
- 实际结果。它是否真的创建了文件、发送了电子邮件或安排了会议?
完整排行榜如下。
1/2

热门
排行
收藏
