PinchBenchのベンチマークは、OpenClawプロキシタスクにおけるAI大規模言語モデルのパフォーマンスを評価します。 結果によると、Gemini 3 FlashはOpenClawタスクの処理成功率95.1%でトップに立っており、minimax-m2.1とkimi-k2.5はそれぞれ93.6%と93.4%で2位と3位にランクインしています。 Claude Sonnet 4.5は92.7%、GPT-4oは85.2%です。