Bài kiểm tra hiệu suất PinchBench đánh giá hiệu suất của các mô hình ngôn ngữ lớn AI trong nhiệm vụ đại lý OpenClaw. Kết quả cho thấy Gemini 3 Flash dẫn đầu với tỷ lệ thành công 95.1% trong việc xử lý nhiệm vụ OpenClaw, trong khi minimax-m2.1 và kimi-k2.5 lần lượt đứng ở vị trí thứ 2 và 3 với 93.6% và 93.4%. Claude Sonnet 4.5 đạt 92.7%, còn GPT-4o là 85.2%.