O Flash Gemini 3 atualmente apresenta a maior taxa de sucesso do OpenClaw no PinchBench, com 95,1%. PinchBench é um benchmark aberto que avalia como os modelos se comportam com o OpenClaw em cenários do mundo real. Ele foca no uso prático, e não em testes de capacidade isolados. As tarefas incluem escrever código, gerenciar arquivos, agendamento e pesquisa. O PinchBench analisa coisas como: - Uso de ferramentas. O modelo consegue chamar as ferramentas certas com os parâmetros certos? - Raciocínio em múltiplos passos. Ele consegue encadear ações para completar tarefas complexas? - Bagunça do mundo real. Ele consegue lidar com instruções ambíguas e informações incompletas? - Resultados práticos. Ele realmente criou o arquivo, enviou o e-mail ou marcou a reunião? Tabela completa abaixo. 1/2