Arnês Ideia de meta-benchmark: Uma coleção de aproveitamentos básicos de agentes (AGENTS.md, documentação, habilidades, ganchos) que encapsulam aplicações não triviais, cada uma com um único prompt para terraformar a aplicação de uma vez só, começando do zero. Quando novos agentes ou modelos de codificação são lançados, podemos rodar contra o harness para comparar diretamente com versões anteriores dos modelos. "Este modelo escreveu um navegador do zero a partir do chicote padrão com X% de completude de características e apenas Y linhas de código em Z horas para $XYZ." Imagine ver esse Cursor do navegador se desenvolvendo sob a ótica de cada atualização de modelo subsequente. Quão bom era o código? Quão rápido era o renderizador? Quão completo estava o conjunto de recursos? Quanto tempo o agente teve que funcionar? Qual foi o custo total das fichas? É meio que um CSS Zen Garden (que fez muito para avançar os padrões do navegador) para harnesses de agentes. Sinto que todos nós já experimentamos a diferença no Codex 5.4 Extra High (se não, pare de ler este post e experimente imediatamente), mas ainda não temos como capturar em um benchmark a experiência qualitativa de usá-lo como desenvolvedor, especialmente para medidas como arquitetura e qualidade de código.