Aproveitar Ideia de meta-benchmark: Uma coleção de harnesses básicos de agentes (AGENTS.md, docs, skills, hooks) que encapsulam aplicações não triviais, cada uma com um único prompt para terraformar a aplicação de uma só vez, começando do zero. Quando novos agentes de codificação ou modelos forem lançados, podemos rodar contra o harness para comparar diretamente com versões anteriores do modelo. "Este modelo escreveu um navegador do zero a partir do harness padrão do navegador com X% de completude de funcionalidades e apenas Y linhas de código em Z horas por $XYZ." Imagine ver esse navegador que o Cursor desenvolveu através da lente de cada atualização subsequente do modelo. Quão bom era o código? Quão rápido era o renderizador? Quão completa era a gama de funcionalidades? Quanto tempo o agente teve para rodar? Qual foi o custo total dos tokens? Uma espécie de CSS Zen Garden (que fez muito para impulsionar os padrões dos navegadores) para harnesses de agentes. Sinto que todos nós já experimentamos a diferença no Codex 5.4 Extra High (se não, pare de ler este post e experimente imediatamente), mas ainda não temos uma maneira de capturar em um benchmark a experiência qualitativa de usá-lo como desenvolvedor, particularmente para medidas como arquitetura e qualidade do código.