Este gráfico está silenciosamente a mostrar-lhe o novo manual para empresas de codificação de IA e ninguém está a falar sobre isso. A Cognition e a Cursor começaram ambas como wrappers a funcionar em Claude e GPT. Agora veja este benchmark. O SWE-1.6 da Cognition está em 51.7%. O Composer-1.5 da Cursor está em 50.8%. Ambos estão a uma distância de ataque do Claude Opus 4.6 em 53.6% e do GPT-5.3-Codex em 56.8%. Nenhuma das empresas treinou um modelo base do zero. Ambas pegaram em modelos base de código aberto e aplicaram aprendizagem por reforço em ambientes de codificação reais. O Swyx da Cognition disse isso diretamente no Hacker News: “é cada vez menos importante as qualidades do modelo base, desde que seja bom o suficiente, porque então a RL e o pós-treinamento assumem e são o ponto de diferenciação.” Essa é a tese. O modelo base é uma mercadoria. O pipeline de RL treinado no seu agente específico, seus padrões de uso de ferramentas, suas sessões de usuários reais é a camada defensável. A Cognition treinou o SWE-1.6 no seu Cascade harness com duas ordens de magnitude mais computação de RL do que o SWE-1.5. A Cursor treinou o Composer dentro de ambientes IDE ao vivo com edição de arquivos, pesquisa semântica e comandos de terminal. Ambas co-desenharam o modelo e o produto juntas. A matemática sobre o salto conta a história. O SWE-1.5 marcou 40.1%. O SWE-1.6 marca 51.7%. Mesmo modelo base. Mesmo 950 tok/s de inferência na Cerebras. A melhoria total de 11.6 pontos veio de melhores receitas de RL e mais computação. Essa é uma taxa de melhoria mais rápida do que a maioria dos laboratórios de fundação está a obter com a escalabilidade do pré-treinamento. Estas são duas empresas de $10B+ (Cognition a $10.2B, Cursor a $29.3B) a convergir independentemente na mesma conclusão: não precisa de construir o GPT-5 para competir com o GPT-5 em codificação. Precisa de RL em escala em cima de uma base boa o suficiente, co-desenhada com a sua infraestrutura de agente. A camada de velocidade também importa. A Cognition opera a 950 tok/s através da Cerebras. O Composer opera a 250 tok/s. Em fluxos de trabalho agentes onde o modelo se repete dezenas de vezes por tarefa, essa diferença de velocidade de 4x se acumula em experiências de usuário significativamente diferentes. A Cognition está a apostar que velocidade mais precisão supera apenas a precisão. A questão que deve preocupar a OpenAI e a Anthropic: se duas startups conseguem chegar a 5 pontos dos seus melhores modelos usando RL em bases de código aberto, o que acontece quando as bases de código aberto melhoram? Cada melhoria no Llama ou Qwen flui diretamente para o pipeline da Cognition e da Cursor. Os laboratórios de fundação estão essencialmente a subsidiar a sua própria concorrência.