Deze grafiek laat stilletjes de nieuwe strategie zien voor AI-coderingsbedrijven en niemand praat erover. Cognition en Cursor zijn beide begonnen als wrappers die draaien op Claude en GPT. Kijk nu naar deze benchmark. Cognition’s SWE-1.6 op 51,7%. Cursor’s Composer-1.5 op 50,8%. Beide zitten binnen handbereik van Claude Opus 4.6 op 53,6% en GPT-5.3-Codex op 56,8%. Geen van beide bedrijven heeft een fundamentmodel vanaf nul getraind. Beide hebben open-source basismodellen genomen en versterkend leren toegepast in echte coderingsomgevingen. Cognition’s Swyx zei het rechtstreeks op Hacker News: “het is steeds minder belangrijk wat de kwaliteiten van het basismodel zijn, zolang het goed genoeg is, want dan neemt het RL en de post-training het over en is dat het hele punt van differentiatie.” Dat is de stelling. Het basismodel is een commodity. De RL-pijplijn die is getraind op jouw specifieke agent-harnas, jouw gebruikspatronen van tools, jouw echte gebruikerssessies is de verdedigbare laag. Cognition heeft SWE-1.6 getraind op hun Cascade-harnas met twee ordes van grootte meer RL-rekenkracht dan SWE-1.5. Cursor heeft Composer getraind in live IDE-omgevingen met bestandsbewerking, semantische zoekopdrachten en terminalcommando's. Beide hebben het model en het product samen ontworpen. De wiskunde over de sprong vertelt het verhaal. SWE-1.5 scoorde 40,1%. SWE-1.6 scoort 51,7%. Zelfde basismodel. Zelfde 950 tok/s inferentie op Cerebras. De gehele verbetering van 11,6 punten kwam van betere RL-recepten en meer rekenkracht. Dat is een snellere verbeteringssnelheid dan de meeste fundamentlaboratoria krijgen van pre-training schaalvergroting. Dit zijn twee bedrijven van meer dan $10B (Cognition op $10,2B, Cursor op $29,3B) die onafhankelijk tot dezelfde conclusie komen: je hoeft geen GPT-5 te bouwen om te concurreren met GPT-5 op codering. Je hebt RL op schaal nodig bovenop een goed genoeg basis, samen ontworpen met jouw agent-infrastructuur. De snelheid laag is ook belangrijk. Cognition draait op 950 tok/s via Cerebras. Composer draait op 250 tok/s. In agentische workflows waar het model tientallen keren per taak draait, compenseert die 4x snelheidskloof in betekenisvol verschillende gebruikerservaringen. Cognition wedt dat snelheid plus nauwkeurigheid beter is dan alleen nauwkeurigheid. De vraag die OpenAI en Anthropic zou moeten verontrusten: als twee startups binnen 5 punten van jouw beste modellen kunnen komen met RL op open-source bases, wat gebeurt er dan als de open-source bases beter worden? Elke verbetering van Llama of Qwen vloeit rechtstreeks in de pijplijn van Cognition en Cursor. De fundamentlaboratoria subsidiëren in wezen hun eigen concurrentie.