DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Questo grafico sta silenziosamente mostrando il nuovo playbook per le aziende di coding AI e nessuno ne sta parlando. Cognition e Cursor sono entrambe partite come wrapper che girano su Claude e GPT. Ora guarda questo benchmark. SWE-1.6 di Cognition al 51,7%. Composer-1.5 di Cursor al 50,8%. Entrambi a distanza ravvicinata da Claude Opus 4.6 al 53,6% e GPT-5.3-Codex al 56,8%. Nessuna delle due aziende ha addestrato un modello di base da zero. Entrambe hanno preso modelli di base open-source e applicato l'apprendimento per rinforzo in ambienti di coding reali. Swyx di Cognition lo ha detto direttamente su Hacker News: “è sempre meno importante la qualità del modello di base, purché sia abbastanza buono, perché poi l'RL e il post-addestramento prendono il sopravvento e sono l'intero punto di differenziazione.” Questa è la tesi. Il modello di base è una merce. Il pipeline RL addestrato sul tuo specifico harness dell'agente, i tuoi schemi di utilizzo degli strumenti, le tue sessioni utente reali è lo strato difendibile. Cognition ha addestrato SWE-1.6 sul loro harness Cascade con due ordini di grandezza in più di calcolo RL rispetto a SWE-1.5. Cursor ha addestrato Composer all'interno di ambienti IDE dal vivo con editing di file, ricerca semantica e comandi terminali. Entrambi hanno co-progettato il modello e il prodotto insieme. La matematica sul salto racconta la storia. SWE-1.5 ha ottenuto il 40,1%. SWE-1.6 ottiene il 51,7%. Stesso modello di base. Stessa inferenza a 950 tok/s su Cerebras. L'intero miglioramento di 11,6 punti è venuto da migliori ricette RL e più calcolo. Questo è un tasso di miglioramento più veloce rispetto a quello che la maggior parte dei laboratori di fondazione sta ottenendo dalla scalabilità del pre-addestramento. Queste sono due aziende da oltre 10 miliardi di dollari (Cognition a 10,2 miliardi di dollari, Cursor a 29,3 miliardi di dollari) che convergono indipendentemente sulla stessa conclusione: non è necessario costruire GPT-5 per competere con GPT-5 nel coding. Hai bisogno di RL su larga scala sopra un modello di base abbastanza buono, co-progettato con la tua infrastruttura per agenti. Anche il layer di velocità è importante. Cognition funziona a 950 tok/s attraverso Cerebras. Composer funziona a 250 tok/s. Nei flussi di lavoro agentici dove il modello si ripete dozzine di volte per compito, quel divario di velocità di 4 volte si traduce in esperienze utente significativamente diverse. Cognition sta scommettendo che velocità più accuratezza batte solo accuratezza. La domanda che dovrebbe preoccupare OpenAI e Anthropic: se due startup possono avvicinarsi a 5 punti dai vostri migliori modelli utilizzando RL su basi open-source, cosa succede quando le basi open-source migliorano? Ogni miglioramento a Llama o Qwen fluisce direttamente nella pipeline di Cognition e Cursor. I laboratori di fondazione stanno essenzialmente sovvenzionando la propria concorrenza.

Principali

Ranking

Preferiti