DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Acest grafic îți arată discret noul manual pentru companiile de programare AI și nimeni nu vorbește despre el. Cogniția și Cursor au început ambele ca wrapper-uri care rulau pe Claude și GPT. Acum uită-te la acest reper. SWE-ul cogniției - 1,6 la 51,7%. Cursor's Composer - 1,5 la 50,8%. Ambele se află la distanță de lovitură de Claude Opus 4.6 la 53,6% și GPT-5.3-Codex la 56,8%. Niciuna dintre companii nu a antrenat un model de bază de la zero. Ambele au folosit modele de bază open-source și au aplicat învățarea prin întărire în medii reale de programare. Swyx de la Cognition a spus asta direct la Hacker News: "calitățile modelului de bază sunt din ce în ce mai puțin importante, atâta timp cât este suficient de bun, pentru că atunci RL-ul și antrenamentul post-antrenament preiau controlul și reprezintă întregul punct al diferențierii." Asta e teza. Modelul de bază este o marfă. Pipeline-ul RL antrenat pe harțul tău specific de agenți, tiparele de utilizare a uneltelor tale, sesiunile reale ale utilizatorilor este stratul defensabil. Cognition a antrenat SWE-1.6 pe hamurile Cascade cu două ordine de mărime mai mult calcul RL decât SWE-1.5. Cursor antrena Composer în medii IDE live cu comenzi de editare de fișiere, căutare semantică și terminal. Amândoi au co-proiectat modelul și produsul împreună. Matematica de pe salt spune povestea. SWE-1.5 a obținut 40,1%. SWE-1.6 obține 51,7%. Același model de bază. Aceeași inferență de 950 tok/s la Cerebras. Întreaga îmbunătățire de 11,6 puncte a venit din rețete RL mai bune și mai mult calcul. Aceasta este o rată de îmbunătățire mai rapidă decât cea pe care o obțin majoritatea laboratoarelor de bază din scalarea pre-antrenament. Acestea sunt două companii de 10 miliarde de dolari (Cognition la 10,2 miliarde, Cursor la 29,3 miliarde) care converg independent la aceeași concluzie: nu este nevoie să construiești GPT-5 pentru a concura cu GPT-5 la programare. Ai nevoie de RL la scară, pe o bază suficient de bună, co-proiectată cu infrastructura agenților tăi. Stratul de viteză contează și el. Cogniția funcționează la 950 tok/s prin Cerebras. Compozitor rulează la 250 tok/s. În fluxurile de lucru agențice unde modelul se repetă de zeci de ori pe sarcină, acea diferență de 4x de viteză se adună în experiențe de utilizator semnificativ diferite. Cogniția înseamnă viteza de pariere, iar acuratețea învinge doar acuratețea. Întrebarea care ar trebui să îngrijoreze OpenAI și Anthropic este: dacă două startup-uri pot ajunge la 5 puncte de cele mai bune modele ale tale folosind RL pe baze open-source, ce se întâmplă când bazele open-source devin mai bune? Fiecare îmbunătățire la Llama sau Qwen curge direct în pipeline-ul Cognition and Cursor. Laboratoarele de fundație practic își subvenționează propria concurență.

Limită superioară

Clasament

Favorite