Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BREAKING: Alibaba testet 18 AI-kodingsagenter på 100 ekte kodebaser, over 233 dager hver. De mislyktes spektakulært.
Det viser seg at det er lett å bestå tester én gang. Å opprettholde kode i 8 måneder uten å ødelegge alt er der AI-en kollapser fullstendig.
SWE-CI er den første benchmarken som måler langsiktig kodevedlikehold i stedet for engangsfeilrettinger. Hver oppgave følger 71 påfølgende commits av reell utvikling.
75 % av modellene bryter tidligere fungerende kode under vedlikehold. bare Claude Opus 4.5 og 4.6 holder seg over 50 % null-regresjonsrate. Alle andre modeller akkumulerer teknisk gjeld som akkumuleres for hver eneste iterasjon.
Her kommer den brutale delen:
- HumanEval og SWE-bench-måling «fungerer det akkurat nå»
- SWE-CI måler «fungerer det fortsatt etter 8 måneder med endringer»
Agenter optimalisert for snapshot-testing skriver sprø kode som består tester i dag, men blir helt uvedlikeholdbar i morgen.
de bygde EvoScore for å veie senere iterasjoner tyngre enn de tidlige. Agenter som ofrer kodekvalitet for raske seire blir straffet når konsekvensene bygger seg opp.
fortellingen om AI-koding ble nettopp mer ærlig.
De fleste modeller kan skrive kode. Nesten ingen klarer å opprettholde den.

Topp
Rangering
Favoritter
