BREAKING: Alibaba testet 18 AI-kodingsagenter på 100 ekte kodebaser, over 233 dager hver. De mislyktes spektakulært. Det viser seg at det er lett å bestå tester én gang. Å opprettholde kode i 8 måneder uten å ødelegge alt er der AI-en kollapser fullstendig. SWE-CI er den første benchmarken som måler langsiktig kodevedlikehold i stedet for engangsfeilrettinger. Hver oppgave følger 71 påfølgende commits av reell utvikling. 75 % av modellene bryter tidligere fungerende kode under vedlikehold. bare Claude Opus 4.5 og 4.6 holder seg over 50 % null-regresjonsrate. Alle andre modeller akkumulerer teknisk gjeld som akkumuleres for hver eneste iterasjon. Her kommer den brutale delen: - HumanEval og SWE-bench-måling «fungerer det akkurat nå» - SWE-CI måler «fungerer det fortsatt etter 8 måneder med endringer» Agenter optimalisert for snapshot-testing skriver sprø kode som består tester i dag, men blir helt uvedlikeholdbar i morgen. de bygde EvoScore for å veie senere iterasjoner tyngre enn de tidlige. Agenter som ofrer kodekvalitet for raske seire blir straffet når konsekvensene bygger seg opp. fortellingen om AI-koding ble nettopp mer ærlig. De fleste modeller kan skrive kode. Nesten ingen klarer å opprettholde den.