DApp Store | Centrum Web3 pro události a hry

Populární témata

NOVINKA: Alibaba testovala 18 AI kódujících agentů na 100 skutečných kódových bázích, každý pokrývající 233 dní. Neuspěli spektakulárně. Ukázalo se, že jednou je snadné projít testy. Udržování kódu 8 měsíců bez rozbití všeho je místo, kde AI úplně selhává. SWE-CI je první benchmark, který měří dlouhodobou údržbu kódu místo jednorázových oprav chyb. Každý úkol sleduje 71 po sobě jdoucích commitů skutečné evoluce. 75 % modelů během údržby poruší dříve funkční kód. pouze Claude Opus 4.5 a 4.6 zůstávají nad 50% nulovou regresi. Každý jiný model hromadí technický dluh, který se s každou iterací zvyšuje. Tady je ta krutá část: - HumanEval a SWE-bench měření "funguje to právě teď" - SWE-CI měří "funguje to stále po 8 měsících změn" Agenti optimalizovaní pro testování snímků píší křehký kód, který dnes testy projde, ale zítra se stane zcela neudržitelným. EvoScore postavili tak, aby pozdější verze vážily těžší než ty první. Agenti, kteří obětují kvalitu kódu kvůli rychlým výhrám, jsou potrestáni, když se následky sčítají. narativ o AI kódování je teď upřímnější. Většina modelů umí psát kód. téměř nikdo ji nedokáže udržet.

Top

Hodnocení

Oblíbené