DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

BREAKING: Alibaba testasi 18 tekoälykoodausagenttia 100 oikealla koodipohjalla, joista kukin kesti 233 päivää. he epäonnistuivat räikeästi. Kävi ilmi, että kokeiden läpäiseminen kerran on helppoa. Koodin ylläpito kahdeksan kuukautta rikkomatta kaikkea on se, missä tekoäly romahtaa täysin. SWE-CI on ensimmäinen vertailutesti, joka mittaa pitkäaikaista koodin ylläpitoa kertavirhekorjauksen sijaan. jokainen tehtävä seuraa 71 peräkkäistä todellista kehitystä commitia. 75 % malleista rikkoo aiemmin toimineen koodin huollon aikana. vain Claude Opus 4.5 ja 4.6 pysyvät yli 50 %:n nollaregressioasteen. Jokainen muu malli kerää teknistä velkaa, joka kasvaa jokaisella iteraatiolla. Tässä tulee brutaali osa: - HumanEval ja SWE-bench -mitta "toimiiko se juuri nyt" - SWE-CI-mittarit "toimiiko se edelleen kahdeksan kuukauden muutosten jälkeen" Agentit, jotka on optimoitu snapshot-testaukseen, kirjoittavat haurasta koodia, joka läpäisee testit tänään, mutta muuttuu täysin ylläpidottomaksi huomenna. he rakensivat EvoScoren painottamaan myöhempiä versioita raskaampia kuin varhaiset. Agentit, jotka uhraavat koodin laadun nopeiden voittojen vuoksi, saavat rangaistuksen, kun seuraukset kasaantuvat. tekoälykoodauksen kertomus muuttui juuri rehellisemmäksi. useimmat mallit pystyvät kirjoittamaan koodia. lähes kukaan ei pysty ylläpitämään sitä.

Johtavat

Rankkaus

Suosikit