Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BREAK: Alibaba, 100 gerçek kod tabanında 18 yapay zeka kodlama ajanını test etti, her biri 233 gün sürdü. Muhteşem bir şekilde başarısız oldular.
Meğerse sınavları bir kez geçmek kolaymış. Kodu 8 ay boyunca her şeyi bozmadan korumak yapay zekanın tamamen çöktüğü yerdir.
SWE-CI, tek atışta hata düzeltmeleri yerine uzun vadeli kod bakımını ölçen ilk kıyastır. Her görev, gerçek evrimin ardışık 71 commit'ini takip eder.
Modellerin %75'i bakım sırasında daha önce çalışan kodu bozuyor. sadece Claude Opus 4.5 ve 4.6 %50'nin üzerinde sıfır regresyon oranının üzerinde kalıyor. Diğer tüm modeller teknik borç biriktiriyor ve bu borç her iterasyonda artıyor.
İşte acımasız kısım:
- HumanEval ve SWE-bench ölçümü "şu anda işe yarıyor mu"
- SWE-CI önlemleri "8 aylık değişikliklerden sonra hâlâ çalışıyor mu?"
Anlık test için optimize edilmiş ajanlar, bugün testleri geçen ama yarın tamamen sürdürülemez hale gelen kırılgan kodlar yazıyor.
EvoScore'u erken sürümlerden daha ağır hale getirmek için geliştirdiler. Hızlı kazanmak için kod kalitesinden ödün veren ajanlar, sonuçlar biriktiğinde cezalandırılır.
Yapay zeka kodlama anlatısı daha dürüst oldu.
Çoğu model kod yazabilir. neredeyse hiçbiri bunu koruyamaz.

En İyiler
Sıralama
Takip Listesi
