Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯NOVINKA: Alibaba právě dokázala, že AI programování vám nebere práci, ale jen psaní staršího kódu, který vás udrží na opravě na příští desetiletí. 🤣
Jednou složit programovací test je snadné. Udržovat ten kód 8 měsíců, aniž by to explodovalo? Zřejmě je to pro AI téměř nemožné.
Alibaba testovala 18 AI agentů na 100 skutečných kódových základnách během 233denních cyklů. Nehledali jen "rychlá řešení" – hledali dlouhodobé přežití.
Výsledkem byla krvavá lázeň:
75 % modelů během údržby porušilo dříve funkční kód.
Pouze Claude Opus 4,5/4,6 udržel nulovou regresi >50 %.
Každý jiný model nahromadil technický dluh, který se zvyšoval, dokud se kódová základna nezhroutila.
Používáme "snapshot" benchmarky jako HumanEval, které se ptají jen "Funguje to právě teď?"
Nový benchmark SWE-CI se ptá: "Funguje to stále i po 8 měsících vývoje?"
Většina AI agentů jsou "Quick-Fix Artists". Píší křehký kód, který dnes projde testy, ale zítra se stane noční můrou údržby. Nevytvářejí software; Staví domeček z karet.
Příběh se právě stal upřímným: Většina modelů umí psát kód. Téměř nikdo ji nedokáže udržet.

Top
Hodnocení
Oblíbené
