Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯BREAKING: Alibaba hat gerade bewiesen, dass AI-Coding deinen Job nicht übernimmt, sondern nur den Legacy-Code schreibt, der dich im nächsten Jahrzehnt beschäftigt, ihn zu reparieren. 🤣
Einmal einen Coding-Test zu bestehen, ist einfach. Den Code 8 Monate lang zu warten, ohne dass er explodiert? Offensichtlich ist das für AI nahezu unmöglich.
Alibaba testete 18 AI-Agenten an 100 echten Codebasen über 233 Tage. Sie suchten nicht nur nach "schnellen Lösungen" – sie suchten nach langfristigem Überleben.
Die Ergebnisse waren ein Blutbad:
75 % der Modelle brachen zuvor funktionierenden Code während der Wartung.
Nur Claude Opus 4.5/4.6 hielt eine >50 % Null-Regressionsrate.
Jedes andere Modell akkumulierte technische Schulden, die sich bis zum Zusammenbruch der Codebasis summierten.
Wir haben "Snapshot"-Benchmarks wie HumanEval verwendet, die nur fragen: "Funktioniert es jetzt?"
Der neue SWE-CI-Benchmark fragt: "Funktioniert es nach 8 Monaten Evolution immer noch?"
Die meisten AI-Agenten sind "Schnell-Reparatur-Künstler." Sie schreiben brüchigen Code, der heute Tests besteht, aber morgen zum Wartungsalbtraum wird. Sie bauen keine Software; sie bauen ein Kartenhaus.
Die Erzählung wurde gerade ehrlich: Die meisten Modelle können Code schreiben. Fast keine können ihn warten.

Top
Ranking
Favoriten
