Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ÚLTIMA HORA: A Alibaba testou 18 agentes de codificação de IA em 100 bases de código reais, abrangendo 233 dias cada. Eles falharam espetacularmente.
Acontece que passar uma vez nos testes é fácil. manter o código por 8 meses sem quebrar tudo é onde a IA colapsa completamente.
O SWE-CI é o primeiro benchmark que mede a manutenção de código de longo prazo em vez de correções de bugs únicas. Cada tarefa acompanha 71 commits consecutivos de real evolution.
75% dos modelos quebram códigos que já estavam funcionando durante a manutenção. apenas Claude Opus 4.5 e 4.6 permanecem acima de 50% de taxa de regressão zero. todo outro modelo acumula dívida técnica que se acumula a cada iteração.
Aqui está a parte brutal:
- HumanEval e medida de banco SWE "funciona agora"
- SWE-CI mede "ainda funciona após 8 meses de mudanças"
Agentes otimizados para testes de snapshot escrevem código quebradiço que passa nos testes hoje, mas que se torna completamente impossível de manter amanhã.
eles construíram o EvoScore para pesar versões posteriores mais pesadas do que as iniciais. Agentes que sacrificam qualidade de código para vitórias rápidas são punidos quando as consequências se acumulam.
a narrativa de codificação por IA acabou de ficar mais honesta.
A maioria dos modelos pode escrever código. quase ninguém consegue mantê-lo.

Melhores
Classificação
Favoritos
