ÚLTIMA HORA: A Alibaba testou 18 agentes de codificação de IA em 100 bases de código reais, abrangendo 233 dias cada. Eles falharam espetacularmente. Acontece que passar uma vez nos testes é fácil. manter o código por 8 meses sem quebrar tudo é onde a IA colapsa completamente. O SWE-CI é o primeiro benchmark que mede a manutenção de código de longo prazo em vez de correções de bugs únicas. Cada tarefa acompanha 71 commits consecutivos de real evolution. 75% dos modelos quebram códigos que já estavam funcionando durante a manutenção. apenas Claude Opus 4.5 e 4.6 permanecem acima de 50% de taxa de regressão zero. todo outro modelo acumula dívida técnica que se acumula a cada iteração. Aqui está a parte brutal: - HumanEval e medida de banco SWE "funciona agora" - SWE-CI mede "ainda funciona após 8 meses de mudanças" Agentes otimizados para testes de snapshot escrevem código quebradiço que passa nos testes hoje, mas que se torna completamente impossível de manter amanhã. eles construíram o EvoScore para pesar versões posteriores mais pesadas do que as iniciais. Agentes que sacrificam qualidade de código para vitórias rápidas são punidos quando as consequências se acumulam. a narrativa de codificação por IA acabou de ficar mais honesta. A maioria dos modelos pode escrever código. quase ninguém consegue mantê-lo.