DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

ÚLTIMA HORA: Alibaba probó 18 agentes de codificación AI en 100 bases de código reales, durante 233 días cada uno. fracasaron espectacularmente. resulta que pasar pruebas una vez es fácil. mantener el código durante 8 meses sin romper todo es donde la AI colapsa por completo. SWE-CI es el primer estándar que mide el mantenimiento a largo plazo del código en lugar de arreglos de errores puntuales. cada tarea rastrea 71 commits consecutivos de evolución real. El 75% de los modelos rompen código que anteriormente funcionaba durante el mantenimiento. solo Claude Opus 4.5 y 4.6 se mantienen por encima del 50% de tasa de cero regresiones. todos los demás modelos acumulan deuda técnica que se complica con cada iteración. aquí está la parte brutal: - HumanEval y SWE-bench miden "¿funciona ahora mismo?" - SWE-CI mide "¿sigue funcionando después de 8 meses de cambios?" los agentes optimizados para pruebas instantáneas escriben código frágil que pasa las pruebas hoy pero se vuelve completamente inmantenible mañana. crearon EvoScore para ponderar las iteraciones posteriores más que las primeras. los agentes que sacrifican la calidad del código por ganancias rápidas son castigados cuando las consecuencias se acumulan. la narrativa de la codificación AI acaba de volverse más honesta. la mayoría de los modelos pueden escribir código. casi ninguno puede mantenerlo.

Parte superior

Clasificación

Favoritos