速報:アリババは100の実際のコードベースで18人のAIコーディングエージェントを233日間にわたってテストしました。しかし、彼らは見事に失敗しました。 一度のテストに合格するのは簡単だとわかりました。8ヶ月間コードを壊さずに維持することがAIの完全な崩壊点です。 SWE-CIは、一時的なバグ修正ではなく、長期的なコード保守を測定する初のベンチマークです。各タスクは71回連続した実際の進化コミットを追跡します。 75%のモデルはメンテナンス中に以前動作していたコードを破損します。クロード作品4.5と4.6のみが50%のゼロ回帰率を上回っています。他のモデルは技術負債を蓄積し、それが反復ごとに複利的に増えていきます。 ここが残酷な部分です: - HumanEvalとSWEベンチの指標「今は効果があるか」 - SWE-CIの指標「8か月の変更後も機能するか」 スナップショットテストに最適化されたエージェントは、今日はテストに合格しても明日には完全に保守不可能になる脆弱なコードを書いています。 彼らはEvoScoreを、後のバージョンを初期よりも重く重くするために作りました。コードの質を犠牲にして素早い勝利を収めるエージェントは、その結果が重なることで罰せられます。 AIコーディングの物語はより正直になりました。 ほとんどのモデルはコードを書くことができます。ほとんど誰もそれを維持できません。