人々はこのグラフを誇大宣伝と誤解しつつあります 何が起きているのか、明確に説明します: METRはソフトウェアタスクのベンチマークを作成します(複雑なシステムのデバッグ、機械学習モデルの訓練、セキュリティ脆弱性の発見など) 彼らは各タスクを熟練した人間の専門家が完了するのにかかる時間を測定し、そのタスクでAIエージェントをテストします。 「タイムホライズム」とは要約統計であり、あるAIが50%の確率で成功するタスクの長さです。2時間の時間軸を持つモデルは、人間の専門家が2時間かかる作業の半分を完了します。 METRはクロード作品4.6の50%の時間範囲が~14.5時間であると報告しました。これはもちろん非常に印象的な数字です... でもMETRは私たちに注意するように言っています! 統計的な問題があります。曲線の上限を支える難しいタスクがまだ十分に残っておらず、フロンティアモデルはほぼすべてのタスクスイートで成功しています。 したがって、結果の小さなランダムな変動が推定値を大きく変動させています。 95%信頼区間は6時間から98時間まで幅広く、誰も信頼できる範囲で結論を導き出せません。 METR自身もこのレベルで測定する新しい方法に取り組んでいるので、期待値を少しずつ下げるのが良い:)