ハーネス メタベンチマークのアイデア:基本的なエージェントハーネス(AGENTS.md、ドキュメント、スキル、フック)を集め、非自明なアプリケーションをカプセル化し、それぞれが一つのプロンプトでゼロから一発でテラフォーミングすることを目的としています。新しいコーディングエージェントやモデルが登場したら、ハーネスと直接比較して過去のモデルバージョンと比較できます。「このモデルは標準的なブラウザハーネスからゼロからブラウザを書き、X%の機能完成度とZ時間でY行のコードしか作$XYZ」 そのブラウザカーソルが、その後のモデルアップデートの視点で開発されていく様子を想像してみてください。コードはどれくらい良かったのでしょうか?レンダラーの速度はどのくらいでしたか?機能セットはどれほど充実していましたか?エージェントはどれくらいの期間逃げなければならなかったのですか?トークンの総費用はいくらでしたか? エージェントハーネス用のCSS Zen Gardenのようなもので(ブラウザ標準の推進に大きく貢献しました)。 私たちは皆、Codex 5.4 Extra Highの違いを経験していると思います(もしそうでなければ、この投稿を読むのをやめてすぐに試してください)が、特にアーキテクチャやコード品質のような指標において、開発者として使う質的な体験をベンチマークにまとめる方法はまだありません。