分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

ハーネスメタベンチマークのアイデア:基本的なエージェントハーネス(AGENTS.md、ドキュメント、スキル、フック)を集め、非自明なアプリケーションをカプセル化し、それぞれが一つのプロンプトでゼロから一発でテラフォーミングすることを目的としています。新しいコーディングエージェントやモデルが登場したら、ハーネスと直接比較して過去のモデルバージョンと比較できます。「このモデルは標準的なブラウザハーネスからゼロからブラウザを書き、X%の機能完成度とZ時間でY行のコードしか作$XYZ」そのブラウザカーソルが、その後のモデルアップデートの視点で開発されていく様子を想像してみてください。コードはどれくらい良かったのでしょうか?レンダラーの速度はどのくらいでしたか?機能セットはどれほど充実していましたか?エージェントはどれくらいの期間逃げなければならなかったのですか?トークンの総費用はいくらでしたか? エージェントハーネス用のCSS Zen Gardenのようなもので(ブラウザ標準の推進に大きく貢献しました)。私たちは皆、Codex 5.4 Extra Highの違いを経験していると思います(もしそうでなければ、この投稿を読むのをやめてすぐに試してください)が、特にアーキテクチャやコード品質のような指標において、開発者として使う質的な体験をベンチマークにまとめる方法はまだありません。

トップ

ランキング

お気に入り