トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ハーネス
メタベンチマークのアイデア:基本的なエージェントハーネス(AGENTS.md、ドキュメント、スキル、フック)を集め、非自明なアプリケーションをカプセル化し、それぞれが一つのプロンプトでゼロから一発でテラフォーミングすることを目的としています。新しいコーディングエージェントやモデルが登場したら、ハーネスと直接比較して過去のモデルバージョンと比較できます。「このモデルは標準的なブラウザハーネスからゼロからブラウザを書き、X%の機能完成度とZ時間でY行のコードしか作$XYZ」
そのブラウザカーソルが、その後のモデルアップデートの視点で開発されていく様子を想像してみてください。コードはどれくらい良かったのでしょうか?レンダラーの速度はどのくらいでしたか?機能セットはどれほど充実していましたか?エージェントはどれくらいの期間逃げなければならなかったのですか?トークンの総費用はいくらでしたか?
エージェントハーネス用のCSS Zen Gardenのようなもので(ブラウザ標準の推進に大きく貢献しました)。
私たちは皆、Codex 5.4 Extra Highの違いを経験していると思います(もしそうでなければ、この投稿を読むのをやめてすぐに試してください)が、特にアーキテクチャやコード品質のような指標において、開発者として使う質的な体験をベンチマークにまとめる方法はまだありません。
トップ
ランキング
お気に入り
