トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
AIエージェントを作るときは、プロンプトを設定文字列のように扱わないでください。
実行可能なビジネスロジックとして扱いましょう。なぜなら、それが本当の姿だからです。
@arshdilbagiのブログとこのスタンフォードのCS 224G講義は、私が見た中で最も明確なLLM評価のメンタルモデルの一つを示しています。
評価を単体テストのように扱うのはやめましょう。
それは決定論的ソフトウェアには有効です。
LLM製品の場合、実際の利用状況が時間とともに変化するため、誤った信頼感を生み出します。
例:保険のプロンプトが20件の評価案件を通過しました。チームは出荷しました。本番環境では新しい種類のリクエストが現れ、静かに失敗しました。クラッシュも警報もなく、規模で間違った答えが出るだけです。
解決策は「評価ケースをもっと書く」ことではありません。多くのチームがやっていることです。
評価を生きたフィードバックループとして構築しています。まずは小さなセットから始めて出荷し、本番で何が壊れるかを見て、失敗を元に戻し、プロンプトやモデルの変更ごとに再度実行してください。
どんな評価失敗がチームを驚かせましたか?
ブログ:
スタンフォードCS 224G講義:

トップ
ランキング
お気に入り
