分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

AIエージェントを作るときは、プロンプトを設定文字列のように扱わないでください。実行可能なビジネスロジックとして扱いましょう。なぜなら、それが本当の姿だからです。 @arshdilbagiのブログとこのスタンフォードのCS 224G講義は、私が見た中で最も明確なLLM評価のメンタルモデルの一つを示しています。評価を単体テストのように扱うのはやめましょう。それは決定論的ソフトウェアには有効です。 LLM製品の場合、実際の利用状況が時間とともに変化するため、誤った信頼感を生み出します。例:保険のプロンプトが20件の評価案件を通過しました。チームは出荷しました。本番環境では新しい種類のリクエストが現れ、静かに失敗しました。クラッシュも警報もなく、規模で間違った答えが出るだけです。解決策は「評価ケースをもっと書く」ことではありません。多くのチームがやっていることです。評価を生きたフィードバックループとして構築しています。まずは小さなセットから始めて出荷し、本番で何が壊れるかを見て、失敗を元に戻し、プロンプトやモデルの変更ごとに再度実行してください。どんな評価失敗がチームを驚かせましたか? ブログ: スタンフォードCS 224G講義:

トップ

ランキング

お気に入り