热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
当你构建 AI 代理时,不要把提示当作配置字符串。
要把它们视为可执行的业务逻辑。因为它们确实就是这样的。
@arshdilbagi 的博客和这门斯坦福 CS 224G 讲座展示了我见过的最清晰的 LLM 评估思维模型之一。
不要把评估当作单元测试。
这适用于确定性软件。
对于 LLM 产品,它会产生虚假的信心,因为现实世界的使用会随着时间而变化。
例如:一个保险提示通过了 20 个评估案例。团队发布了。在生产中,出现了一类新的请求并悄然失败。没有崩溃,没有警报,只是在大规模下错误的答案。
解决方案不是“写更多的评估案例”,这是许多团队所做的。
而是将评估构建为一个动态反馈循环。从一小部分开始,发布,观察生产中出现的问题,将这些失败添加回来,并在每次提示或模型更改时重新运行。
哪个评估失败让你的团队感到意外?
博客:
斯坦福 CS 224G 讲座:

热门
排行
收藏
