当你构建 AI 代理时,不要把提示当作配置字符串。 要把它们视为可执行的业务逻辑。因为它们确实就是这样的。 @arshdilbagi 的博客和这门斯坦福 CS 224G 讲座展示了我见过的最清晰的 LLM 评估思维模型之一。 不要把评估当作单元测试。 这适用于确定性软件。 对于 LLM 产品,它会产生虚假的信心,因为现实世界的使用会随着时间而变化。 例如:一个保险提示通过了 20 个评估案例。团队发布了。在生产中,出现了一类新的请求并悄然失败。没有崩溃,没有警报,只是在大规模下错误的答案。 解决方案不是“写更多的评估案例”,这是许多团队所做的。 而是将评估构建为一个动态反馈循环。从一小部分开始,发布,观察生产中出现的问题,将这些失败添加回来,并在每次提示或模型更改时重新运行。 哪个评估失败让你的团队感到意外? 博客: 斯坦福 CS 224G 讲座: