一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

当你构建 AI 代理时，不要把提示当作配置字符串。要把它们视为可执行的业务逻辑。因为它们确实就是这样的。 @arshdilbagi 的博客和这门斯坦福 CS 224G 讲座展示了我见过的最清晰的 LLM 评估思维模型之一。不要把评估当作单元测试。这适用于确定性软件。对于 LLM 产品，它会产生虚假的信心，因为现实世界的使用会随着时间而变化。例如：一个保险提示通过了 20 个评估案例。团队发布了。在生产中，出现了一类新的请求并悄然失败。没有崩溃，没有警报，只是在大规模下错误的答案。解决方案不是“写更多的评估案例”，这是许多团队所做的。而是将评估构建为一个动态反馈循环。从一小部分开始，发布，观察生产中出现的问题，将这些失败添加回来，并在每次提示或模型更改时重新运行。哪个评估失败让你的团队感到意外？博客：斯坦福 CS 224G 讲座：