Khi bạn xây dựng các tác nhân AI, đừng coi các prompt như là chuỗi cấu hình. Hãy coi chúng như là logic kinh doanh có thể thực thi. Bởi vì đó chính xác là những gì chúng thực sự là. Blog của @arshdilbagi và bài giảng CS 224G của Stanford đã trình bày một trong những mô hình tư duy rõ ràng nhất mà tôi đã thấy cho việc đánh giá LLM. Đừng coi các đánh giá như là các bài kiểm tra đơn vị. Điều đó hoạt động với phần mềm xác định. Đối với các sản phẩm LLM, nó tạo ra sự tự tin sai lầm vì việc sử dụng trong thế giới thực thay đổi theo thời gian. Ví dụ: một prompt bảo hiểm đã vượt qua 20 trường hợp đánh giá. Nhóm đã phát hành. Trong sản xuất, một lớp yêu cầu mới xuất hiện và thất bại một cách âm thầm. Không có sự cố, không có cảnh báo, chỉ có những câu trả lời sai ở quy mô lớn. Cách khắc phục không phải là "viết thêm nhiều trường hợp đánh giá," mà là điều mà nhiều nhóm làm. Đó là xây dựng các đánh giá như một vòng phản hồi sống động. Bắt đầu với một tập nhỏ, phát hành, theo dõi những gì bị hỏng trong sản xuất, thêm những thất bại đó trở lại, và chạy lại trên mỗi thay đổi prompt hoặc mô hình. Thất bại đánh giá nào đã khiến nhóm bạn bất ngờ? Blog: Bài giảng CS 224G của Stanford: