Quando você construir agentes de IA, não trate prompts como strings de configuração. Trate-os como lógica de negócio executável. Porque é isso que eles realmente são. O blog do @arshdilbagi e esta palestra de CS 224G de Stanford apresentam um dos modelos mentais mais claros que já vi para avaliação de LLMs. Pare de tratar avaliações como testes unitários. Isso funciona para software determinístico. Para produtos de LLM, isso cria falsa confiança porque o uso no mundo real muda ao longo do tempo. Exemplo: um prompt de seguro passou por 20 casos de avaliação. A equipe foi enviada. Na produção, uma nova classe de pedidos apareceu e fracassou silenciosamente. Sem travamento, sem alerta, apenas respostas erradas em escala. A solução não é "escrever mais casos de avaliação", que é o que muitas equipes fazem. Está construindo avaliações como um ciclo de feedback vivo. Comece com um conjunto pequeno, envie, observe o que quebra na produção, adicione essas falhas de volta e execute novamente a cada prompt ou mudança de modelo. Qual reprovação de avaliação pegou sua equipe de surpresa? Blog: Palestra de CS 224G em Stanford: