Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Quando constróis agentes de IA, não trate os prompts como strings de configuração. Trate-os como lógica de negócios executável. Porque é isso que eles realmente são. O blog do @arshdilbagi e esta palestra do Stanford CS 224G apresentam um dos modelos mentais mais claros que já vi para avaliação de LLM. Pare de tratar as avaliações como testes unitários. Isso funciona para software determinístico. Para produtos LLM, isso cria uma falsa confiança porque o uso no mundo real muda ao longo do tempo. Exemplo: um prompt de seguro passou em 20 casos de avaliação. A equipe lançou. Em produção, uma nova classe de solicitações apareceu e falhou silenciosamente. Sem falhas, sem alertas, apenas respostas erradas em grande escala. A solução não é "escrever mais casos de avaliação", que é o que muitas equipes fazem. É construir avaliações como um ciclo de feedback vivo. Comece com um pequeno conjunto, lance, observe o que quebra em produção, adicione essas falhas de volta e execute novamente em cada alteração de prompt ou modelo. Qual falha de avaliação pegou sua equipe de surpresa? Blog: Palestra do Stanford CS 224G:

Top

Classificação

Favoritos