No nosso mais recente episódio do podcast com parceiros, @BenAtBox, CTO da Box, sentou-se com @ankrgyl, CEO da @braintrust, para explorar como as organizações podem avaliar, testar e implementar agentes de IA de forma eficaz em grande escala. Timestamps 00:39 Ankur Goyal partilha a sua jornada desde o processamento de documentos de IA até ao Braintrust 03:01 Definindo evals e como funcionam na IA 07:03 Não-determinismo e complexidade na tomada de decisões dos agentes de IA 15:12 Conselhos sobre como lidar com o não-determinismo ao trabalhar com dados financeiros em IA 17:40 Usando múltiplos caminhos para validação e a importância de verificar resultados 22:12 O papel crítico do contexto na avaliação da precisão da saída da IA 26:03 Evals internos como a pedra angular do desenvolvimento de produtos de IA fiáveis 32:16 Promovendo a transparência na avaliação de IA com fornecedores 34:45 Conselhos para empresas evitarem falhas ao implementar capacidades agenticas