Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Kiedy budujesz agentów AI, nie traktuj promptów jak ciągów konfiguracyjnych. Traktuj je jak wykonywalną logikę biznesową. Bo tym naprawdę są. Blog @arshdilbagi i wykład Stanford CS 224G przedstawiają jeden z najjaśniejszych modeli mentalnych, jakie widziałem w ocenie LLM. Przestań traktować oceny jak testy jednostkowe. To działa w przypadku deterministycznego oprogramowania. W przypadku produktów LLM tworzy to fałszywe poczucie pewności, ponieważ rzeczywiste użycie zmienia się z czasem. Przykład: prompt ubezpieczeniowy przeszedł 20 przypadków oceny. Zespół wdrożył. W produkcji pojawiła się nowa klasa żądań, które cicho zawiodły. Brak awarii, brak alertu, tylko błędne odpowiedzi na dużą skalę. Rozwiązaniem nie jest "napisać więcej przypadków oceny", co robi wiele zespołów. Chodzi o budowanie ocen jako żywej pętli informacji zwrotnej. Zacznij od małego zestawu, wdroż, obserwuj, co się psuje w produkcji, dodaj te awarie z powrotem i ponownie uruchom przy każdej zmianie promptu lub modelu. Jakie niepowodzenie oceny zaskoczyło twój zespół? Blog: Wykład Stanford CS 224G:

Najlepsze

Ranking

Ulubione