Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kiedy budujesz agentów AI, nie traktuj promptów jak ciągów konfiguracyjnych.
Traktuj je jak wykonywalną logikę biznesową. Bo tym naprawdę są.
Blog @arshdilbagi i wykład Stanford CS 224G przedstawiają jeden z najjaśniejszych modeli mentalnych, jakie widziałem w ocenie LLM.
Przestań traktować oceny jak testy jednostkowe.
To działa w przypadku deterministycznego oprogramowania.
W przypadku produktów LLM tworzy to fałszywe poczucie pewności, ponieważ rzeczywiste użycie zmienia się z czasem.
Przykład: prompt ubezpieczeniowy przeszedł 20 przypadków oceny. Zespół wdrożył. W produkcji pojawiła się nowa klasa żądań, które cicho zawiodły. Brak awarii, brak alertu, tylko błędne odpowiedzi na dużą skalę.
Rozwiązaniem nie jest "napisać więcej przypadków oceny", co robi wiele zespołów.
Chodzi o budowanie ocen jako żywej pętli informacji zwrotnej. Zacznij od małego zestawu, wdroż, obserwuj, co się psuje w produkcji, dodaj te awarie z powrotem i ponownie uruchom przy każdej zmianie promptu lub modelu.
Jakie niepowodzenie oceny zaskoczyło twój zespół?
Blog:
Wykład Stanford CS 224G:

Najlepsze
Ranking
Ulubione
