uneori fac un mediu complex nou unde modelele chiar se chinuie și apoi încep antrenamentul RL cu o configurație implicită rezonabilă și mă gândesc "acest mediu e foarte greu, nu știu dacă va funcționa", dar pur și simplu funcționează. Recompensa crește. Rollout-urile arată minunat.