czasami tworzę nowe, złożone środowisko, w którym modele naprawdę mają trudności, a potem zaczynam trening RL z sensowną domyślną konfiguracją i myślę: "to środowisko jest naprawdę trudne, nie wiem, czy to zadziała", ale po prostu działa. nagroda rośnie. rollouty wyglądają pięknie.