Někdy vytvořím nové komplexní prostředí, kde modely opravdu bojují, a pak začnu trénovat RL s rozumnou výchozí konfigurací a říkám si "tohle prostředí je fakt těžké, nevím, jestli to bude fungovat", ale prostě to funguje. Odměna stoupá. Rollouty vypadají nádherně.