parfois, je crée un nouvel environnement complexe où les modèles ont vraiment du mal, puis je commence l'entraînement RL avec une configuration par défaut raisonnable et je me dis "cet environnement est vraiment difficile, je ne sais pas si ça va fonctionner" mais ça fonctionne tout simplement. la récompense augmente. les rollouts sont magnifiques.