às vezes eu crio um novo ambiente complexo onde os modelos realmente têm dificuldades e então começo o treinamento de RL com uma configuração padrão sensata e fico tipo "este ambiente é realmente difícil, não sei se vai funcionar" mas simplesmente funciona. a recompensa aumenta. as execuções parecem lindas.