A veces creo un entorno complejo nuevo donde los modelos realmente tienen problemas y luego empiezo a entrenar en RL con una configuración por defecto sensata y pienso "este entorno es muy difícil, no sé si funcionará", pero simplemente funciona. La recompensa aumenta. Los despliegues se ven preciosos.