L'apprentissage par renforcement (RL) a longtemps été la méthode dominante pour le fine-tuning, alimentant de nombreux LLM à la pointe de la technologie. Des méthodes comme PPO et GRPO explorent dans l'espace d'action. Mais pouvons-nous plutôt explorer directement dans l'espace des paramètres ? OUI, nous le pouvons. Nous proposons un cadre évolutif pour le fine-tuning complet des paramètres en utilisant des stratégies d'évolution (ES). En évitant les gradients et en optimisant directement dans l'espace des paramètres, les ES permettent un fine-tuning plus précis, efficace et stable. Article : Code :