O Aprendizado por Reforço (RL) tem sido há muito o método dominante para ajuste fino, alimentando muitos LLMs de última geração. Métodos como PPO e GRPO exploram no espaço de ações. Mas podemos, em vez disso, explorar diretamente no espaço de parâmetros? SIM, podemos. Propomos uma estrutura escalável para ajuste fino de parâmetros completos usando Estratégias de Evolução (ES). Ao pular gradientes e otimizar diretamente no espaço de parâmetros, ES alcança um ajuste fino mais preciso, eficiente e estável. Artigo: Código: