Simplesmente adicionar ruído gaussiano aos LLMs (um passo — sem iterações, sem taxa de aprendizado, sem gradientes) e montá-los pode alcançar desempenho comparável ou até melhor que o GRPO/PPO padrão em tarefas de raciocínio matemático, programação, escrita e química. Chamamos esse algoritmo de RandOpt. Para verificar se isso não se limita a modelos específicos, testamos em Qwen, Llama, OLMo3 e VLMs. O que está por trás disso? Descobrimos que, na vizinhança de busca Gaussiana em torno de LLMs pré-treinados, especialistas em tarefas diversas são densamente distribuídos — um regime que chamamos de Bosques Neurais. Papel: Código: Site: