Adicionar simplesmente ruído gaussiano a LLMs (um passo — sem iterações, sem taxa de aprendizado, sem gradientes) e agrupá-los pode alcançar um desempenho comparável ou até melhor do que o GRPO/PPO padrão em tarefas de raciocínio matemático, codificação, escrita e química. Chamamos a este algoritmo RandOpt. Para verificar que isso não está limitado a modelos específicos, testámo-lo no Qwen, Llama, OLMo3 e VLMs. O que está por trás disso? Descobrimos que na vizinhança de busca gaussiana em torno de LLMs pré-treinados, especialistas em tarefas diversas estão densamente distribuídos — um regime que chamamos de Bosques Neurais. Artigo: Código: Website: