Simplemente añadir ruido gaussiano a los LLMs (un solo paso—sin iteraciones, sin tasa de aprendizaje, sin gradientes) y ensamblándolos puede lograr un rendimiento comparable o incluso superior al GRPO/PPO estándar en tareas de razonamiento, programación, escritura y química matemática. A este algoritmo lo llamamos RandOpt. Para verificar que esto no se limita a modelos específicos, lo probamos en Qwen, Llama, OLMo3 y VLM. ¿Qué hay detrás de esto? Encontramos que en la comunidad de búsqueda gaussiana alrededor de LLMs preentrenados, los diversos expertos en tareas están densamente distribuidos — un régimen que denominamos Matorrales Neuronales. Papel: Código: Página web: