Просте додавання гаусового шуму до LLM (один крок — без ітерацій, без швидкості навчання, без градієнтів) і їх поєднання може досягти продуктивності, порівнянної або навіть кращої за стандартну GRPO/PPO у завданнях з математичного мислення, кодування, письма та хімії. Ми називаємо цей алгоритм RandOpt. Щоб переконатися, що це не обмежується конкретними моделями, ми протестували це на Qwen, Llama, OLMo3 та VLM. Що стоїть за цим? Ми виявляємо, що в гаусівському пошуковому околі навколо попередньо навчених LLM різноманітні експерти з завдань розташовані щільно — режим, який ми називаємо нейронними заростами. Стаття: Код: Вебсайт: