Простое добавление гауссовского шума к LLM (один шаг — без итераций, без скорости обучения, без градиентов) и их ансамблирование может достичь производительности, сопоставимой или даже лучшей, чем стандартные GRPO/PPO в задачах математического рассуждения, программирования, письма и химии. Мы называем этот алгоритм RandOpt. Чтобы подтвердить, что это не ограничивается конкретными моделями, мы протестировали его на Qwen, Llama, OLMo3 и VLM. Что стоит за этим? Мы обнаружили, что в гауссовском поисковом окружении вокруг предобученных LLM разнообразные эксперты по задачам плотно распределены — режим, который мы называем Нейронные Заросли. Статья: Код: Вебсайт: