Att helt enkelt lägga till Gaussiskt brus i LLM:er (ett steg – inga iterationer, ingen inlärningshastighet, inga gradienter) och integrera dem kan uppnå prestanda som är jämförbar med eller till och med bättre än standard GRPO/PPO inom matematik, kodning, skrivande och kemiuppgifter. Vi kallar denna algoritm RandOpt. För att verifiera att detta inte är begränsat till specifika modeller testade vi det på Qwen, Llama, OLMo3 och VLM. Vad ligger bakom detta? Vi finner att i det Gaussiska sökområdet kring förtränade LLM:er är olika arbetsexperter tätt fördelade — ett regim vi kallar Neural Thickets. Papper: Kod: Webbplats: