Aggiungere semplicemente rumore gaussiano agli LLM (un passo—nessuna iterazione, nessun tasso di apprendimento, nessun gradiente) e combinarli può raggiungere prestazioni comparabili o addirittura migliori rispetto ai GRPO/PPO standard in compiti di ragionamento matematico, programmazione, scrittura e chimica. Chiamiamo questo algoritmo RandOpt. Per verificare che ciò non sia limitato a modelli specifici, lo abbiamo testato su Qwen, Llama, OLMo3 e VLM. Cosa c'è dietro a questo? Scopriamo che nel quartiere di ricerca gaussiana attorno agli LLM pre-addestrati, esperti di compiti diversi sono densamente distribuiti — un regime che definiamo Neural Thickets. Carta: Codice: Sito web: