DApp Store | Web3 Hub for hendelser og spill

Populære emner

Å bare legge til Gaussisk støy i LLM-er (ett steg – ingen iterasjoner, ingen læringsrate, ingen gradienter) og integrere dem kan oppnå ytelse som er sammenlignbar med eller til og med bedre enn standard GRPO/PPO på matematisk resonnement, koding, skriving og kjemioppgaver. Vi kaller denne algoritmen RandOpt. For å verifisere at dette ikke er begrenset til spesifikke modeller, testet vi det på Qwen, Llama, OLMo3 og VLM-er. Hva ligger bak dette? Vi finner at i det Gaussiske søkemiljøet rundt forhåndstrente LLM-er, er ulike oppgaveeksperter tett fordelt — et regime vi kaller nevrale krat. Artikkel: Kode: Nettside:

Topp

Rangering

Favoritter