DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ho usato autoresearch per rendere il trainer GRPO di @grail_ai 1.8x più veloce su un singolo B200. Ho continuato a rimandare questa cosa per settimane poiché il collo di bottiglia nel nostro framework decentralizzato era principalmente la comunicazione. Ma dopo che la nostra tecnica proposta, PULSE, ha reso la sincronizzazione dei pesi 100x più veloce, l'aggiornamento del training stesso è diventato il collo di bottiglia. Anche con un trainer e un'inferenza completamente asincroni, un trainer lento uccide la velocità di convergenza. Un compito che avrebbe potuto portarmi via giorni di tempo è stato eseguito in parallelo mentre lavoravo su altre cose. A differenza dell'autoresearch originale, dove ogni esperimento dura 5 minuti, il nostro ciclo di feedback è molto più lungo (10-17 minuti per epoca + 10-60 minuti di installazioni e modifiche al codice), quindi ho fatto un minimo di steering quando si dirigeva in cattive direzioni per evitare di bruciare ore di GPU. L'agente ha provato così tante cose che sono fallite. Ma, alla fine ha trovato i successi: kernel Liger, packing delle sequenze, batching dinamico del budget dei token e FA4 nativo tramite AttentionInterface. Dal 27% al 47% MFU. Da 16.7 minuti a 9.2 minuti per epoca. Se vuoi approfondire o contribuire: Stiamo ottimizzando tutto su scala globale per rendere il post-training decentralizzato veloce come quelli centralizzati. Rimanete sintonizzati per alcuni modelli interessanti che usciranno da questo sforzo. Saluti!

Principali

Ranking

Preferiti