Am folosit autoresearch pentru a face antrenorul GRPO @grail_ai 1,8 ori mai rapid pe un singur B200. Am tot amânat asta săptămâni întregi, deoarece blocajul în cadrul nostru descentralizat era în principal comunicarea. Dar după ce tehnica propusă, PULSE, a făcut ca sincronizarea greutăților să fie de 100 de ori mai rapidă, actualizarea de antrenament a devenit blocajul. Chiar și cu un trainer complet asincron și inference, un trainer lent omoară viteza de convergență. O sarcină care mi-ar fi putut consuma zile întregi rula în paralel în timp ce lucram la alte lucruri. Spre deosebire de autocercetarea originală, unde fiecare experiment durează 5 minute, bucla noastră de feedback este mult mai lungă (10-17 minute pe epocă + 10-60 de minute de instalări și modificări de cod), așa că am făcut o direcție minimă când mergea în direcții proaste ca să nu consum ore de GPU. Agentul a încercat atât de multe lucruri care au eșuat. Dar, în cele din urmă, am găsit avantajele: kernelul Liger, pachetul de secvențe, batching dinamic cu buget de tokenuri și FA4 nativ prin AttentionInterface. 27% până la 47% MFU. 16,7 min până la 9,2 min pe epocă. Dacă vrei să sapi mai adânc sau să contribui: Optimizăm totul la scara nodurilor globale pentru ca post-antrenamentul descentralizat să fie la fel de rapid ca cele centralizate. Rămâneți pe aproape pentru câteva modele interesante care vor ieși din acest efort. Noroc!