Ich habe Autoresearch verwendet, um den @grail_ai GRPO-Trainer um 1,8x schneller auf einem einzelnen B200 zu machen. Ich habe das wochenlang aufgeschoben, da der Engpass in unserem dezentralen Framework hauptsächlich die Kommunikation war. Aber nachdem unsere vorgeschlagene Technik, PULSE, die Gewichtssynchronisation 100x schneller gemacht hat, wurde das Training-Update selbst zum Engpass. Selbst mit einem vollständig asynchronen Trainer und Inferenz verringert ein langsamer Trainer die Konvergenzgeschwindigkeit. Eine Aufgabe, die Tage meiner Zeit in Anspruch hätte nehmen können, lief parallel, während ich an anderen Dingen arbeitete. Im Gegensatz zum ursprünglichen Autoresearch, bei dem jedes Experiment 5 Minuten dauert, ist unser Feedback-Loop viel länger (10-17 Minuten pro Epoche + 10-60 Minuten für Installationen und Codeänderungen), sodass ich nur minimale Steuerung vorgenommen habe, wenn es in schlechte Richtungen ging, um GPU-Stunden zu sparen. Der Agent hat so viele Dinge ausprobiert, die gescheitert sind. Aber schließlich fand er die Erfolge: Liger-Kernel, Sequenzpackung, token-budget dynamisches Batching und natives FA4 über AttentionInterface. 27% bis 47% MFU. 16,7 Minuten auf 9,2 Minuten pro Epoche. Wenn du tiefer eintauchen oder beitragen möchtest: Wir optimieren alles im Maßstab globaler Knoten, um das dezentrale Post-Training so schnell wie zentrale zu machen. Bleib dran für einige coole Modelle, die aus diesem Aufwand hervorgehen. Prost!