I vår artikel från 2020 definierade vi implementeringseffektivitet i RL-algoritmen. Slutsatsen är att perf är mer begränsat av frekvensen av utplaceringar än av prover. Online-lärande är nyckeln, och det är precis så "post-training" populariserades för LLM:er. Söndag är 💯 #schmidhubering