У нашій статті 2020 року ми визначили ефективність розгортання в алгоритмі RL. Висновок полягає в тому, що перфорація більше обмежена частотою розгортань, ніж семплінами. Онлайн-навчання — це ключ, і саме так «післятренінг» став популярним для LLM. Неділя — 💯 #schmidhubering