Dalam makalah tahun 2020 kami, kami mendefinisikan efisiensi penyebaran dalam algoritma RL. Kesimpulannya adalah bahwa perf lebih dibatasi oleh frekuensi penyebaran, daripada sampel. Pembelajaran online adalah kuncinya, dan itulah persis bagaimana "pasca-pelatihan" dipopulerkan untuk LLM. Hari Minggu adalah 💯 #schmidhubering