No nosso artigo de 2020, definimos a eficiência de implementação no algoritmo RL. A conclusão é que o desempenho é mais limitado pela frequência das implementações do que pelas amostras. O aprendizado online é a chave, e é exatamente assim que o "pós-treinamento" foi popularizado para LLMs. Domingo é 💯 #schmidhubering