非常真实 在某种意义上,所有这些开放模型仍然是概念验证。它不仅仅关乎计算(尽管这非常重要),还关乎投入到数据、奖励模型和评估中的工作世纪。"RL环境"是一个可爱的新的花招。规模较小。