我們通過 Opal 將 Karpathy 自動研究應用於棋類,結果非常強勁。 系統不依賴開局書或記憶理論,而是直接從結果中學習。代理與自己對弈,使用引擎評估局面,更新策略,然後再次運行循環。 隨著時間的推移,這種反饋循環會不斷累積。 自我對弈 -> 評估 -> 策略更新 -> 重複。 結果是 ELO 提升了 +596。 當學習循環緊密時,改進會迅速加速。