Zastosowaliśmy Karpathy Auto Research do szachów za pośrednictwem Opal, a wyniki były imponujące. Zamiast polegać na książkach otwarć lub zapamiętanej teorii, system uczy się bezpośrednio z wyników. Agent gra mecze przeciwko sobie, ocenia pozycje za pomocą silnika, aktualizuje politykę i powtarza cykl. Z czasem ten cykl informacji się kumuluje. Samodzielna gra -> Ocena -> Aktualizacja polityki -> Powtórz. Wynikiem była poprawa o +596 ELO. Gdy pętla uczenia jest ciasna, poprawa przyspiesza szybko.