Aplicamos Karpathy Auto Research al ajedrez a través de Opal, y los resultados fueron sólidos. En lugar de depender de libros abiertos o teorías memorizadas, el sistema aprende directamente de los resultados. El agente juega partidas contra sí mismo, evalúa posiciones con un motor, actualiza la política y vuelve a ejecutar el bucle. Con el tiempo, ese ciclo de retroalimentación se acumula. Auto-juego -> Evaluación -> Actualización de política -> Repetir. El resultado fue una mejora de +596 en ELO. Cuando el bucle de aprendizaje es muy cerrado, la mejora se acelera rápidamente.