Esto se vuelve valioso cuando la red puede razonar sobre sus propias trazas de ejecución y tratarlas como un dispositivo de simulación, para luego afinar una LoRA sobre el conocimiento adquirido (o destilarla de alguna forma) como una forma de aprendizaje continuo. Otras personas en los comentarios señalan acertadamente los aspectos negativos de este método, pero creo que sigue siendo una demo interesante.