Esto se vuelve valioso cuando la red puede razonar sobre sus propios trazos de ejecución y tratarlos como un dispositivo de simulación, luego afinar un LoRA con el conocimiento adquirido (o destilarlo de alguna forma) como una forma de aprendizaje continuo. Otras personas en los comentarios señalan correctamente los aspectos negativos de este método, pero creo que sigue siendo una demostración interesante.