Isto torna-se valioso quando a rede pode raciocinar sobre os seus próprios rastros de execução e tratá-los como um dispositivo de simulação, depois ajustar um LoRA com o conhecimento adquirido (ou destilá-lo de alguma forma) como uma forma de aprendizagem contínua. Outras pessoas nos comentários apontam corretamente os negativos deste método, mas eu acho que ainda é uma demonstração interessante.