Это становится ценным, когда сеть может рассуждать о своих собственных следах выполнения и рассматривать это как устройство симуляции, а затем донастраивать LoRA на приобретенных знаниях (или дистиллировать их в какой-то форме) как форму непрерывного обучения. Другие люди в комментариях справедливо указывают на негативные стороны этого метода, но я все равно считаю это интересной демонстрацией.