Detta blir värdefullt när nätverket kan resonera kring sina egna exekveringsspår och behandla det som en simuleringsenhet, för att sedan finjustera en LoRA på den förvärvade kunskapen (eller destillera den i någon form) som en form av kontinuerligt lärande. Andra i kommentarerna påpekar med rätta nackdelarna med denna metod, men jag tycker ändå att det är en intressant demo.