Dit wordt waardevol wanneer het netwerk kan redeneren over zijn eigen uitvoeringssporen en dit kan behandelen als een simulatieapparaat, en vervolgens een LoRA kan verfijnen op de verworven kennis (of het in een of andere vorm kan destilleren) als een vorm van continu leren. Andere mensen in de opmerkingen wijzen terecht op de nadelen van deze methode, maar ik denk dat het nog steeds een interessante demo is.