Acest lucru devine valoros atunci când rețeaua poate raționa despre propriile trasee de execuție și le poate trata ca pe un dispozitiv de simulare, apoi să ajusteze fin un LoRA pe baza cunoștințelor dobândite (sau să le distileze într-o formă sau alta) ca o formă de învățare continuă. Alți oameni din comentarii subliniază pe bună dreptate dezavantajele acestei metode, dar eu cred că tot este o demonstrație interesantă.