Cela devient précieux lorsque le réseau peut raisonner sur ses propres traces d'exécution et les traiter comme un dispositif de simulation, puis affiner un LoRA sur les connaissances acquises (ou les distiller sous une forme) comme une forme d'apprentissage continu. D'autres personnes dans les commentaires soulignent à juste titre les aspects négatifs de cette méthode, mais je pense que c'est tout de même une démonstration intéressante.