Ini menjadi berharga ketika jaringan dapat bernalar tentang jejak eksekusinya sendiri dan memperlakukannya sebagai perangkat simulasi, kemudian menyempurnakan LoRA pada pengetahuan yang diperoleh (atau menyaringnya dalam beberapa bentuk) sebagai bentuk pembelajaran berkelanjutan. Orang lain di komentar dengan benar menunjukkan negatif dari metode ini, tetapi saya pikir ini masih merupakan demo yang menarik.