DApp Store | Web3 Hub tapahtumille ja peleille

Trendaavat aiheet

Olen viime aikoina miettinyt jatkuvaa oppimista, erityisesti pitkäaikaisten agenttien osalta (ja muutamien MLX-lelukokeilujen tekemiseen). Nopean tiivistymisen ja rekursiivisten aliagenttien nykytila on itse asiassa poikkeuksellisen tehokas. Vaikuttaa siltä, että voimme mennä aika pitkälle tämän kanssa. (Kehotteen tiivistäminen = kun kontekstiikkuna lähestyy täyntä, malli tuottaa lyhyemmän yhteenvedon ja aloittaa sitten alusta yhteenvedon avulla. Rekursiiviset aliagentit = hajottavat tehtävät pienempiin tehtäviin käsittelemään äärellisiä kontekstiikkunoita) Rekursiiviset aliagentit ovat todennäköisesti aina hyödyllisiä. Mutta nopea tiivistäminen vaikuttaa hieman tehottomalta (mutta erittäin tehokkaalta) hakkerilta. Tiedän kaksi muuta vaihtoehtoa: 1. Online-hienosäätö ja 2. Muistiin perustuvia tekniikoita. Online-hienosäätö: kouluta joitakin LoRA-sovittimia datan mukaan, johon malli kohtaa käyttöönoton aikana. Olen yleisesti ottaen vähemmän optimistinen tämän suhteen. Insinöörihaasteiden lisäksi, jotka liittyvät räätälöityjen mallien / sovittimien käyttöönottoon jokaiselle käyttötapaukselle/käyttäjälle, on olemassa joitakin perustavanlaatuisia ongelmia: - Online-hienosäätö on luonteeltaan epävakaa. Jos harjoittelet kohdealueen datalla, voit tuhota katastrofaalisesti kyvykkyyksiä, joita et kohdise. Yksi tapa kiertää tämä on pitää sekapohjainen aineisto uuden ja vanhan kanssa. Mutta tämä monimutkaistuu melko nopeasti. - Miltä data edes näyttää online-hienosäädössä? Tuotatko Q/A-pareja kohdealueen perusteella mallin kouluttamiseksi? Sinulla on myös ongelma priorisoida tietoa dataseoksessa rajallisen kapasiteetin perusteella. Muistipohjaiset tekniikat: käytännössä käytäntö, jolla hyödyllinen muisti säilytetään ja hylätään se, mitä ei tarvita. Tämä tuntuu paljon enemmän siltä, miten ihmiset säilyttävät tietoa: "käytä sitä tai menetä se". Tarvitset vain muutaman asian, jotta tämä toimii: - Häätö- ja pidätyskäytäntö. Jotain tyyliin "pidä muisti, jos siihen on käytetty vähintään kerran viimeisen 10 000 tokenin aikana". - Politiikan tulee olla tehokkaasti laskettavissa - Paikka, jossa malli voi tallentaa ja käyttää pitkäaikaista muistia. Ehkä harvaan käytetty KV-välimuisti riittäisi. Mutta tehokkaan pääsyn saavuttamiseksi suureen muistiin hierarkkinen tietorakenne voi olla parempi.

Johtavat

Rankkaus

Suosikit