Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg har tenkt litt på kontinuerlig læring i det siste, spesielt når det gjelder langvarige agenter (og har kjørt noen leketøyseksperimenter med MLX).
Status quo med rask komprimering kombinert med rekursive underagenter er faktisk bemerkelsesverdig effektiv. Det virker som vi kan komme ganske langt med dette. (Prompt kompaktering = når kontekstvinduet nærmer seg fullt, genererer modellen en kortere oppsummering, og starter deretter fra bunnen av med oppsummeringen. Rekursive delagenter = dekomponerer oppgaver i mindre oppgaver for å håndtere endelige kontekstvinduer)
Rekursive under-agenter vil sannsynligvis alltid være nyttige. Men prompt kompaktering virker som en litt ineffektiv (men svært effektiv) hack.
Det er to andre alternativer jeg kjenner til: 1. nettfinjustering og 2. Minnebaserte teknikker.
Online finjustering: tren noen LoRA-adaptere på data modellen møter under utrulling. Jeg er generelt mindre optimistisk på dette. Bortsett fra de tekniske utfordringene med å distribuere tilpassede modeller/adaptere for hver brukssituasjon/bruker, finnes det noen grunnleggende utfordringer:
- Nettfinjustering er iboende ustabil. Hvis du trener på data i måldomenet, kan du katastrofalt ødelegge kapasiteter du ikke retter deg mot. En måte å omgå dette på er å ha et blandet datasett med det nye og det gamle. Men dette blir ganske komplisert ganske raskt.
- Hvordan ser dataene egentlig ut for nettfinjustering? Genererer du spørsmål/svar-par basert på måldomenet for å trene modellen? Du har også problemet med å prioritere informasjon i datablandingen gitt endelig kapasitet.
Minnebaserte teknikker: i bunn og grunn en policy for å beholde nyttig minne og forkaste det som ikke trengs. Dette føles mye mer som hvordan mennesker lagrer informasjon: «bruk det eller mist det». Du trenger bare noen få ting for at dette skal fungere:
- En utkastelses-/beholdningspolicy. Noe sånt som «behold et minne hvis det har vært aksessert minst én gang de siste 10 000 tokens».
- Policyen må være effektivt beregnbar
- Et sted for modellen å lagre og få tilgang til langtidsminne. Kanskje en sparsomt brukt KV-cache ville være tilstrekkelig. Men for effektiv tilgang til et stort minne kan en hierarkisk datastruktur være bedre.
Topp
Rangering
Favoritter
