Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Recentemente, tenho pensado um pouco sobre aprendizagem contínua, especialmente no que diz respeito a agentes de longa duração (e realizando alguns experimentos simples com MLX).
O status quo da compactação de prompts, juntamente com sub-agentes recursivos, é na verdade notavelmente eficaz. Parece que podemos ir bastante longe com isso. (Compactação de prompts = quando a janela de contexto se aproxima do limite, o modelo gera um resumo mais curto e, em seguida, começa do zero usando o resumo. Sub-agentes recursivos = decompõem tarefas em tarefas menores para lidar com janelas de contexto finitas)
Os sub-agentes recursivos provavelmente serão sempre úteis. Mas a compactação de prompts parece um pouco uma solução ineficiente (embora altamente eficaz).
Existem duas outras alternativas que conheço: 1. ajuste fino online e 2. técnicas baseadas em memória.
Ajuste fino online: treinar alguns adaptadores LoRA com dados que o modelo encontra durante a implementação. Estou menos otimista em relação a isso, de modo geral. Além dos desafios de engenharia de implementar modelos/adaptadores personalizados para cada caso de uso/usuário, existem algumas questões fundamentais:
- O ajuste fino online é inerentemente instável. Se você treinar com dados no domínio alvo, pode destruir de forma catastrófica capacidades que não são o seu alvo. Uma maneira de contornar isso é manter um conjunto de dados misto com os novos e os antigos. Mas isso se torna bastante complicado rapidamente.
- Como são os dados para o ajuste fino online? Você gera pares de Q/A com base no domínio alvo para treinar o modelo? Você também tem o problema de priorizar informações na mistura de dados, dado a capacidade finita.
Técnicas baseadas em memória: basicamente uma política para manter memória útil e descartar o que não é necessário. Isso se parece muito mais com a forma como os humanos retêm informações: "use ou perca". Você só precisa de algumas coisas para que isso funcione:
- Uma política de evacuação/retenção. Algo como "mantenha uma memória se ela foi acessada pelo menos uma vez nos últimos 10k tokens".
- A política precisa ser computável de forma eficiente.
- Um lugar para o modelo armazenar e acessar memória de longo prazo. Talvez um cache KV acessado de forma esparsa seja suficiente. Mas para acesso eficiente a uma memória grande, uma estrutura de dados hierárquica pode ser melhor.
Top
Classificação
Favoritos
