Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tenho pensado um pouco sobre aprendizado contínuo ultimamente, especialmente no que diz respeito a agentes de longa duração (e estou rodando alguns experimentos de brinquedo com MLX).
O status quo da compactação prompta combinada com subagentes recursivos é, na verdade, notavelmente eficaz. Parece que podemos ir bem longe com isso. (Compactação por prompt = quando a janela de contexto se aproxima da cheia, o modelo gera um resumo mais curto e então começa do zero usando o resumo. Subagentes recursivos = decompor tarefas em menores para lidar com janelas de contexto finito)
Subagentes recursivos provavelmente sempre serão úteis. Mas a compactação por prompt parece um pouco ineficiente (embora altamente eficaz).
Existem outras duas alternativas que conheço: 1. Ajuste fino online e 2. Técnicas baseadas em memória.
Ajuste fino online: treine alguns adaptadores LoRA com dados que o modelo encontra durante a implantação. Sou menos otimista com isso em geral. Além dos desafios de engenharia de implantar modelos/adaptadores personalizados para cada caso de uso/usuário, existem algumas questões fundamentais:
- O ajuste fino online é inerentemente instável. Se você treina com dados no domínio alvo, pode destruir catastróficamente capacidades que não atinge. Uma forma de contornar isso é manter um conjunto de dados misto com o novo e o antigo. Mas isso fica bem complicado rapidamente.
- Como são os dados para ajuste fino online? Você gera pares Q/A baseados no domínio de destino para treinar o modelo? Você também tem o problema de priorizar informações na mistura de dados dada a capacidade finita.
Técnicas baseadas em memória: basicamente uma política para manter memória útil e descartar o que não é necessário. Isso se assemelha muito mais à forma como os humanos retêm informações: "use ou perca". Você só precisa de algumas coisas para isso funcionar:
- Uma política de despejo/retenção. Algo como "manter uma memória se ela já foi acessada pelo menos uma vez nos últimos 10 mil tokens".
- A política precisa ser computável de forma eficiente
- Um local para o modelo armazenar e acessar memória de longo prazo. Talvez um cache KV pouco acessado seja suficiente. Mas para acesso eficiente a uma grande memória, uma estrutura de dados hierárquica poderia ser melhor.
Melhores
Classificação
Favoritos
