DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Tenho pensado um pouco sobre aprendizado contínuo ultimamente, especialmente no que diz respeito a agentes de longa duração (e estou rodando alguns experimentos de brinquedo com MLX). O status quo da compactação prompta combinada com subagentes recursivos é, na verdade, notavelmente eficaz. Parece que podemos ir bem longe com isso. (Compactação por prompt = quando a janela de contexto se aproxima da cheia, o modelo gera um resumo mais curto e então começa do zero usando o resumo. Subagentes recursivos = decompor tarefas em menores para lidar com janelas de contexto finito) Subagentes recursivos provavelmente sempre serão úteis. Mas a compactação por prompt parece um pouco ineficiente (embora altamente eficaz). Existem outras duas alternativas que conheço: 1. Ajuste fino online e 2. Técnicas baseadas em memória. Ajuste fino online: treine alguns adaptadores LoRA com dados que o modelo encontra durante a implantação. Sou menos otimista com isso em geral. Além dos desafios de engenharia de implantar modelos/adaptadores personalizados para cada caso de uso/usuário, existem algumas questões fundamentais: - O ajuste fino online é inerentemente instável. Se você treina com dados no domínio alvo, pode destruir catastróficamente capacidades que não atinge. Uma forma de contornar isso é manter um conjunto de dados misto com o novo e o antigo. Mas isso fica bem complicado rapidamente. - Como são os dados para ajuste fino online? Você gera pares Q/A baseados no domínio de destino para treinar o modelo? Você também tem o problema de priorizar informações na mistura de dados dada a capacidade finita. Técnicas baseadas em memória: basicamente uma política para manter memória útil e descartar o que não é necessário. Isso se assemelha muito mais à forma como os humanos retêm informações: "use ou perca". Você só precisa de algumas coisas para isso funcionar: - Uma política de despejo/retenção. Algo como "manter uma memória se ela já foi acessada pelo menos uma vez nos últimos 10 mil tokens". - A política precisa ser computável de forma eficiente - Um local para o modelo armazenar e acessar memória de longo prazo. Talvez um cache KV pouco acessado seja suficiente. Mas para acesso eficiente a uma grande memória, uma estrutura de dados hierárquica poderia ser melhor.

Melhores

Classificação

Favoritos