Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Recentemente, tenho pensado um pouco sobre aprendizagem contínua, especialmente no que diz respeito a agentes de longa duração (e realizando alguns experimentos simples com MLX). O status quo da compactação de prompts, juntamente com sub-agentes recursivos, é na verdade notavelmente eficaz. Parece que podemos ir bastante longe com isso. (Compactação de prompts = quando a janela de contexto se aproxima do limite, o modelo gera um resumo mais curto e, em seguida, começa do zero usando o resumo. Sub-agentes recursivos = decompõem tarefas em tarefas menores para lidar com janelas de contexto finitas) Os sub-agentes recursivos provavelmente serão sempre úteis. Mas a compactação de prompts parece um pouco uma solução ineficiente (embora altamente eficaz). Existem duas outras alternativas que conheço: 1. ajuste fino online e 2. técnicas baseadas em memória. Ajuste fino online: treinar alguns adaptadores LoRA com dados que o modelo encontra durante a implementação. Estou menos otimista em relação a isso, de modo geral. Além dos desafios de engenharia de implementar modelos/adaptadores personalizados para cada caso de uso/usuário, existem algumas questões fundamentais: - O ajuste fino online é inerentemente instável. Se você treinar com dados no domínio alvo, pode destruir de forma catastrófica capacidades que não são o seu alvo. Uma maneira de contornar isso é manter um conjunto de dados misto com os novos e os antigos. Mas isso se torna bastante complicado rapidamente. - Como são os dados para o ajuste fino online? Você gera pares de Q/A com base no domínio alvo para treinar o modelo? Você também tem o problema de priorizar informações na mistura de dados, dado a capacidade finita. Técnicas baseadas em memória: basicamente uma política para manter memória útil e descartar o que não é necessário. Isso se parece muito mais com a forma como os humanos retêm informações: "use ou perca". Você só precisa de algumas coisas para que isso funcione: - Uma política de evacuação/retenção. Algo como "mantenha uma memória se ela foi acessada pelo menos uma vez nos últimos 10k tokens". - A política precisa ser computável de forma eficiente. - Um lugar para o modelo armazenar e acessar memória de longo prazo. Talvez um cache KV acessado de forma esparsa seja suficiente. Mas para acesso eficiente a uma memória grande, uma estrutura de dados hierárquica pode ser melhor.

Top

Classificação

Favoritos