Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Um modelo de 24 bilhões de parâmetros acabou de ser executado em um laptop e escolheu a ferramenta certa em menos de meio segundo. A verdadeira história é que os agentes de chamada de ferramentas finalmente se tornaram rápidos o suficiente para parecerem software. A Liquid construiu o LFM2-24B-A2B usando uma arquitetura híbrida que mistura blocos de convolução com atenção de consulta agrupada em uma proporção de 1:3. Apenas 2,3 bilhões de parâmetros são ativados por token, mesmo que o modelo completo tenha 24 bilhões. Esse padrão de ativação esparsa é o motivo pelo qual ele cabe em 14,5 GB de memória e despacha ferramentas em 385 milissegundos em um M4 Max. A arquitetura foi projetada através de busca com hardware em loop, o que significa que otimizaram a estrutura do modelo testando-o diretamente nos chips em que seria executado. Sem camada de tradução em nuvem. Sem ida e volta de API. O modelo, as ferramentas e seus dados permanecem na máquina. Isso desbloqueia três coisas que eram impraticáveis antes: 1. Indústrias regulamentadas podem executar agentes em laptops de funcionários sem que os dados deixem o dispositivo. 2. Desenvolvedores podem prototipar fluxos de trabalho com múltiplas ferramentas sem gerenciar chaves de API ou limites de taxa. 3. Equipes de segurança obtêm trilhas de auditoria completas sem subprocessadores de fornecedores no loop. O modelo alcançou 80% de precisão na seleção de ferramentas de um único passo em 67 ferramentas que abrangem 13 servidores MCP. Se esse desempenho se mantiver em escala, duas suposições precisam ser atualizadas. Primeiro, agentes em dispositivo não são mais um compromisso de duração da bateria; eles são um recurso de conformidade. Segundo, o gargalo em fluxos de trabalho agentes está mudando de capacidade do modelo para maturidade do ecossistema de ferramentas.

Trabalho incrível de: @liquidai @ramin_m_h

130

Top

Classificação

Favoritos