Ultimamente, tenho escrito cada vez mais sobre @Zai_org, mas é como se o ritmo de inovação deles fosse notável. E aqui estamos nós novamente.... Se você tem acompanhado as leis de escalabilidade, sabe que a contagem bruta de parâmetros está começando a ceder à eficiência arquitetônica e à qualidade dos dados. O GLM-5 da @Zai_org é uma aula magistral nessa transição. Estamos falando de uma besta de 744B Mixture-of-Experts (MoE) que ativa apenas 40B parâmetros por token. É enxuto onde importa e massivo onde precisa ser. Na @layerlens_ai, temos avaliado ativamente o GLM-5 e você pode ver os resultados por si mesmo: A Arquitetura da Autonomia A inovação de destaque aqui é a DeepSeek Sparse Attention (DSA) combinada com o novo "Slime" RL Framework. No antigo paradigma, o RLHF era sobre tornar os modelos "mais agradáveis." No GLM-5, o Aprendizado por Reforço é usado para preencher a lacuna entre pensar e fazer. Este stack de RL assíncrono permite que o modelo "brinque" com tarefas de engenharia complexas e de múltiplos passos, aprendendo com falhas de uma maneira que imita um engenheiro sênior lidando com um PR. Não se trata apenas de prever o próximo token; trata-se de prever a próxima solução. Benchmarking o "Salto Geracional" O painel no LayerLens não é apenas uma lista de números; é um mapa de raciocínio de alta dimensão. Aqui estão as métricas principais que definem este lançamento: O Último Exame da Humanidade (HLE) [Pontuação: 50.4]: Projetado para ser o benchmark acadêmico "final", o HLE consiste em perguntas avaliadas por especialistas que são intencionalmente "à prova do Google." Com 50.4, o GLM-5 não está apenas recordando fatos; está superando Claude 4.5 Opus (43.4) e GPT-5.2 (45.5) em síntese aumentada por ferramentas. SWE-bench Verificado [Pontuação: 77.8%]: Este é o padrão ouro para engenharia de software no mundo real. O modelo deve navegar por um repositório, reproduzir um bug e submeter um pull request funcional. O GLM-5 agora está trocando golpes com os sistemas proprietários mais poderosos do mundo. BrowseComp (com Gestão de Contexto) [Pontuação: 75.9]: Um teste de "agência contextual." Mede a capacidade de um modelo de navegar em sites ao vivo e manter memória ao longo de interações prolongadas. A pontuação do GLM-5 lidera o grupo, superando o GPT-5.2 (65.8). Vending Bench 2 [Classificado #1]: Uma simulação de negócios de um ano medindo planejamento sustentado e tomada de decisões operacionais. O GLM-5 terminou com um saldo final de $4,432—o mais alto entre todos os modelos de código aberto—provando que pode manter uma estratégia coerente ao longo de milhares de turnos. τ²-Bench [Pontuação: 89.7]: Testando cenários complexos de agentes de múltiplos passos, o GLM-5 igualou efetivamente Claude 4.5 Opus (91.6) e superou GPT-5.2 (85.5), reforçando sua posição como um sistema agente em vez de um chatbot. A Soberania do Hardware Há uma bela ironia na história do treinamento: o GLM-5 foi treinado inteiramente na infraestrutura da Huawei Ascend. É um lembrete de que a inteligência é independente do substrato. Você não precisa de uma marca específica de silício para alcançar a fronteira; você precisa da intuição arquitetônica certa e de uma montanha de tokens de alta qualidade—28.5T, para ser exato. Por que Isso Importa...