Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ultimamente, tenho escrito cada vez mais sobre @Zai_org, mas é como se o ritmo de inovação deles fosse notável.
E aqui estamos nós novamente....
Se você tem acompanhado as leis de escalabilidade, sabe que a contagem bruta de parâmetros está começando a ceder à eficiência arquitetônica e à qualidade dos dados. O GLM-5 da @Zai_org é uma aula magistral nessa transição. Estamos falando de uma besta de 744B Mixture-of-Experts (MoE) que ativa apenas 40B parâmetros por token. É enxuto onde importa e massivo onde precisa ser.
Na @layerlens_ai, temos avaliado ativamente o GLM-5 e você pode ver os resultados por si mesmo:
A Arquitetura da Autonomia
A inovação de destaque aqui é a DeepSeek Sparse Attention (DSA) combinada com o novo "Slime" RL Framework.
No antigo paradigma, o RLHF era sobre tornar os modelos "mais agradáveis." No GLM-5, o Aprendizado por Reforço é usado para preencher a lacuna entre pensar e fazer. Este stack de RL assíncrono permite que o modelo "brinque" com tarefas de engenharia complexas e de múltiplos passos, aprendendo com falhas de uma maneira que imita um engenheiro sênior lidando com um PR. Não se trata apenas de prever o próximo token; trata-se de prever a próxima solução.
Benchmarking o "Salto Geracional"
O painel no LayerLens não é apenas uma lista de números; é um mapa de raciocínio de alta dimensão. Aqui estão as métricas principais que definem este lançamento:
O Último Exame da Humanidade (HLE) [Pontuação: 50.4]: Projetado para ser o benchmark acadêmico "final", o HLE consiste em perguntas avaliadas por especialistas que são intencionalmente "à prova do Google." Com 50.4, o GLM-5 não está apenas recordando fatos; está superando Claude 4.5 Opus (43.4) e GPT-5.2 (45.5) em síntese aumentada por ferramentas.
SWE-bench Verificado [Pontuação: 77.8%]: Este é o padrão ouro para engenharia de software no mundo real. O modelo deve navegar por um repositório, reproduzir um bug e submeter um pull request funcional. O GLM-5 agora está trocando golpes com os sistemas proprietários mais poderosos do mundo.
BrowseComp (com Gestão de Contexto) [Pontuação: 75.9]: Um teste de "agência contextual." Mede a capacidade de um modelo de navegar em sites ao vivo e manter memória ao longo de interações prolongadas. A pontuação do GLM-5 lidera o grupo, superando o GPT-5.2 (65.8).
Vending Bench 2 [Classificado #1]: Uma simulação de negócios de um ano medindo planejamento sustentado e tomada de decisões operacionais. O GLM-5 terminou com um saldo final de $4,432—o mais alto entre todos os modelos de código aberto—provando que pode manter uma estratégia coerente ao longo de milhares de turnos.
τ²-Bench [Pontuação: 89.7]: Testando cenários complexos de agentes de múltiplos passos, o GLM-5 igualou efetivamente Claude 4.5 Opus (91.6) e superou GPT-5.2 (85.5), reforçando sua posição como um sistema agente em vez de um chatbot.
A Soberania do Hardware
Há uma bela ironia na história do treinamento: o GLM-5 foi treinado inteiramente na infraestrutura da Huawei Ascend. É um lembrete de que a inteligência é independente do substrato. Você não precisa de uma marca específica de silício para alcançar a fronteira; você precisa da intuição arquitetônica certa e de uma montanha de tokens de alta qualidade—28.5T, para ser exato.
Por que Isso Importa...

Top
Classificação
Favoritos
