A exploração de fronteira das arquiteturas LLM tem convergido em grande parte. Vasculhei o código dos transformadores HuggingFace do recém-lançado GLM-5 da @Zai_org (zai-org/GLM-5). Aqui está uma análise detalhada da arquitetura e o que ela nos diz sobre para onde o design de LLMs está caminhando. Resumo; DR: Arquitetonicamente, o GLM-5 segue de perto o DeepSeek-V3 com ajustes de botão menores. ATENÇÃO: MLA substitui GQA A maior mudança do GLM-4.7 para o GLM-5 é a atenção. O GLM-4.7 usava Atenção de Consulta Agrupada (GQA) padrão com 96 cabeças Q, cabeças de 8 KV e projeções separadas q/k/v. O GLM-5 abandona tudo isso e adota a Atenção Latente Multi-cabeça (MLA) do DeepSeek. No pipeline MLA, as consultas passam por uma projeção em dois estágios no estilo LoRA: oculto -> q_a_proj para ranqueamento 2048 -> RMSNorm -> q_b_proj para 64 cabeças * 256 dim. Chaves e valores são comprimidos conjuntamente em um único gargalo de baixo rango: oculto -> kv_a_proj para o rank 512+64 -> dividido em um caminho KV latente e um caminho RoPE. A parte latente é expandida de volta via kv_b_proj para 64 cabeças de (192 nope + 256 valor) dims. Esse é exatamente o mesmo design MLA do DeepSeek-V3. O GLM-5 apenas ajusta as dimensões: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128. O kv_lora_rank (512) e qk_rope_head_dim (64) são idênticos. Além disso, não há viés em nenhum lugar na atenção (attention_bias padrão é Falso). Toda projeção (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj e todas as projeções do indexador DSA) é livre de viés. Isso agora é prática comum; entre os principais modelos lançados em 2025, apenas o GPT-OSS ainda utiliza viés de atenção. ...