Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A exploração de fronteira das arquiteturas LLM tem convergido em grande parte.
Vasculhei o código dos transformadores HuggingFace do recém-lançado GLM-5 da @Zai_org (zai-org/GLM-5).
Aqui está uma análise detalhada da arquitetura e o que ela nos diz sobre para onde o design de LLMs está caminhando.
Resumo; DR: Arquitetonicamente, o GLM-5 segue de perto o DeepSeek-V3 com ajustes de botão menores.
ATENÇÃO: MLA substitui GQA
A maior mudança do GLM-4.7 para o GLM-5 é a atenção.
O GLM-4.7 usava Atenção de Consulta Agrupada (GQA) padrão com 96 cabeças Q, cabeças de 8 KV e projeções separadas q/k/v.
O GLM-5 abandona tudo isso e adota a Atenção Latente Multi-cabeça (MLA) do DeepSeek.
No pipeline MLA, as consultas passam por uma projeção em dois estágios no estilo LoRA:
oculto -> q_a_proj para ranqueamento 2048 -> RMSNorm -> q_b_proj para 64 cabeças * 256 dim.
Chaves e valores são comprimidos conjuntamente em um único gargalo de baixo rango:
oculto -> kv_a_proj para o rank 512+64 -> dividido em um caminho KV latente e um caminho RoPE.
A parte latente é expandida de volta via kv_b_proj para 64 cabeças de (192 nope + 256 valor) dims.
Esse é exatamente o mesmo design MLA do DeepSeek-V3.
O GLM-5 apenas ajusta as dimensões: q_lora_rank 2048 vs 1536, v_head_dim 256 vs 128, qk_nope_head_dim 192 vs 128.
O kv_lora_rank (512) e qk_rope_head_dim (64) são idênticos.
Além disso, não há viés em nenhum lugar na atenção (attention_bias padrão é Falso).
Toda projeção (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj e todas as projeções do indexador DSA) é livre de viés.
Isso agora é prática comum; entre os principais modelos lançados em 2025, apenas o GPT-OSS ainda utiliza viés de atenção.
...
Melhores
Classificação
Favoritos
