Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'exploration de pointe des architectures LLM a largement convergé.
J'ai fouillé dans le code des transformateurs de HuggingFace pour le GLM-5 nouvellement publié de @Zai_org (zai-org/GLM-5).
Voici une analyse architecturale détaillée, et ce qu'elle nous dit sur la direction que prend la conception des LLM.
TL;DR : Architectoniquement, le GLM-5 suit de près le DeepSeek-V3 avec un léger réglage.
ATTENTION : MLA remplace GQA
Le plus grand changement du GLM-4.7 au GLM-5 est l'attention.
Le GLM-4.7 utilisait l'attention par requête groupée standard (GQA) avec 96 têtes Q, 8 têtes KV, des projections q/k/v séparées.
Le GLM-5 abandonne tout cela et adopte l'attention latente multi-tête (MLA) de DeepSeek.
Dans le pipeline MLA, les requêtes passent par une projection en deux étapes de style LoRA :
hidden -> q_a_proj pour un rang de 2048 -> RMSNorm -> q_b_proj vers 64 têtes * 256 dim.
Les clés et les valeurs sont conjointement compressées en un seul goulet d'étranglement de faible rang :
hidden -> kv_a_proj pour un rang de 512+64 -> divisé en un chemin KV latent et un chemin RoPE.
La partie latente est ensuite étendue via kv_b_proj en 64 têtes de (192 nope + 256 valeur) dims.
C'est exactement le même design MLA que DeepSeek-V3.
Le GLM-5 ajuste simplement les dimensions : q_lora_rank 2048 contre 1536, v_head_dim 256 contre 128, qk_nope_head_dim 192 contre 128.
Le kv_lora_rank (512) et qk_rope_head_dim (64) sont identiques.
De plus, pas de biais nulle part dans l'attention (attention_bias par défaut à False).
Chaque projection (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, et toutes les projections d'indexeur DSA) est sans biais.
C'est maintenant une pratique standard ; parmi les principaux modèles publiés en 2025, seul GPT-oss utilise encore le biais d'attention.
...
Meilleurs
Classement
Favoris
