DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

L'exploration de pointe des architectures LLM a largement convergé. J'ai fouillé dans le code des transformateurs de HuggingFace pour le GLM-5 nouvellement publié de @Zai_org (zai-org/GLM-5). Voici une analyse architecturale détaillée, et ce qu'elle nous dit sur la direction que prend la conception des LLM. TL;DR : Architectoniquement, le GLM-5 suit de près le DeepSeek-V3 avec un léger réglage. ATTENTION : MLA remplace GQA Le plus grand changement du GLM-4.7 au GLM-5 est l'attention. Le GLM-4.7 utilisait l'attention par requête groupée standard (GQA) avec 96 têtes Q, 8 têtes KV, des projections q/k/v séparées. Le GLM-5 abandonne tout cela et adopte l'attention latente multi-tête (MLA) de DeepSeek. Dans le pipeline MLA, les requêtes passent par une projection en deux étapes de style LoRA : hidden -> q_a_proj pour un rang de 2048 -> RMSNorm -> q_b_proj vers 64 têtes * 256 dim. Les clés et les valeurs sont conjointement compressées en un seul goulet d'étranglement de faible rang : hidden -> kv_a_proj pour un rang de 512+64 -> divisé en un chemin KV latent et un chemin RoPE. La partie latente est ensuite étendue via kv_b_proj en 64 têtes de (192 nope + 256 valeur) dims. C'est exactement le même design MLA que DeepSeek-V3. Le GLM-5 ajuste simplement les dimensions : q_lora_rank 2048 contre 1536, v_head_dim 256 contre 128, qk_nope_head_dim 192 contre 128. Le kv_lora_rank (512) et qk_rope_head_dim (64) sont identiques. De plus, pas de biais nulle part dans l'attention (attention_bias par défaut à False). Chaque projection (q_a_proj, q_b_proj, kv_a_proj, kv_b_proj, o_proj, et toutes les projections d'indexeur DSA) est sans biais. C'est maintenant une pratique standard ; parmi les principaux modèles publiés en 2025, seul GPT-oss utilise encore le biais d'attention. ...

Meilleurs

Classement

Favoris