DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Jag märker att jag skriver mer och mer om @Zai_org nuförtiden, men det är som att deras innovationstakt är anmärkningsvärd. Och här är vi igen.... Om du har följt skalningslagarna vet du att det råa parameterantalet börjar ge vika för arkitektonisk effektivitet och datakvalitet. @Zai_org GLM-5 är en mästarklass i denna övergång. Vi tittar på en 744B Mixture-of-Experts (MoE) bests som bara aktiverar 40B parametrar per token. Det är smalt där det räknas och massivt där det behöver vara. På @layerlens_ai har vi aktivt utvärderat GLM-5 och du kan själv ta ut resultaten: Autonomins arkitektur Den mest framträdande innovationen här är DeepSeek Sparse Attention (DSA) kombinerat med det nya "Slime" RL-ramverket. I det gamla paradigmet handlade RLHF om att göra modeller "finare." I GLM-5 används förstärkningsinlärning för att överbrygga klyftan mellan tänkande och handling. Denna asynkrona RL-stack gör att modellen kan "leka" med komplexa, flerstegs ingenjörsuppgifter och lära sig av misslyckanden på ett sätt som efterliknar en senior ingenjör som kämpar sig igenom en PR. Det handlar inte bara om att förutsäga nästa token; Det är att förutsäga nästa lösning. Benchmarking av "generationshoppet" Dashboarden på LayerLens är inte bara en lista med siffror; Det är en karta över högdimensionellt resonemang. Här är de centrala mätvärden som definierar denna release: Mänsklighetens sista prov (HLE) [Poäng: 50,4]: Utformad som den "slutgiltiga" akademiska referenspunkten, består HLE av expertgranskade frågor som medvetet är "Google-säkra." På 50.4 återger GLM-5 inte bara fakta; den överträffar Claude 4.5 Opus (43.4) och GPT-5.2 (45.5) i verktygsförstärkt syntes. SWE-bench verifierad [Poäng: 77,8%]: Detta är guldstandarden för verklig mjukvaruutveckling. Modellen måste bläddra i ett repo, reproducera en bugg och skicka in en fungerande pull request. GLM-5 utväxlar nu slag med världens mest kraftfulla proprietära system. BrowseComp (med kontexthantering) [Betyg: 75,9]: Ett test av "kontextuell handlingskraft." Den mäter en modells förmåga att navigera på live-webbplatser och behålla minnet över långvariga interaktionshistoriker. GLM-5:s poäng leder fältet och överträffar GPT-5.2 (65,8). Vending Bench 2 [Rankad #1]: En ettårig affärssimulering som mäter uthållig planering och operativt beslutsfattande. GLM-5 avslutade med ett slutsaldo på 4 432 dollar – det högsta bland alla open source-modeller – vilket bevisar att den kan upprätthålla en sammanhängande strategi över tusentals turer. τ²-Bench [Poäng: 89,7]: Genom att testa komplexa flerstegsagentscenarier matchade GLM-5 effektivt Claude 4.5 Opus (91,6) och överträffade GPT-5.2 (85,5), vilket stärkte dess position som ett agentiskt system snarare än en chatbot. Hårdvarusuveräniteten Det finns en vacker ironi i träningsberättelsen: GLM-5 tränades helt på Huawei Ascend-infrastrukturen. Det är en påminnelse om att intelligens är substratoberoende av substrat. Du behöver inte ett specifikt kiselmärke för att nå gränsen; du behöver rätt arkitektonisk intuition och ett berg av högkvalitativa tokens – 28,5T, för att vara exakt. Varför detta är viktigt...

Topp

Rankning

Favoriter