DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Ik merk dat ik de laatste tijd steeds meer schrijf over @Zai_org, maar het lijkt wel alsof hun innovatietempo opmerkelijk is. En hier zijn we weer.... Als je de schalingwetten hebt gevolgd, weet je dat het aantal ruwe parameters begint te wijken voor architectonische efficiëntie en datakwaliteit. @Zai_org GLM-5 is een meesterwerk in deze overgang. We kijken naar een 744B Mixture-of-Experts (MoE) monster dat slechts 40B parameters per token activeert. Het is slank waar het telt en massief waar het moet zijn. Bij @layerlens_ai hebben we GLM-5 actief geëvalueerd en je kunt de resultaten zelf zien: De Architectuur van Autonomie De opvallende innovatie hier is de DeepSeek Sparse Attention (DSA) gecombineerd met het nieuwe "Slime" RL Framework. In het oude paradigma ging RLHF over het "nicer" maken van modellen. In GLM-5 wordt Reinforcement Learning gebruikt om de kloof tussen denken en doen te overbruggen. Deze asynchrone RL-stack stelt het model in staat om "te spelen" met complexe, meerstaps engineeringtaken, lerend van falen op een manier die een senior engineer nabootst die door een PR heen werkt. Het voorspelt niet alleen de volgende token; het voorspelt de volgende oplossing. Benchmarking de "Generational Leap" Het dashboard op LayerLens is niet zomaar een lijst met cijfers; het is een kaart van hoogdimensionale redenering. Hier zijn de kernmetrics die deze release definiëren: De Laatste Examen van de Mensheid (HLE) [Score: 50.4]: Ontworpen om de "finale" academische benchmark te zijn, bestaat HLE uit door experts goedgekeurde vragen die opzettelijk "Google-proof" zijn. Met 50.4 herinnert GLM-5 niet alleen feiten; het overtreft Claude 4.5 Opus (43.4) en GPT-5.2 (45.5) in tool-geaugmenteerde synthese. SWE-bench Geverifieerd [Score: 77.8%]: Dit is de gouden standaard voor software-engineering in de echte wereld. Het model moet een repo doorbladeren, een bug reproduceren en een functionele pull request indienen. GLM-5 gaat nu de strijd aan met de krachtigste propriëtaire systemen ter wereld. BrowseComp (met Contextbeheer) [Score: 75.9]: Een test van "contextuele agency." Het meet het vermogen van een model om live websites te navigeren en geheugen te behouden over uitgebreide interactiegeschiedenissen. GLM-5’s score leidt de groep, beter dan GPT-5.2 (65.8). Vending Bench 2 [Gerangschikt #1]: Een jaarlange simulatie van een bedrijf die duurzame planning en operationele besluitvorming meet. GLM-5 eindigde met een eindsaldo van $4,432—de hoogste onder alle open-source modellen—en bewijst dat het een coherente strategie kan behouden over duizenden beurten. τ²-Bench [Score: 89.7]: Het testen van complexe meerstaps agentscenario's, GLM-5 evenaarde effectief Claude 4.5 Opus (91.6) en overtrof GPT-5.2 (85.5), wat zijn positie als een agentisch systeem in plaats van een chatbot versterkt. De Hardware Soevereiniteit Er is een mooie ironie in het trainingsverhaal: GLM-5 is volledig getraind op Huawei Ascend-infrastructuur. Het herinnert eraan dat intelligentie substraat-onafhankelijk is. Je hebt geen specifiek merk silicium nodig om de grens te bereiken; je hebt de juiste architectonische intuïtie en een berg hoogwaardige tokens nodig—28.5T, om precies te zijn. Waarom Dit Belangrijk Is...

Boven

Positie

Favorieten