DApp Store | Web3 Hub for hendelser og spill

Populære emner

Jeg tar meg selv i å skrive mer og mer om @Zai_org for tiden, men det er som om innovasjonstakten deres er bemerkelsesverdig. Og her er vi igjen.... Hvis du har fulgt skaleringslovene, vet du at rå parametertall begynner å vike for arkitektonisk effektivitet og datakvalitet. @Zai_org GLM-5 er en mesterklasse i denne overgangen. Vi ser på et 744B Mixture-of-Experts (MoE) beist som bare aktiverer 40B parametere per token. Det er slankt der det teller, og massivt der det skal være. Hos @layerlens_ai har vi aktivt evaluert GLM-5, og du kan bare finne resultatene selv: Autonomiens arkitektur Den mest fremtredende innovasjonen her er DeepSeek Sparse Attention (DSA) kombinert med det nye "Slime" RL-rammeverket. I det gamle paradigmet handlet RLHF om å gjøre modellene «finere». I GLM-5 brukes forsterkningslæring for å bygge bro mellom tenkning og handling. Denne asynkrone RL-stakken lar modellen «leke» med komplekse, flertrinns ingeniøroppgaver, og lære av feil på en måte som etterligner en senioringeniør som jobber seg gjennom en PR. Det handler ikke bare om å forutsi neste token; Det er å forutsi neste løsning. Benchmarking av «Generasjonsspranget» Dashbordet på LayerLens er ikke bare en liste med tall; Det er et kart over høydimensjonal resonnering. Her er kjernemetrikkene som definerer denne utgivelsen: Humanity's Last Exam (HLE) [Poengsum: 50,4]: Designet som den «endelige» akademiske målestokken, består HLE av ekspertvurderte spørsmål som bevisst er «Google-sikre». På 50.4 husker GLM-5 ikke bare fakta; den overgår Claude 4.5 Opus (43.4) og GPT-5.2 (45.5) i verktøyforsterket syntese. SWE-bench verifisert [Score: 77,8%]: Dette er gullstandarden for virkelig programvareutvikling. Modellen må bla gjennom et repo, gjenskape en feil og sende inn en funksjonell pull request. GLM-5 utveksler nå slag med verdens kraftigste proprietære systemer. BrowseComp (med kontekststyring) [Score: 75,9]: En test av «kontekstuell handlekraft». Den måler en modells evne til å navigere på levende nettsteder og opprettholde hukommelsen gjennom utvidede interaksjonshistorikker. GLM-5s poengsum leder feltet, og overgår GPT-5.2 (65,8). Vending Bench 2 [Rangert #1]: En ettårig forretningssimulering som måler vedvarende planlegging og operative beslutninger. GLM-5 endte med en endelig kontosaldo på 4 432 dollar – det høyeste blant alle åpen kildekode-modeller – noe som beviser at de kan opprettholde en sammenhengende strategi over tusenvis av turer. τ²-Bench [Score: 89,7]: Ved testing av komplekse flerstegs agentscenarier matchet GLM-5 effektivt Claude 4.5 Opus (91.6) og overgikk GPT-5.2 (85.5), noe som styrket sin posisjon som et agentisk system snarere enn en chatbot. Maskinvaresuvereniteten Det er en vakker ironi i treningshistorien: GLM-5 ble trent helt på Huawei Ascend-infrastruktur. Det er en påminnelse om at intelligens er substratuavhengig. Du trenger ikke et spesifikt silisiummerke for å nå grensen; du trenger riktig arkitektonisk intuisjon og et fjell av høykvalitets tokens—28,5T, for å være nøyaktig. Hvorfor dette er viktig...

Topp

Rangering

Favoritter