DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Mă surprind scriind tot mai mult despre @Zai_org în zilele noastre, dar parcă ritmul lor de inovație este remarcabil. Și iată-ne din nou.... Dacă ai urmat legile de scalare, știi că numărul brut de parametri începe să influențeze eficiența arhitecturală și calitatea datelor. @Zai_org GLM-5 este o adevărată lecție în această tranziție. Ne uităm la o bestie 744B Mix-of-Experts (MoE) care activează doar 40B parametri per token. Este slab acolo unde contează și masiv acolo unde trebuie. La @layerlens_ai am evaluat activ GLM-5 și puteți vedea rezultatele singuri: Arhitectura autonomiei Inovația remarcabilă aici este DeepSeek Sparse Attention (DSA) combinată cu noul "Slime" RL Framework. În vechea paradigmă, RLHF era despre a face modelele "mai frumoase". În GLM-5, Învățarea prin Întărire este folosită pentru a face legătura între gândire și acțiune. Acest stack RL asincron permite modelului să "joace" cu sarcini inginerești complexe, în mai mulți pași, învățând din eșecuri într-un mod care imită un inginer senior care se chinuie cu un PR. Nu este vorba doar de a prezice următorul jeton; prezice următoarea soluție. Evaluarea "saltului generațional" Dashboard-ul de pe LayerLens nu este doar o listă de cifre; Este o hartă a raționamentului de înaltă dimensiune. Iată indicatorii de bază care definesc această versiune: Examenul Umanității Ultim (HLE) [Scor: 50,4]: Conceput să fie reperul academic "final", HLE constă în întrebări verificate de experți, intenționat "rezistente la Google". La 50,4, GLM-5 nu doar își amintește faptele; depășește Claude 4.5 Opus (43.4) și GPT-5.2 (45.5) în sinteza augmentată cu unelte. SWE-bench verificat [Scor: 77,8%]: Acesta este standardul de aur pentru ingineria software din lumea reală. Modelul trebuie să navigheze printr-un repo, să reproducă un bug și să trimită o pull request funcțională. GLM-5 schimbă acum lovituri cu cele mai puternice sisteme proprietare din lume. BrowseComp (cu Context Management) [Scor: 75.9]: Un test al "agenției contextuale". Măsoară capacitatea unui model de a naviga pe site-uri live și de a menține memoria pe parcursul unor istorice extinse de interacțiune. Scorul lui GLM-5 conduce, depășind GPT-5.2 (65,8). Vending Bench 2 [Clasat #1]: O simulare de afaceri pe un an care măsoară planificarea susținută și luarea deciziilor operaționale. GLM-5 a încheiat cu un sold final al contului de 4.432 de dolari — cel mai mare dintre toate modelele open-source — demonstrând că poate menține o strategie coerentă pe mii de ture. τ²-Bench [Scor: 89,7]: Testând scenarii complexe de agent în mai mulți pași, GLM-5 a egalat eficient Claude 4.5 Opus (91.6) și a depășit GPT-5.2 (85.5), consolidându-i poziția de sistem agent, nu de chatbot. Suveranitatea hardware-ului Există o ironie frumoasă în povestea de antrenament: GLM-5 a fost antrenat în întregime pe infrastructura Huawei Ascend. Este un memento că inteligența este independentă de substrat. Nu ai nevoie de un anumit brand de siliciu pentru a ajunge la frontieră; ai nevoie de intuiția arhitecturală potrivită și de un munte de jetoane de înaltă calitate—mai exact, 28,5T. De ce contează acest lucru...

Limită superioară

Clasament

Favorite