Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Останнім часом я все більше пишу про @Zai_org, але здається, що їхній темп інновацій вражає. І ось ми знову тут.... Якщо ви дотримувалися законів масштабування, ви знаєте, що сирий підрахунок параметрів починає поступатися архітектурній ефективності та якості даних. @Zai_org GLM-5 — це майстер-клас у цьому переході. Ми розглядаємо 744B Mix-of-Experts (MoE), який активує лише 40B параметрів на токен. Вона бідна там, де це важливо, і величезна там, де потрібно. У @layerlens_ai ми активно оцінюємо GLM-5, і ви можете отримати результати самостійно: Архітектура автономії Головною інновацією тут є DeepSeek Sparse Attention (DSA) у поєднанні з новою RL Framework «Slime». У старій парадигмі RLHF був про те, щоб зробити моделі «кращими». У GLM-5 навчання за допомогою підкріплення використовується для подолання розриву між мисленням і діяльністю. Цей асинхронний стек RL дозволяє моделі «гратися» зі складними багатокроковими інженерними завданнями, навчаючись на збоях так, що імітує досвід старшого інженера, який проходить PR. Це не просто передбачення наступного жетона; Це передбачення наступного рішення. Бенчмаркинг «поколінного стрибка» Панель керування на LayerLens — це не просто список чисел; Це карта високовимірного мислення. Ось основні метрики, які визначають цей реліз: Іспит Human's Last Exam (HLE) [Бал: 50.4]: Розроблений як «фінальний» академічний еталон, HLE складається з перевірених експертами питань, які навмисно «захищені Google». На частоті 50.4 GLM-5 — це не просто пригадування фактів; він перевершує Claude 4.5 Opus (43.4) і GPT-5.2 (45.5) у інструментальному синтезі. SWE-bench Verified [Бал: 77,8%]: Це золотий стандарт для реальної розробки програмного забезпечення. Модель повинна переглядати репозиторій, відтворювати помилку та надсилати функціональний pull request. GLM-5 зараз веде удари з найпотужнішими пропрієтарними системами світу. BrowseComp (з управлінням контекстом) [Бал: 75.9]: Тест «контекстуальної агентності». Він вимірює здатність моделі навігувати живі вебсайти та зберігати пам'ять протягом розширених історій взаємодії. Оцінка GLM-5 лідирує, випереджаючи GPT-5.2 (65.8). Vending Bench 2 [Рейтинг #1]: річна бізнес-симуляція, що вимірює стійке планування та прийняття операційних рішень. GLM-5 завершив сезон із остаточним балансом рахунку $4,432 — найвищим показником серед усіх моделей відкритого коду — що доводить, що він здатний підтримувати послідовну стратегію протягом тисяч ходів. τ²-Bench [Оцінка: 89.7]: Тестуючи складні багатокрокові сценарії агентів, GLM-5 фактично зрівнявся з Claude 4.5 Opus (91.6) і перевищив GPT-5.2 (85.5), посиливши свою позицію як агентної системи, а не чат-бота. Суверенітет апаратного забезпечення У цій історії навчання є прекрасна іронія: GLM-5 був повністю навчений на інфраструктурі Huawei Ascend. Це нагадування, що інтелект незалежний від субстрату. Для досягнення кордону не потрібен конкретний бренд кремнію; вам потрібна правильна архітектурна інтуїція та гора якісних токенів — 28,5T, якщо бути точним. Чому це важливо...

Найкращі

Рейтинг

Вибране