Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Останнім часом я все більше пишу про @Zai_org, але здається, що їхній темп інновацій вражає.
І ось ми знову тут....
Якщо ви дотримувалися законів масштабування, ви знаєте, що сирий підрахунок параметрів починає поступатися архітектурній ефективності та якості даних. @Zai_org GLM-5 — це майстер-клас у цьому переході. Ми розглядаємо 744B Mix-of-Experts (MoE), який активує лише 40B параметрів на токен. Вона бідна там, де це важливо, і величезна там, де потрібно.
У @layerlens_ai ми активно оцінюємо GLM-5, і ви можете отримати результати самостійно:
Архітектура автономії
Головною інновацією тут є DeepSeek Sparse Attention (DSA) у поєднанні з новою RL Framework «Slime».
У старій парадигмі RLHF був про те, щоб зробити моделі «кращими». У GLM-5 навчання за допомогою підкріплення використовується для подолання розриву між мисленням і діяльністю. Цей асинхронний стек RL дозволяє моделі «гратися» зі складними багатокроковими інженерними завданнями, навчаючись на збоях так, що імітує досвід старшого інженера, який проходить PR. Це не просто передбачення наступного жетона; Це передбачення наступного рішення.
Бенчмаркинг «поколінного стрибка»
Панель керування на LayerLens — це не просто список чисел; Це карта високовимірного мислення. Ось основні метрики, які визначають цей реліз:
Іспит Human's Last Exam (HLE) [Бал: 50.4]: Розроблений як «фінальний» академічний еталон, HLE складається з перевірених експертами питань, які навмисно «захищені Google». На частоті 50.4 GLM-5 — це не просто пригадування фактів; він перевершує Claude 4.5 Opus (43.4) і GPT-5.2 (45.5) у інструментальному синтезі.
SWE-bench Verified [Бал: 77,8%]: Це золотий стандарт для реальної розробки програмного забезпечення. Модель повинна переглядати репозиторій, відтворювати помилку та надсилати функціональний pull request. GLM-5 зараз веде удари з найпотужнішими пропрієтарними системами світу.
BrowseComp (з управлінням контекстом) [Бал: 75.9]: Тест «контекстуальної агентності». Він вимірює здатність моделі навігувати живі вебсайти та зберігати пам'ять протягом розширених історій взаємодії. Оцінка GLM-5 лідирує, випереджаючи GPT-5.2 (65.8).
Vending Bench 2 [Рейтинг #1]: річна бізнес-симуляція, що вимірює стійке планування та прийняття операційних рішень. GLM-5 завершив сезон із остаточним балансом рахунку $4,432 — найвищим показником серед усіх моделей відкритого коду — що доводить, що він здатний підтримувати послідовну стратегію протягом тисяч ходів.
τ²-Bench [Оцінка: 89.7]: Тестуючи складні багатокрокові сценарії агентів, GLM-5 фактично зрівнявся з Claude 4.5 Opus (91.6) і перевищив GPT-5.2 (85.5), посиливши свою позицію як агентної системи, а не чат-бота.
Суверенітет апаратного забезпечення
У цій історії навчання є прекрасна іронія: GLM-5 був повністю навчений на інфраструктурі Huawei Ascend. Це нагадування, що інтелект незалежний від субстрату. Для досягнення кордону не потрібен конкретний бренд кремнію; вам потрібна правильна архітектурна інтуїція та гора якісних токенів — 28,5T, якщо бути точним.
Чому це важливо...

Найкращі
Рейтинг
Вибране
