Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Lior Alexander
Zpravodajství o nejnovějších novinkách z oblasti vývoje AI • Zakladatel @AlphaSignalAI (250 tisíc uživatelů)
ML Eng od roku 2017 • Ex-Mila
Model s 24 miliardami parametrů právě běžel na notebooku a vybral správný nástroj za méně než půl sekundy.
Skutečný příběh je, že agenti volající nástroje se nakonec stali dost rychlími, aby působili jako software.
Liquid postavil LFM2-24B-A2B pomocí hybridní architektury, která kombinuje konvoluční bloky s seskupenou pozorností dotazů v poměru 1:3.
Aktivuje se pouze 2,3 miliardy parametrů na token, i když celý model pojme 24 miliard.
Tento řídký vzor aktivace je důvodem, proč se vejde do 14,5 GB paměti a nástroje se odesílají za 385 milisekund na M4 Max.
Architektura byla navržena pomocí hardware-in-the-loop vyhledávání, což znamená, že optimalizovali strukturu modelu testováním přímo na čipech, na kterých by běžela. Žádná cloudová překladová vrstva.
Žádná API zpáteční cesta. Model, nástroje a vaše data zůstávají na stroji.
To odemkne tři věci, které dříve nebyly praktické:
1. Regulovaná odvětví mohou provozovat agenty na zaměstnaneckých noteboocích, aniž by data opustila zařízení.
2. Vývojáři mohou prototypovat multitoolové workflow bez nutnosti spravovat API klíče nebo rychlostní limity.
3. Bezpečnostní týmy mají kompletní auditní stopy bez zapojení dodavatelských subprocesorů.
Model dosáhl 80% přesnosti při jednokrokovém výběru nástrojů napříč 67 nástroji na 13 MCP serverech.
Pokud tento výkon obstojí ve velkém měřítku, je třeba aktualizovat dva předpoklady.
Za prvé, agenti na zařízení už nejsou kompromisem v životnosti baterie; Jsou to funkce pro dodržování předpisů.
Za druhé, úzké hrdlo v agentických pracovních postupech se posouvá od schopnosti modelu k vyspělosti ekosystému nástrojů.
33
Někdo právě obešel Apple Neural Engine a trénoval modely.
Neural Engine v každém Macu řady M byl navržen pro inferenci.
Spouštějte modely, netrénujte je. Žádné veřejné API, žádná dokumentace a rozhodně žádná zpětná propagace.
Výzkumník přesto reverzně analyzoval soukromá API a vytvořil transformátorovou tréninkovou smyčku, která běží přímo na hardwaru ANE vpřed a zpět.
Metoda CoreML zcela obchází.
Místo použití oficiálních nástrojů Apple projekt vytváří programy v MIL (Model Intermediate Language), kompiluje je v paměti pomocí nedokumentovaných API '_ANEClient' a předává data přes sdílené paměťové buffery IOSurface.
Váhy jsou do kompilovaných programů započítány jako konstanty. E
TRÉNOVACÍ krok ACH vysílá šest vlastních jader: pozornost vpřed, feedforward forward, poté čtyři zpětné průchody, které počítají gradienty vzhledem k vstupům.
Váhové gradienty stále běží na CPU pomocí maticových knihoven Accelerate, ale těžší práce (maticové násobení, softmax, aktivační funkce) probíhá na ANE.
To umožňuje tří věci, které dříve nebyly:
1. Trénování malých modelů lokálně bez vyčerpání baterie
2. Jemné ladění přímo na zařízení bez odesílání dat na server nebo spuštění GPU
3. Zjistěte, co hardware ANE skutečně dokáže, když ignorujete omezení Applu
Pokud se tento přístup rozšíří, další vlna AI na zařízení přestane být o spouštění cizího zmrazeného modelu.

Vali Neagu2. 3. 21:07
ANO! Někdo reverzně rozložil Apple Neural Engine a natrénoval na něm neuronovou síť.
Apple to nikdy nedovolil. ANE je pouze na základě inference. Žádné veřejné API, žádná dokumentace.
Stejně ho otevřeli.
Proč je to důležité:
• M4 ANE = 6,6 TFLOPS/W vs 0,08 u A100 (80× efektivnější)
• "38 MAXIMÁLNĚ" je lež – skutečná propustnost je 19 TFLOPS FP16
• Váš Mac mini má tento čip většinou nečinný
Překlad: lokální AI inference, která je rychlejší A téměř nepotřebuje žádnou energii.
Stále je to raný výzkum, ale dveře jsou nyní otevřené.
→
#AI #MachineLearning #AppleSilicon #LocalAI #OpenSource #ANE #CoreML #AppleSilicon #NPU #KCORES

649
Alibaba dodala čtyři malé modely Qwen 3.5 s trikem převzatým z modelu 397B: uzavřenou DeltaNet hybridní pozornost.
Tři vrstvy lineární pozornosti na každou jednu vrstvu plné pozornosti.
Lineární vrstvy zvládají rutinní výpočty s konstantním využitím paměti. Vrstvy plné pozornosti se střílejí jen tehdy, když záleží na přesnosti.
Tento poměr 3:1 udržuje paměť rovnou a zároveň vysokou kvalitu, což je důvod, proč i model 0,8B podporuje kontextové okno o 262 000 tokenech.
Každý model zpracovává text, obrázky a video nativně.
Poté už žádný adaptér nepřišroubovaný. Vision enkoder používá 3D konvoluce k zachycení pohybu ve videu a poté spojuje prvky z více vrstev místo pouze z finální.
9B poráží GPT-5-Nano o 13 bodů v multimodálním porozumění, 17 bodů ve vizuální matematice a 30 bodů v parsování dokumentů. Verze 0.8B běží na telefonu a zpracovává video. 4B pojme 8GB VRAM a funguje jako multimodální agent. Všechny čtyři jsou Apache 2.0.
Pokud tato architektura vydrží, malý modelový prostor se stal spíše závodem schopností než velikostí.
Před rokem znamenalo lokální spuštění multimodálního modelu model 13B+ a vážnou grafickou kartu.
Nyní 4B model s kontextem 262K zpracovává text, obrázky a video z uživatelského hardwaru.
Propast mezi edge modely a vlajkovými modely se zmenšuje rychleji než mezi vlajkovými modely a lidmi.

Qwen2. 3. 21:18
🚀 Představujeme řadu Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Více inteligence, méně výpočetní kapacity.
Tyto malé modely jsou postaveny na stejném základu Qwen3.5 — nativní multimodální, vylepšená architektura, škálované RL:
• 0,8B / 2B → malé, rychlé, skvělé pro edge zařízení
• 4B → překvapivě silná multimodální základna pro lehké látky
• 9B → kompaktní, ale už se tak dotýkal mnohem větších modelů
A ano — vydáváme také základní modely.
Doufáme, že to lépe podporuje výzkum, experimentování a skutečné průmyslové inovace.
Objímající obličej:
ModelScope:

250
Top
Hodnocení
Oblíbené
