🏎️ gemma-webgpu: bezzávislostní, bleskově rychlá Gemma 1B běžící zcela ve vašem prohlížeči. Plný vibrátor zakódovaný z mého mobilu. 🔥 136,8 tok/s na M4 Macu (3,3x rychlejší než transformers.js) 📱 101 tok/s na iPhonu 17 (270M), 34 tok/s (1B) Co jsme postavili od základu: • 18 ručně psaných WGSL výpočetních shaderů s fúzními operacemi (fusedNormAdd ušetří 36 GPU výstupů na jeden forward pass) • Q8_0 dekvantizace přímo na GPU — vyšší kvalita než q4 A rychlejší • Range request loading loading váhuje vrstvu po vrstvě (~44MB chunků), nahrává se na GPU, okamžitě uvolňuje JS paměť. Maximální halda: ~50MB i pro model s 1GB • Tento trik se streamováním je důvod, proč 1B běží na iPhonu. nikdy neobsahuje celý model v RAM 12KB se zkrátilo. Žádné závislosti. npm install gemma-webgpu