🏎️ gemma-webgpu: en beroendefri, blixtsnabb Gemma 1B som körs helt i din webbläsare. Full vibe kodad från min mobiltelefon. 🔥 136,8 tok/s på M4 Mac (3,3 gånger snabbare än transformers.js) 📱 101 tok/s på iPhone 17 (270M), 34 tok/s (1B) Vad vi byggde från grunden: • 18 handskrivna WGSL-beräkningsshaders med fused ops (fusedNormAdd sparar 36 GPU-dispatch per framåtpass) • Q8_0 avkvantisering direkt på GPU:n — högre kvalitet än q4 OCH snabbare • Strömning av räckviddsförfrågningar laddar lager för lager (~44MB bitar), laddar upp till GPU, frigör JS-minne omedelbart. Maximal heap: ~50MB även för 1GB-modellen • Det är just det streamingtricket som gör att 1B fungerar på iPhone. den har aldrig hela modellen i RAM 12KB gzippad. Inga beroenden. npm install gemma-webgpu