🏎️ gemma-webgpu: een zero-dependency, razendsnelle Gemma 1B die volledig in je browser draait. Volledige vibe gecodeerd vanaf mijn mobiele telefoon. 🔥 136,8 tok/s op M4 Mac (3,3x sneller dan transformers.js) 📱 101 tok/s op iPhone 17 (270M), 34 tok/s (1B) Wat we vanaf nul hebben gebouwd: • 18 handgeschreven WGSL compute shaders met samengevoegde bewerkingen (fusedNormAdd bespaart 36 GPU dispatches per forward pass) • Q8_0 dequantisatie direct op GPU — hogere kwaliteit dan q4 EN sneller • Range request streaming laadt gewichten laag voor laag (~44MB chunks), uploadt naar GPU, maakt JS-geheugen onmiddellijk vrij. Piekniveau: ~50MB zelfs voor het 1GB model • Die streamingtruc is wat 1B op iPhone laat draaien. het houdt nooit het volledige model in RAM 12KB gzipped. Geen afhankelijkheden. npm install gemma-webgpu