🏎️ gemma-webgpu: Gemma 1B tanpa ketergantungan dan sangat cepat berjalan sepenuhnya di browser Anda. Getaran penuh dikodekan dari ponsel saya. 🔥 136,8 tok/dtk di Mac M4 (3,3x lebih cepat dari transformers.js) 📱 101 tok/dtk di iPhone 17 (270M), 34 tok/dtk (1B) Apa yang kami bangun dari awal: • 18 shader komputasi WGSL tulisan tangan dengan operasi yang menyatu (fusedNormAdd menyimpan 36 pengiriman GPU per umpan maju) • Q8_0 dekuantisasi langsung pada GPU — kualitas lebih tinggi dari q4 DAN lebih cepat • Streaming permintaan rentang memuat bobot lapis demi lapis (~44MB chunks), mengunggah ke GPU, segera membebaskan memori JS. Tumpukan puncak: ~50MB bahkan untuk model 1GB • Trik streaming itulah yang membuat 1B berjalan di iPhone. itu tidak pernah menampung model lengkap dalam RAM 12KB di-zip. Dependensi nol. npm menginstal gemma-webgpu