🏎️ gemma-webgpu:依存性ゼロで高速なGemma 1Bで、完全にブラウザ上で動作します。携帯電話からフルバイドされた雰囲気。 🔥 M4 Macで136.8 tok/s(transformers.jsより3.3倍速い) 📱 iPhone 17(270M)で101 tok/s、34 tok/s(1B) 私たちがゼロから築き上げたもの: • 18個の手書きWGSL計算シェーダー(フューズオペレーション付き)(fusedNormAddはフォワードパスあたり36回のGPUディスパッチを節約) ・Q8_0 GPU上で直接デクォンタイズ — q4よりも高品質かつ高速 • レンジリクエストストリーミングはレイヤーごとに重み(約44MBチャンク)を読み込み、GPUにアップロードするとJSメモリが即座に解放されます。ピークヒープ:1GBモデルでも~50MB ・そのストリーミングのトリックが1BをiPhoneで動かしているのです。RAMにはモデル全体を収めることはありません 12KBがgzip化しました。依存関係はゼロです。NPM Install Gemma-WebGPU