🏎️ gemma-webgpu: нулевая зависимость, молниеносный Gemma 1B, работающий полностью в вашем браузере. Полная атмосфера, закодированная с моего мобильного телефона. 🔥 136.8 ток/с на M4 Mac (в 3.3 раза быстрее, чем transformers.js) 📱 101 ток/с на iPhone 17 (270M), 34 ток/с (1B) Что мы построили с нуля: • 18 написанных вручную WGSL вычислительных шейдеров с объединенными операциями (fusedNormAdd экономит 36 вызовов GPU за один проход) • Деквантизация Q8_0 непосредственно на GPU — качество выше, чем у q4 И быстрее • Запросы диапазона потоковой загрузки весов по слоям (~44MB куски), загрузка в GPU, немедленное освобождение памяти JS. Пиковая куча: ~50MB даже для модели 1GB • Этот трюк со стримингом позволяет 1B работать на iPhone. Он никогда не держит полную модель в ОЗУ 12KB в сжатом виде. Никаких зависимостей. npm install gemma-webgpu