Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
K-Means basit. GPU'da hızlı yapmak da öyle değil.
Flash-KMeans, modern GPU darboğazları etrafında algoritmayı yeniden düşünen tam k-means'ın IO farkında bir uygulamasıdır.
Bellek darboğazlarına doğrudan saldırarak Flash-KMeans şunları başarır:
- cuML üzerinden 30 kat hızlanma
- FAISS üzerinde 200x hızlanma
Aynı algoritmayı kullanıyorum, sadece günümüz donanımı için tasarlanmış.
Milyonluk ölçekte, Flash-KMeans k-means yinelemesini milisaniyeler içinde tamamlayabilir.
İşte bugün bunun neden önemli olduğu:
K-means her zaman çevrimdışı bir ilkel olmuştur. Verileri ön işlemek ve devam etmek için bir kez çalıştırdığınız bir şey. Bu hızlanmalar bunu değiştiriyor.
↳ FAISS gibi vektör veritabanları, arama indeksleri oluşturmak için k-means kullanır. Daha hızlı k-mean, veri değiştikçe dinamik olarak yeniden indeksleme yapabilmeniz anlamına gelir, bir gecede toplu olarak değil.
↳ LLM kuantizasyon yöntemleri, katman başına optimal ağırlık kod kitaplarını bulmak için k-ortalamalara ihtiyaç duyar. Saatler süren şey şimdi dakikalar sürebilir.
↳ MoE modelleri çıkarım zamanında hızlı token yönlendirmeye ihtiyaç duyar. Milisaniye k-mean, bunu sadece ön işlemede değil, çıkarım döngüsü içinde çalıştırmayı mümkün kılar.
FAISS'in üzerinde 200 kat ölçü içselleştirilecek sayı. FAISS sektör standardıdır. Çoğu üretim vektör arama sistemi bunun üzerinde durur.
Bir sonraki tweette makaleye ve kodun linkine ulaşın!
En İyiler
Sıralama
Takip Listesi
