K-Means sederhana. Membuatnya cepat di GPU tidak. Flash-KMeans adalah implementasi sadar IO dari k-means tepat yang memikirkan kembali algoritme seputar kemacetan GPU modern. Dengan menyerang kemacetan memori secara langsung, Flash-KMeans mencapai: - Kecepatan 30x lebih dari cuML - Kecepatan 200x melalui FAISS Menggunakan algoritme yang sama persis dengan direkayasa untuk perangkat keras saat ini. Pada skala jutaan, Flash-KMeans dapat menyelesaikan iterasi k-means dalam milidetik. Inilah mengapa ini penting hari ini: K-means selalu menjadi primitif offline. Sesuatu yang Anda jalankan sekali untuk memproses data terlebih dahulu dan melanjutkan. Percepatan ini mengubah itu. ↳ Database vektor seperti FAISS menggunakan k-means untuk membangun indeks pencarian. K-means yang lebih cepat berarti Anda dapat mengindeks ulang secara dinamis saat data berubah, bukan mengelompokkannya dalam semalam. ↳ Metode kuantisasi LLM membutuhkan k-means untuk menemukan buku kode berat optimal, per lapisan, berulang kali. Apa yang memakan waktu berjam-jam sekarang bisa memakan waktu beberapa menit. ↳ Model MoE membutuhkan perutean token cepat pada waktu inferensi. Milidetik k-berarti membuatnya layak untuk menjalankan ini di dalam loop inferensi, tidak hanya dalam prapemrosesan. 200x lebih dari FAISS adalah angka yang harus diinternalisasi. FAISS adalah standar industri. Sebagian besar sistem pencarian vektor produksi berada di atasnya. Tautkan ke kertas dan kode di tweet berikutnya!