K-Means este simplu. Să o faci rapid pe GPU nu este. Flash-KMeans este o implementare conștientă de IO-uri a exactelor k-means care regândește algoritmul în jurul blocajelor GPU-urilor moderne. Prin atacarea directă a blocajelor de memorie, Flash-KMeans realizează: - Accelerare de 30x față de cuML - Accelerare de 200x față de FAISS Folosind exact același algoritm, doar că proiectat pentru hardware-ul de astăzi. La scara unui milion, Flash-KMeans pot finaliza o iterație k-media în milisecunde. Iată de ce contează acest lucru astăzi: K-means a fost întotdeauna o primitivă offline. Ceva ce rulezi o dată pentru a preprocesa datele și apoi să mergi mai departe. Aceste accelerări schimbă asta. ↳ Bazele de date vectoriale precum FAISS folosesc k-means pentru a construi indici de căutare. K-means mai rapid înseamnă că poți reindexa dinamic pe măsură ce datele se schimbă, nu să le faci în loturi peste noapte. ↳ Metodele de cuantificare LLM necesită k-means pentru a găsi în mod repetat cărțile de coduri cu greutăți optime, pe strat. Ce durează ore întregi poate lua acum minute. ↳ Modelele MoE necesită rutare rapidă a token-urilor la momentul inferenței. Milisecunda k-media face viabilă rularea acestui lucru în bucla de inferență, nu doar în preprocesare. Numărul de 200x peste FAISS este cifra de internalizat. FAISS este standardul industriei. Majoritatea sistemelor de căutare vectorială de producție stau deasupra acestuia. Link către lucrare și cod în următorul tweet!