K-Means é simples. Torná-lo rápido em GPU não é. Flash-KMeans é uma implementação ciente de IO do k-means exato que repensa o algoritmo em torno dos gargalos modernos de GPU. Atacando diretamente os gargalos de memória, o Flash-KMeans alcança: - 30x de aceleração em relação ao cuML - 200x de aceleração em relação ao FAISS Usando o mesmo algoritmo exato, apenas projetado para o hardware de hoje. Na escala de um milhão, o Flash-KMeans pode completar uma iteração de k-means em milissegundos. Aqui está o porquê disso ser importante hoje: O k-means sempre foi um primitivo offline. Algo que você executa uma vez para pré-processar dados e seguir em frente. Essas acelerações mudam isso. ↳ Bancos de dados vetoriais como o FAISS usam k-means para construir índices de busca. K-means mais rápido significa que você pode reindexar dinamicamente à medida que os dados mudam, não apenas em lotes durante a noite. ↳ Métodos de quantização de LLM precisam de k-means para encontrar codebooks de peso ótimos, por camada, repetidamente. O que leva horas agora pode levar minutos. ↳ Modelos MoE precisam de roteamento rápido de tokens no tempo de inferência. K-means em milissegundos torna viável executar isso dentro do loop de inferência, não apenas na pré-processamento. Os 200x em relação ao FAISS é o número a internalizar. O FAISS é o padrão da indústria. A maioria dos sistemas de busca vetorial em produção se baseia nele. Link para o artigo e código no próximo tweet!