K-Means é simples. Tornar rápido na GPU não é. Flash-KMeans é uma implementação consciente de IO, com k-means exatos, que repensa o algoritmo em torno dos gargalos modernos da GPU. Ao atacar diretamente os gargalos de memória, o Flash-KMeans alcança: - Aceleração de 30x sobre cuML - Aceleração de 200x sobre o FAISS Usando exatamente o mesmo algoritmo, só que projetado para o hardware atual. Na escala milionária, os Flash-KMeans podem completar uma iteração k-means em milissegundos. Aqui está por que isso importa hoje: K-means sempre foi uma primitiva offline. Algo que você executa uma vez para pré-processar os dados e seguir em frente. Esses aceleradores mudam isso. ↳ Bancos de dados vetoriais como o FAISS usam k-means para construir índices de busca. K-means mais rápidos significam que você pode reindexar dinamicamente conforme os dados mudam, não fazer lotes da noite para o dia. ↳ Métodos de quantização LLM precisam de k-means para encontrar livros de códigos de pesos ótimos, por camada, repetidamente. O que leva horas agora pode levar minutos. ↳ Modelos MoE precisam de roteamento rápido de tokens no momento da inferência. Milissegundos k-means torna viável executar isso dentro do ciclo de inferência, não apenas no pré-processamento. O número de 200x sobre FAISS é o valor a ser internalizado. FAISS é o padrão da indústria. A maioria dos sistemas de busca vetorial de produção se baseia nela. Link para o artigo e código no próximo tweet!