Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
K-Means é simples. Torná-lo rápido em GPU não é.
Flash-KMeans é uma implementação ciente de IO do k-means exato que repensa o algoritmo em torno dos gargalos modernos de GPU.
Atacando diretamente os gargalos de memória, o Flash-KMeans alcança:
- 30x de aceleração em relação ao cuML
- 200x de aceleração em relação ao FAISS
Usando o mesmo algoritmo exato, apenas projetado para o hardware de hoje.
Na escala de um milhão, o Flash-KMeans pode completar uma iteração de k-means em milissegundos.
Aqui está o porquê disso ser importante hoje:
O k-means sempre foi um primitivo offline. Algo que você executa uma vez para pré-processar dados e seguir em frente. Essas acelerações mudam isso.
↳ Bancos de dados vetoriais como o FAISS usam k-means para construir índices de busca. K-means mais rápido significa que você pode reindexar dinamicamente à medida que os dados mudam, não apenas em lotes durante a noite.
↳ Métodos de quantização de LLM precisam de k-means para encontrar codebooks de peso ótimos, por camada, repetidamente. O que leva horas agora pode levar minutos.
↳ Modelos MoE precisam de roteamento rápido de tokens no tempo de inferência. K-means em milissegundos torna viável executar isso dentro do loop de inferência, não apenas na pré-processamento.
Os 200x em relação ao FAISS é o número a internalizar. O FAISS é o padrão da indústria. A maioria dos sistemas de busca vetorial em produção se baseia nele.
Link para o artigo e código no próximo tweet!
Top
Classificação
Favoritos
