Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
K-Means é simples. Tornar rápido na GPU não é.
Flash-KMeans é uma implementação consciente de IO, com k-means exatos, que repensa o algoritmo em torno dos gargalos modernos da GPU.
Ao atacar diretamente os gargalos de memória, o Flash-KMeans alcança:
- Aceleração de 30x sobre cuML
- Aceleração de 200x sobre o FAISS
Usando exatamente o mesmo algoritmo, só que projetado para o hardware atual.
Na escala milionária, os Flash-KMeans podem completar uma iteração k-means em milissegundos.
Aqui está por que isso importa hoje:
K-means sempre foi uma primitiva offline. Algo que você executa uma vez para pré-processar os dados e seguir em frente. Esses aceleradores mudam isso.
↳ Bancos de dados vetoriais como o FAISS usam k-means para construir índices de busca. K-means mais rápidos significam que você pode reindexar dinamicamente conforme os dados mudam, não fazer lotes da noite para o dia.
↳ Métodos de quantização LLM precisam de k-means para encontrar livros de códigos de pesos ótimos, por camada, repetidamente. O que leva horas agora pode levar minutos.
↳ Modelos MoE precisam de roteamento rápido de tokens no momento da inferência. Milissegundos k-means torna viável executar isso dentro do ciclo de inferência, não apenas no pré-processamento.
O número de 200x sobre FAISS é o valor a ser internalizado. FAISS é o padrão da indústria. A maioria dos sistemas de busca vetorial de produção se baseia nela.
Link para o artigo e código no próximo tweet!
Melhores
Classificação
Favoritos
