Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nova pesquisa: FlashAttention-4
O FlashAttention-4 alcança até 1,3x de velocidade sobre cuDNN 9,13 e 2,7x sobre Triton em GPUs B200 com BF16.
O FlashAttention-4 co-projeta algoritmos e pipelines de kernel para GPUs Blackwell, onde a taxa de transferência do núcleo tensorial dobra, mas a largura de banda da memória e as unidades exponenciais escalam mais lentamente.
As técnicas incluem operações MMA totalmente assíncronas, reescalonamento exponencial emulado por software e aproveitamento da memória tensorial para reduzir o tráfego de memória compartilhada.
O FlashAttention-4 alcança até 1,3x de velocidade acima do cuDNN e 2,7x sobre o Triton em GPUs B200, atingindo 1613 TFLOPs/s com 71% de utilização.
Implementado inteiramente em Python via CuTe-DSL com tempos de compilação 20-30x mais rápidos em comparação com templates em C++.
Papel:
Aprenda a construir agentes de IA eficazes em nossa academia:

Melhores
Classificação
Favoritos
