Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva investigación: FlashAttention-4
FlashAttention-4 alcanza hasta 1,3x de velocidad respecto a cuDNN 9,13 y 2,7x sobre Triton en GPUs B200 con BF16.
FlashAttention-4 co-diseña algoritmos y pipelines de kernel para GPUs Blackwell, donde el rendimiento del núcleo tensorial se duplica pero el ancho de banda de memoria y las unidades exponenciales escalan más lentamente.
Las técnicas incluyen operaciones MMA totalmente asíncronas, reescalado exponencial emulado por software y el aprovechamiento de la memoria tensorial para reducir el tráfico de memoria compartida.
FlashAttention-4 alcanza hasta 1,3x de velocidad sobre cuDNN y 2,7x sobre Triton en GPUs B200, alcanzando 1613 TFLOPs/s con un 71% de utilización.
Implementado completamente en Python vía CuTe-DSL con tiempos de compilación 20-30 veces más rápidos que las plantillas en C++.
Papel:
Aprende a crear agentes de IA efectivos en nuestra academia:

Populares
Ranking
Favoritas
