Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nový výzkum: FlashAttention-4
FlashAttention-4 dosahuje až 1,3násobného zrychlení oproti cuDNN 9,13 a 2,7x oproti Tritonu na GPU B200 s BF16.
FlashAttention-4 spolunavrhuje algoritmy a jádrové pipeline pro Blackwell GPU, kde se propustnost tensorových jader zdvojnásobí, ale šířka pásma paměti a exponenciální jednotky škálují pomaleji.
Techniky zahrnují plně asynchronní MMA operace, softwarově emulované exponenciální škálování a využití tenzorové paměti ke snížení provozu sdílené paměti.
FlashAttention-4 dosahuje až 1,3násobného zrychlení oproti cuDNN a 2,7x oproti Tritonu na GPU B200, dosahuje 1613 TFLOP/s při 71% využití.
Implementováno kompletně v Pythonu přes CuTe-DSL s 20-30krát rychlejšími časy kompilace než v C++ šablonách.
Článek:
Naučte se vytvářet efektivní AI agenty v naší akademii:

Top
Hodnocení
Oblíbené
