Nový výzkum: FlashAttention-4 FlashAttention-4 dosahuje až 1,3násobného zrychlení oproti cuDNN 9,13 a 2,7x oproti Tritonu na GPU B200 s BF16. FlashAttention-4 spolunavrhuje algoritmy a jádrové pipeline pro Blackwell GPU, kde se propustnost tensorových jader zdvojnásobí, ale šířka pásma paměti a exponenciální jednotky škálují pomaleji. Techniky zahrnují plně asynchronní MMA operace, softwarově emulované exponenciální škálování a využití tenzorové paměti ke snížení provozu sdílené paměti. FlashAttention-4 dosahuje až 1,3násobného zrychlení oproti cuDNN a 2,7x oproti Tritonu na GPU B200, dosahuje 1613 TFLOP/s při 71% využití. Implementováno kompletně v Pythonu přes CuTe-DSL s 20-30krát rychlejšími časy kompilace než v C++ šablonách. Článek: Naučte se vytvářet efektivní AI agenty v naší akademii: