Zajímavé. Pokud si dobře pamatuji, vyloučení KV aktuálního tokenu pomocí attention mask (tj. odstranění diagonály) nefunguje! Hypotéza: to efektivně dělá současný token pohlcovačem pozornosti.