interesante. Si no recuerdo mal, excluir el KV del token actual mediante la máscara de atención (es decir, quitar la diagonal) no funciona. Hipótesis: esto hace que el token actual sea un drenaje de atención.