interesante.
Si no recuerdo mal, excluir el KV del token actual mediante la máscara de atención (es decir, quitar la diagonal) no funciona.
Hipótesis: esto hace que el token actual sea un drenaje de atención.
Saluda a Exclusive Self Attention (XSA), una mejora (casi) gratuita de Transformers para LM.
Observación: para y = attn(q, k, v), yi y vi tienden a tener una similitud coseno muy alta
Corrección: excluir vi de yi vía zi = yi - (yiTvi)vi/‖vi‖²
Resultado: mejor entrenamiento/pérdida de val en diferentes tamaños de modelo; aumento a medida que la longitud de la secuencia crece.
Ver más:
¿El Palantir de China? El equipo fundador está formado por oficiales militares retirados.
CC @teortaxesTex
El equipo fundador proviene de empresas tecnológicas de primera línea como Alibaba Cloud, Dharma Academy, Huawei y Baidu, así como de oficiales retirados de la Fuerza Aérea, la Fuerza Cohete, el Ejército Cibernético y otras fuerzas, con una media de más de 10 años de experiencia en inteligencia artificial, seguridad nacional, ciencia y tecnología de defensa nacional, y otros campos.