Zajímavé.
Pokud si dobře pamatuji, vyloučení KV aktuálního tokenu pomocí attention mask (tj. odstranění diagonály) nefunguje!
Hypotéza: to efektivně dělá současný token pohlcovačem pozornosti.
Pozdravte Exclusive Self Attention (XSA), což je (téměř) bezplatné vylepšení Transformers pro LM.
Pozorování: pro y = attn(q, k, v) mají yi a vi tendenci mít velmi vysokou kosinusovou podobnost
Oprava: vyloučit vi z yi přes zi = yi - (yiTvi)vi/‖vi‖²
Výsledek: lepší ztráta trénování/hodnoty napříč velikostmi modelů; zvyšující se zisky s rostoucí délkou sekvence.
Více informací:
Čínský Palantir? Zakládající tým tvoří penzionovaní vojenskí důstojníci.
cc @teortaxesTex
Zakládající tým pochází z předních technologických společností jako Alibaba Cloud, Dharma Academy, Huawei a Baidu, stejně jako z bývalých důstojníků z letectva, raketových sil, kybernetické armády a dalších složek, s průměrně více než desetiletou praxí v oblasti umělé inteligence, národní bezpečnosti, vědy a technologií národní obrany a dalších oborů.