Apresentando 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Repensando a agregação em profundidade. As conexões residuais há muito dependem de acumulação fixa e uniforme. Inspirados pela dualidade do tempo e da profundidade, apresentamos os Attention Residuals, substituindo a recorrência padrão em profundidade por atenção aprendida, dependente da entrada, sobre as camadas anteriores. 🔹 Permite que as redes recuperem seletivamente representações passadas, mitigando naturalmente a diluição e o crescimento do estado oculto. 🔹 Introduz o Block AttnRes, particionando camadas em blocos comprimidos para tornar a atenção entre camadas prática em grande escala. 🔹 Serve como um substituto eficiente, demonstrando uma vantagem de computação de 1.25x com uma sobrecarga de latência de inferência negligenciável (<2%). 🔹 Validado na arquitetura Kimi Linear (48B no total, 3B de parâmetros ativados), proporcionando ganhos consistentes de desempenho a jusante. 🔗Relatório completo:
Experimentos de lei de escalabilidade revelam uma vantagem consistente de 1,25× em computação em diferentes tamanhos de modelo.
A análise da dinâmica de treino demonstra como o AttnRes mitiga naturalmente o crescimento da magnitude do estado oculto e produz uma distribuição de gradiente mais uniforme ao longo da profundidade.
202