Presentamos 𝑨𝒕𝒕𝒆𝒏𝒕𝒊𝒐𝒏 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍𝒔: Repensando la agregación a nivel de profundidad. Las conexiones residuales han dependido durante mucho tiempo de una acumulación fija y uniforme. Inspirados por la dualidad del tiempo y la profundidad, introducimos Attention Residuals, reemplazando la recurrencia estándar a nivel de profundidad con atención aprendida, dependiente de la entrada, sobre las capas anteriores. 🔹 Permite a las redes recuperar selectivamente representaciones pasadas, mitigando de forma natural la dilución y el crecimiento del estado oculto. 🔹 Introduce Block AttnRes, particionando las capas en bloques comprimidos para hacer que la atención entre capas sea práctica a gran escala. 🔹 Sirve como un reemplazo eficiente, demostrando una ventaja de computación de 1.25x con una sobrecarga de latencia de inferencia negligible (<2%). 🔹 Validado en la arquitectura Kimi Linear (48B en total, 3B de parámetros activados), ofreciendo ganancias de rendimiento consistentes en downstream. 🔗Informe completo:
Los experimentos de la ley de escalado revelan una ventaja de computación consistente de 1.25× a través de diferentes tamaños de modelo.
El análisis de la dinámica de entrenamiento demuestra cómo AttnRes mitiga de forma natural el crecimiento de la magnitud del estado oculto y produce una distribución de gradientes más uniforme a lo largo de la profundidad.
190