Por fin ha llegado 🐍 el modelo más reciente de la serie Mamba Los modelos híbridos se han vuelto cada vez más populares, lo que aumenta la importancia de diseñar la próxima generación de modelos lineales. Hemos introducido varias ideas centradas en SSM para aumentar significativamente las capacidades de modelado de Mamba-2 sin comprometer la velocidad. El modelo resultante Mamba-3 presenta mejoras de rendimiento notables respecto a los modelos lineales anteriores más populares (como Mamba-2 y Gated DeltaNet) en todos los tamaños. Este es el primer Mamba dirigido por estudiantes: todo el mérito para @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, ¡y por supuesto @tri_dao!