Le dernier modèle de la série Mamba est enfin là 🐍 Les modèles hybrides sont devenus de plus en plus populaires, ce qui souligne l'importance de concevoir la prochaine génération de modèles linéaires. Nous avons introduit plusieurs idées centrées sur SSM pour augmenter considérablement les capacités de modélisation du Mamba-2 sans compromettre la vitesse. Le modèle Mamba-3 qui en résulte présente des gains de performance notables par rapport aux modèles linéaires précédents les plus populaires (comme le Mamba-2 et le Gated DeltaNet) à toutes les tailles. C'est le premier Mamba dirigé par des étudiants : tous les crédits à @aakash_lahoti @kevinyli_ @_berlinchen @caitWW9, et bien sûr @tri_dao!