Emocionado de compartir el último modelo de Olmo: Olmo Hybrid. Este es un modelo con capas de red delta con compuerta (GDN) en una proporción de 3:1 con atención completa. Sigue muchos otros desarrollos como Qwen 3.5 y Kimi Linear. Es un momento increíble para lanzar un modelo completamente abierto para que la gente pueda estudiar cómo estos cambios de arquitectura impactan en toda la pila. Personalmente, aprendí mucho al hacer el trabajo de post-entrenamiento. ¡Incluso con los datos siendo idénticos para el preentrenamiento, el post-entrenamiento es muy diferente! En particular, las herramientas OSS para estas nuevas arquitecturas son realmente limitadas. Las nuevas arquitecturas son mucho más lentas que los transformadores estándar o modelos populares como DeepSeek MoEs. Este es un trabajo que podemos hacer juntos para seguir empujando la frontera de modelos eficientes y abiertos. Este trabajo fue liderado por @lambdaviking @tyleraromero y otros. Tuve la oportunidad de participar en una parte más pequeña del trabajo de post-entrenamiento, ¡un proyecto súper divertido! He escrito una entrada de blog que explica por qué esto es importante y por qué los modelos híbridos no funcionaron hace unos años cuando Mamba era muy popular. Además, este artículo es un gran punto de entrada para la teoría de escalado del aprendizaje profundo moderno / modelado del lenguaje. ¡Disfruta y envía tus comentarios!
@interconnectsai Gran parte del procesamiento para este proyecto fue proporcionado por @LambdaAPI. Sin él, este Olmo Hybrid no existiría, gracias por el apoyo a la comunidad abierta.
37