Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Emocionado de compartir el último modelo Olmo: Olmo Hybrid. Este es un modelo con capas delta net (GDN) con una relación 3:1 y con total atención. Sigue muchos otros desarrollos como Qwen 3.5 y Kimi Linear. Es un momento increíble lanzar un modelo totalmente abierto para que la gente pueda estudiar cómo estos cambios de arquitectura afectan a toda la pila. Personalmente, aprendí mucho para que la formación posterior funcionara. ¡Aunque los datos para el preentrenamiento sean idénticos, el post-entrenamiento es muy diferente! En particular, las herramientas OSS para estas nuevas arquitecturas son realmente limitadas. Las nuevas arquitecturas son mucho más lentas que los transformadores estándar o modelos populares como los DeepSeek MoEs. Este es un trabajo que podemos hacer juntos para seguir empujando la frontera de modelos eficientes y abiertos. Este trabajo fue dirigido por @lambdaviking @tyleraromero y otros. ¡Pude tener un papel menor en hacer que el post-entrenamiento funcionara, un proyecto súper divertido! He escrito una entrada en el blog explicando por qué esto importa y los modelos híbridos no funcionaban hace unos años cuando Mamba era súper popular. Además, este artículo es un gran punto de entrada para la teoría moderna de escalado de aprendizaje profundo / modelado del lenguaje. ¡Disfruta y envía tus comentarios!

@interconnectsai Gran parte del cálculo para este proyecto fue proporcionado por @LambdaAPI. Sin él, este Olmo Hybrid no existiría, gracias por el apoyo de la comunidad abierta.

42

Populares

Ranking

Favoritas