DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Animado para compartilhar o modelo mais recente da Olmo: Olmo Hybrid. Este é um modelo com camadas de rede delta com gate (GDN) em proporção de 3:1 com total atenção. Ele segue muitos outros desenvolvimentos como Qwen 3.5 e Kimi Linear. É um timing incrível lançar um modelo totalmente aberto para que as pessoas possam estudar como essas mudanças na arquitetura impactam a stack completa. Pessoalmente, aprendi muito para fazer o pós-treinamento funcionar. Mesmo com os dados idênticos para o pré-treinamento, o pós-treinamento é bem diferente! Em particular, as ferramentas OSS para essas novas arquiteturas são realmente limitadas. Novas arquiteturas são muito mais lentas do que transformadores padrão ou modelos populares como o DeepSeek MoEs. Esse é um trabalho que podemos fazer juntos para continuar impulsionando a fronteira dos modelos eficientes e abertos. Esse trabalho foi liderado por @lambdaviking @tyleraromero e outros. Pude ter um papel menor em fazer o pós-treinamento funcionar, um projeto super divertido! Escrevi um post no blog explicando por que isso importa e os modelos híbridos não funcionavam há alguns anos, quando o Mamba era super popular. Além disso, este artigo é um ótimo ponto de entrada para a teoria moderna de escalonamento de deep learning / modelagem de linguagem. Aproveite e envie feedback!

@interconnectsai Grande parte do processamento deste projeto foi fornecida por @LambdaAPI. Sem ele, esse Olmo Hybrid não existiria, obrigado pelo apoio da comunidade aberta.

41

Melhores

Classificação

Favoritos