Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Animado para compartilhar o modelo mais recente da Olmo: Olmo Hybrid. Este é um modelo com camadas de rede delta com gate (GDN) em proporção de 3:1 com total atenção. Ele segue muitos outros desenvolvimentos como Qwen 3.5 e Kimi Linear. É um timing incrível lançar um modelo totalmente aberto para que as pessoas possam estudar como essas mudanças na arquitetura impactam a stack completa.
Pessoalmente, aprendi muito para fazer o pós-treinamento funcionar. Mesmo com os dados idênticos para o pré-treinamento, o pós-treinamento é bem diferente! Em particular, as ferramentas OSS para essas novas arquiteturas são realmente limitadas. Novas arquiteturas são muito mais lentas do que transformadores padrão ou modelos populares como o DeepSeek MoEs. Esse é um trabalho que podemos fazer juntos para continuar impulsionando a fronteira dos modelos eficientes e abertos.
Esse trabalho foi liderado por @lambdaviking @tyleraromero e outros. Pude ter um papel menor em fazer o pós-treinamento funcionar, um projeto super divertido!
Escrevi um post no blog explicando por que isso importa e os modelos híbridos não funcionavam há alguns anos, quando o Mamba era super popular. Além disso, este artigo é um ótimo ponto de entrada para a teoria moderna de escalonamento de deep learning / modelagem de linguagem. Aproveite e envie feedback!

@interconnectsai Grande parte do processamento deste projeto foi fornecida por @LambdaAPI. Sem ele, esse Olmo Hybrid não existiria, obrigado pelo apoio da comunidade aberta.
41
Melhores
Classificação
Favoritos
