Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Análise de benchmark EXO do Qwen3-Coder-Next-8bit no M3 Ultra"
1. Dados do núcleo: M3 Ultra (512GB RAM) Configuração de Hardware de Inferência Distribuída • Nó único: Apple M3 Ultra 512GB RAM (32 núcleos de CPU, 80 núcleos de GPU)
• Nó duplo: 2 × M3 Ultra (agregação de 1024GB de RAM) • Modelo: Qwen3-Coder-Next-8bit (parâmetros 8B, versão quantizada)
Benchmarks de desempenho (tokens/s)

II.
Mensagens-chave:
1. O processamento por prompt se expande linearmente com o número de nós
• Contexto 0,5K-8K: picos de nó único (60 t/s), diminuição de nó duplo (-3%)
• Causa: Sobrecarga de comunicações distribuídas > benefícios de aceleração computacional
• Conclusão: Contextos pequenos não precisam ser distribuídos
• Contexto 16K-64K: Nós duplos começam a se beneficiar (+2% a +6%)
• Causa: O KV Cache requer mais memória, gargalo de nó único
• Conclusão: Raciocínio distribuído em contexto amplo é valioso
2.
Tendências de desempenho da geração
• Modelo pequeno(8B) + contexto pequeno (<32K): A geração é mais lenta
• Contexto amplo (≥32K): O desempenho começa a melhorar os insights chave
• Razão: O modelo 8B tem baixa pressão computacional, e o gargalo está na largura de banda da memória e no KV Cache
3.
API /bench
• Endpoint padrão OpenAI: cache está ativado por padrão, resultando em resultados de teste incorretos
• API /bench: Sem streaming, estatísticas de medição de servidor de retorno (precisas)
• Principais descobertas: A inferência distribuída deve ser testada com /bench, caso contrário os dados são inválidos
III.
Compare com Qwen3.5-35B

4.
Conclusão técnica
Intervalos de valor para raciocínio distribuído
• Contexto pequeno (<8K): Um único nó é o ideal, mas dois nós são reduzidos (sobrecarga de comunicação) • Contexto grande (≥32K): Nós duplos começam a se beneficiar, +6% de aumento em 64K • 128K+ contexto: Requer múltiplos nós (encontrei o problema de mensagens de 1115KB do gossipsub serem muito grandes no teste)
Qwen3-Coder-Next-8bit vs Qwen3.5-35B:

5.
Gargalo da EXO
• Teste de contexto de 128K falhou: a mensagem do gossipsub está grande demais (1115KB) e o nó precisa ser reiniciado
• Problema: A camada de rede limita a escalabilidade da inferência distribuída
• Resolução: O fragmentação de mensagens precisa ser otimizado ou um protocolo de comunicação diferente é usado
6.
Comparação de modelos econômicos
Opção A:
M3 Ultra 512GB (Nó Único)
• Custo: $2000-3000
• Desempenho: 60 t/s (<8K) → 48 t/s (64K)
• Aplicável: Contexto grande (≥32K), um único nó é suficiente
Cenário B:
M3 Ultra × 2 (Nó Duplo)
• Custo: $4000-6000
• Desempenho: 59-51 t/s (+6% vs nó único, 64K apenas contexto)
• Aplicável: Contexto muito grande (≥128K) com memória insuficiente em um único nó
Cenário C:
RTX 3090 (placa única)
• Custo: $800-1000 (usado)
• Desempenho: 112 t/s (fixo, Qwen3.5-35B)
• Adequado para: contexto pequeno (<64K), economicamente viável

VII.
📌 Conclusões centrais
1. Qwen3-Coder-Next-8bit é adequado para inferência distribuída em contexto amplo (≥32K)
Benefícios: Escalável a contexto infinito (memória agregada multi-nós)
Desvantagens: O desempenho em contexto pequeno não é tão bom quanto o de GPUs de placa única, e o ciclo de retorno do investimento é longo
2. Qwen3.5-35B (RTX 3090) é adequado para raciocínio econômico de pequeno contexto (<64K)
Vantagens: alto desempenho de 112 t/s, retorno do retorno em 6 meses
Desvantagens: Limite de cartão único (24GB de VRAM), não pode ser expandido para 128K+
3. Ainda existem gargalos no raciocínio distribuído da EXO
Problema: A mensagem do gossipsub é muito grande (1115KB) e o nó precisa ser reiniciado
Solução: Otimizar a camada de rede ou mudar para um protocolo de comunicação diferente
VIII.
Comparação de prioridades de investimento
O Mac Studio M5 (com chip M5 Ultra) deve ser lançado entre março e junho de 2026. Em termos de desempenho, comparado ao M3 Ultra, o processamento de prompts (TTFT) do M5 Ultra pode ser acelerado de 2 a 4 vezes, e a velocidade de geração (tokens/s) aumenta cerca de 20-30% (a largura de banda da memória é aumentada de 800GB/s para um nível superior, combinado com o Acelerador Neural para cada núcleo de GPU). Para versões quantizadas semelhantes ao modelo Qwen, o M5 Ultra pode suportar contextos maiores (64K+ tokens) para alcançar maior taxa de transferência em benchmarks (por exemplo, grandes modelos MoE de até 150+ tok/s). Considerando que o custo do hardware é semelhante (cerca de $4.000 de aumento), mas o desempenho melhorou, espera-se que o retorno sobre a investidura seja reduzido para 8-12 meses, o que é adequado para cenários de desenvolvimento de IA de alta intensidade e possui um índice geral de recomendação mais alto.

3,47K
Melhores
Classificação
Favoritos
