"Análise de benchmark EXO do Qwen3-Coder-Next-8bit no M3 Ultra" 1. Dados do núcleo: M3 Ultra (512GB RAM) Configuração de Hardware de Inferência Distribuída • Nó único: Apple M3 Ultra 512GB RAM (32 núcleos de CPU, 80 núcleos de GPU) • Nó duplo: 2 × M3 Ultra (agregação de 1024GB de RAM) • Modelo: Qwen3-Coder-Next-8bit (parâmetros 8B, versão quantizada) Benchmarks de desempenho (tokens/s)
II. Mensagens-chave: 1. O processamento por prompt se expande linearmente com o número de nós • Contexto 0,5K-8K: picos de nó único (60 t/s), diminuição de nó duplo (-3%) • Causa: Sobrecarga de comunicações distribuídas > benefícios de aceleração computacional • Conclusão: Contextos pequenos não precisam ser distribuídos • Contexto 16K-64K: Nós duplos começam a se beneficiar (+2% a +6%) • Causa: O KV Cache requer mais memória, gargalo de nó único • Conclusão: Raciocínio distribuído em contexto amplo é valioso 2. Tendências de desempenho da geração • Modelo pequeno(8B) + contexto pequeno (<32K): A geração é mais lenta • Contexto amplo (≥32K): O desempenho começa a melhorar os insights chave • Razão: O modelo 8B tem baixa pressão computacional, e o gargalo está na largura de banda da memória e no KV Cache 3. API /bench • Endpoint padrão OpenAI: cache está ativado por padrão, resultando em resultados de teste incorretos • API /bench: Sem streaming, estatísticas de medição de servidor de retorno (precisas) • Principais descobertas: A inferência distribuída deve ser testada com /bench, caso contrário os dados são inválidos
III. Compare com Qwen3.5-35B
4. Conclusão técnica Intervalos de valor para raciocínio distribuído • Contexto pequeno (<8K): Um único nó é o ideal, mas dois nós são reduzidos (sobrecarga de comunicação) • Contexto grande (≥32K): Nós duplos começam a se beneficiar, +6% de aumento em 64K • 128K+ contexto: Requer múltiplos nós (encontrei o problema de mensagens de 1115KB do gossipsub serem muito grandes no teste) Qwen3-Coder-Next-8bit vs Qwen3.5-35B:
5. Gargalo da EXO • Teste de contexto de 128K falhou: a mensagem do gossipsub está grande demais (1115KB) e o nó precisa ser reiniciado • Problema: A camada de rede limita a escalabilidade da inferência distribuída • Resolução: O fragmentação de mensagens precisa ser otimizado ou um protocolo de comunicação diferente é usado
6. Comparação de modelos econômicos Opção A: M3 Ultra 512GB (Nó Único) • Custo: $2000-3000 • Desempenho: 60 t/s (<8K) → 48 t/s (64K) • Aplicável: Contexto grande (≥32K), um único nó é suficiente Cenário B: M3 Ultra × 2 (Nó Duplo) • Custo: $4000-6000 • Desempenho: 59-51 t/s (+6% vs nó único, 64K apenas contexto) • Aplicável: Contexto muito grande (≥128K) com memória insuficiente em um único nó Cenário C: RTX 3090 (placa única) • Custo: $800-1000 (usado) • Desempenho: 112 t/s (fixo, Qwen3.5-35B) • Adequado para: contexto pequeno (<64K), economicamente viável
VII. 📌 Conclusões centrais 1. Qwen3-Coder-Next-8bit é adequado para inferência distribuída em contexto amplo (≥32K) Benefícios: Escalável a contexto infinito (memória agregada multi-nós) Desvantagens: O desempenho em contexto pequeno não é tão bom quanto o de GPUs de placa única, e o ciclo de retorno do investimento é longo 2. Qwen3.5-35B (RTX 3090) é adequado para raciocínio econômico de pequeno contexto (<64K) Vantagens: alto desempenho de 112 t/s, retorno do retorno em 6 meses Desvantagens: Limite de cartão único (24GB de VRAM), não pode ser expandido para 128K+ 3. Ainda existem gargalos no raciocínio distribuído da EXO Problema: A mensagem do gossipsub é muito grande (1115KB) e o nó precisa ser reiniciado Solução: Otimizar a camada de rede ou mudar para um protocolo de comunicação diferente
VIII. Comparação de prioridades de investimento O Mac Studio M5 (com chip M5 Ultra) deve ser lançado entre março e junho de 2026. Em termos de desempenho, comparado ao M3 Ultra, o processamento de prompts (TTFT) do M5 Ultra pode ser acelerado de 2 a 4 vezes, e a velocidade de geração (tokens/s) aumenta cerca de 20-30% (a largura de banda da memória é aumentada de 800GB/s para um nível superior, combinado com o Acelerador Neural para cada núcleo de GPU). Para versões quantizadas semelhantes ao modelo Qwen, o M5 Ultra pode suportar contextos maiores (64K+ tokens) para alcançar maior taxa de transferência em benchmarks (por exemplo, grandes modelos MoE de até 150+ tok/s). Considerando que o custo do hardware é semelhante (cerca de $4.000 de aumento), mas o desempenho melhorou, espera-se que o retorno sobre a investidura seja reduzido para 8-12 meses, o que é adequado para cenários de desenvolvimento de IA de alta intensidade e possui um índice geral de recomendação mais alto.
3,47K