A Parte I da nossa trilogia zkVM defendeu a substituição do HAL por uma arquitetura de demonstração baseada em grafos. Agora aqui estão os dados. Fizemos benchmarks do Venus – nosso backend primeiro para o gráfico no ZisK – entre GPU e FPGA, e revisitamos nossa tese original de hardware ZK. Veja o que os números mostram. 🧵
2/ O Graph-first entrega ganhos mensuráveis nas GPUs. Sob HAL, os kernels são lançados sequencialmente. Com o cudaGraph, capturamos e reproduzimos todo o fluxo de prova como um gráfico agendado. Isso reduz a sobrecarga de lançamento da CPU e diminui o jitter de sincronização de dispositivos host↔, especialmente em fases iterativas como o sumcheck. Resultados abaixo (comparando com o ZisK 0,15).
3/ Também testamos FPGA em dois dispositivos: VU47P (classe AWS F2) e VH1782 (classe AMD V80). Clock de parede da GPU medido: ~47,8s FPGA (estimado por HLS): ~335–404s Nota: Os tempos da GPU são medidos; Os tempos de FPGA são estimados a partir da latência de síntese ÷ Fmax. Não é uma comparação direta, mas é direção. Diferença por chip: ~7–8×, em grande parte devido aos limites de frequência FPGA (74–98 MHz). Nem o desempenho bruto nem a performance/watt justificam substituir a GPU por FPGA hoje.
4/ Mas "FPGA é mais lento" não é a conclusão. O trabalho em FPGA forçou definições precisas de layouts de memória, contratos de interface e dependências entre as etapas de prova. Exatamente a base que você precisa antes de projetar um ASIC. FPGA é a ponte de prototipagem de grafo para hardware.
5/ Como o provador é um grafo de computação, a mesma lógica se compila para qualquer backend: Kernels GPU → CudaGraph FPGA → módulos de fluxo de dados ASIC → blocos de computação fixos Só o backend muda. O gráfico permanece o mesmo.
GPU 6/ → FPGA → ASIC são, portanto, uma evolução coerente. Implantamos GPUs com configurações otimizadas para Venus para extrair desempenho estável e cumulativo. Embora o FPGA não seja competitivo em desempenho físico, ele confirma a correção estrutural da direção do nosso hardware. A arquitetura Graph-first é a ponte que permite otimização em nível de grafo CUDA hoje e compilação ASIC nativa de hardware amanhã.
142