Część I naszej trylogii zkVM uzasadniła zastąpienie HAL architekturą dowodzenia opartą na grafach. Teraz oto dane. Przeprowadziliśmy benchmark Venus – naszego backendu opartego na grafach na ZisK – na GPU i FPGA, i ponownie przyjrzeliśmy się naszej pierwotnej tezie dotyczącej sprzętu ZK. Oto, co pokazują liczby. 🧵
2/ Graph-first przynosi wymierne korzyści na GPU. Pod HAL, jądra uruchamiają się sekwencyjnie. Z cudaGraph przechwytujemy i odtwarzamy cały proces dowodzenia jako zaplanowany graf. To zmniejsza narzut uruchamiania CPU i redukuje jitter synchronizacji host↔urządzenie, szczególnie w iteracyjnych fazach, takich jak sumcheck. Wyniki poniżej (w porównaniu do ZisK 0.15).
3/ Testowaliśmy również FPGA na dwóch urządzeniach: VU47P (klasa F2 AWS) i VH1782 (klasa V80 AMD). Zmierzony czas GPU: ~47,8s FPGA (szacowane HLS): ~335–404s Uwaga: czasy GPU są mierzone; czasy FPGA są szacowane na podstawie opóźnienia syntezy ÷ Fmax. Nie jest to porównanie jabłek do jabłek, ale kierunek jest jasny. Różnica na chip: ~7–8×, głównie z powodu ograniczeń częstotliwości FPGA (74–98 MHz). Ani surowa wydajność, ani wydajność na wat nie uzasadniają dzisiaj zastąpienia GPU przez FPGA.
4/ Ale "FPGA jest wolniejszy" nie jest wnioskiem. Praca z FPGA wymusiła precyzyjne definicje układów pamięci, umów interfejsowych i zależności między etapami dowodzenia. Dokładnie to, co jest potrzebne przed zaprojektowaniem ASIC. FPGA to most prototypowania grafiki do sprzętu.
5/ Ponieważ dowódca to graf obliczeniowy, ta sama logika kompiluje się do dowolnego backendu: GPU → jądra cudaGraph FPGA → moduły przepływu danych ASIC → stałe bloki obliczeniowe Tylko backend się zmienia. Graf pozostaje ten sam.
6/ GPU → FPGA → ASIC jest zatem spójną ewolucją. Wdrażamy GPU z konfiguracjami zoptymalizowanymi pod kątem Venus, aby uzyskać stabilną, kumulującą wydajność. Chociaż FPGA nie jest konkurencyjny pod względem wydajności, potwierdza strukturalną poprawność naszego kierunku rozwoju sprzętu. Architektura oparta na grafach jest mostem, który umożliwia dzisiejszą optymalizację na poziomie grafów cuda i jutrzejszą kompilację sprzętową ASIC.
144