ZKProphet: Compreendendo o Desempenho de Provas de Conhecimento Zero em GPUs

Índice

200x

Aceleração Máxima em Relação à CPU

90%

Contribuição do NTT para a Latência

32-bit

Uso do Pipeline de Inteiros

1. Introdução

As Provas de Conhecimento Zero (ZKPs) representam um protocolo criptográfico revolucionário que permite a uma parte (o Prover) demonstrar conhecimento de uma entrada secreta sem revelar qualquer informação sobre o próprio segredo. Esta capacidade permitiu aplicações transformadoras em criptomoedas privadas, terceirização de computação verificável e soluções de escalabilidade para blockchain. O desafio fundamental na adoção de ZKPs tem sido a sobrecarga computacional substancial necessária para a geração de provas, que pode levar vários minutos em CPUs modernas para computações complexas.

As GPUs emergiram como a principal plataforma de aceleração para ZKPs devido à natureza de paralelismo de dados dos kernels computacionais centrais. Como mostrado na Figura 1, as ZKPs aceleradas por GPU demonstram uma aceleração de até 200x em comparação com implementações em CPU. No entanto, apesar desses ganhos impressionantes, uma caracterização sistemática dos gargalos de desempenho e limitações de escalabilidade em arquiteturas GPU modernas tem estado notavelmente ausente na literatura.

2. Contexto e Trabalhos Relacionados

2.1 Fundamentos de Provas de Conhecimento Zero

As Provas de Conhecimento Zero operam no princípio de que um Prover pode convencer um Verificador do conhecimento de uma testemunha $w$ para uma função pública $f$ e entrada $x$ tal que $f(x,w) = y$, sem revelar qualquer informação sobre $w$. O protocolo Groth16, que forma a base deste estudo, fornece provas sucintas e tempos de verificação submilissegundos, tornando-o particularmente adequado para aplicações do mundo real.

2.2 Aceleração por GPU em Criptografia

Trabalhos anteriores em aceleração por GPU de primitivas criptográficas demonstraram melhorias de desempenho significativas. Estudos como [19,30,31,42] mostraram que a arquitetura paralela das GPUs é bem adequada para operações criptográficas, particularmente aquelas envolvendo computações matemáticas em larga escala. No entanto, esses esforços concentraram-se principalmente em kernels individuais, em vez do desempenho do sistema de ponta a ponta.

3. Metodologia e Configuração Experimental

3.1 Framework ZKProphet

O ZKProphet fornece um framework de análise abrangente para avaliar o desempenho de ZKPs em GPUs. O framework avalia sistematicamente os kernels computacionais centrais, incluindo Multiplicação Escalar Múltipla (MSM) e Transformada Teórica dos Números (NTT), que coletivamente representam mais de 95% da carga de trabalho computacional na geração de ZKPs.

3.2 Configurações de Benchmark

A nossa configuração experimental utiliza arquiteturas GPU modernas das gerações Ampere e Ada Lovelace da NVIDIA. Avaliamos o desempenho em várias contagens de restrições, que representam a complexidade da computação que está a ser provada. Os benchmarks incluem tanto cargas de trabalho sintéticas como aplicações reais de ZKP dos domínios de criptomoedas e blockchain.

4. Resultados da Análise de Desempenho

4.1 Análise de Desempenho dos Kernels

A nossa análise revela uma mudança crítica nos gargalos de desempenho. Embora pesquisas anteriores se tenham focado fortemente na otimização de operações MSM, descobrimos que, com implementações MSM modernas otimizadas, as operações NTT representam agora até 90% da latência de geração de provas. Isto representa uma mudança de paradigma significativa que requer um foco renovado na otimização do NTT.

Figura 1: Aceleração do Prover vs Número de Restrições
Os resultados experimentais demonstram que as implementações em GPU fornecem uma aceleração substancial em relação às linhas de base da CPU, com o desempenho a escalar aproximadamente de forma linear com a contagem de restrições até 200x de melhoria para grandes conjuntos de restrições.

4.2 Análise de Escalabilidade

Observamos que as computações ZKP executam exclusivamente nos pipelines de inteiros de 32 bits da GPU e exibem paralelismo ao nível da instrução limitado devido a dependências de dados inerentes. Isto limita fundamentalmente a escalabilidade do desempenho com base nas unidades de computação de inteiros disponíveis, em vez das capacidades de ponto flutuante.

5. Detalhes Técnicos de Implementação

5.1 Fundamentos Matemáticos

As operações matemáticas centrais nas ZKPs dependem da aritmética de campos finitos sobre grandes campos primos. A operação NTT, que é uma forma especializada de transformada de Fourier em campos finitos, pode ser expressa como:

$$X_k = \sum_{j=0}^{n-1} x_j \cdot \omega^{jk} \mod p$$

onde $\omega$ é uma raiz primitiva $n$-ésima da unidade módulo $p$, e $p$ é um grande primo. A NTT inversa é definida de forma semelhante com $\omega^{-1}$.

5.2 Implementação de Código

O seguinte pseudocódigo demonstra uma implementação NTT otimizada para arquiteturas GPU:

__global__ void ntt_kernel(uint32_t *a, uint32_t *roots, int n) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int stride = blockDim.x * gridDim.x;
    
    for (int i = tid; i < n/2; i += stride) {
        int j = bit_reverse(i, log2(n));
        if (i < j) {
            swap(a[i], a[j]);
        }
    }
    
    __syncthreads();
    
    for (int len = 2; len <= n; len <<= 1) {
        int half = len >> 1;
        for (int i = tid; i < n; i += stride) {
            if ((i & (len - 1)) < half) {
                uint32_t u = a[i];
                uint32_t v = mul_mod(a[i + half], roots[len + (i & (half - 1))]);
                a[i] = add_mod(u, v);
                a[i + half] = sub_mod(u, v);
            }
        }
        __syncthreads();
    }
}

6. Aplicações e Direções Futuras

A otimização de ZKPs em GPUs abre numerosas possibilidades de aplicação. Na tecnologia blockchain, as ZKPs otimizadas podem permitir soluções de rollup mais eficientes e contratos inteligentes que preservam a privacidade. Para a aprendizagem automática verificável, como explorado em trabalhos como [32], as ZKPs aceleradas por GPU poderiam permitir a verificação prática de inferências de modelos sem revelar parâmetros proprietários do modelo.

As direções de pesquisa futuras incluem explorar a aritmética de precisão mista para melhor utilizar os tensor cores da GPU, desenvolver abordagens especializadas de codesign hardware-software e criar frameworks de otimização adaptativa que possam ajustar automaticamente os parâmetros ZKP com base em capacidades de hardware específicas e requisitos de aplicação.

Análise Original

O estudo ZKProphet representa um avanço significativo na compreensão das características de desempenho das Provas de Conhecimento Zero em arquiteturas GPU modernas. Embora pesquisas anteriores, como o trabalho fundamental sobre zk-SNARKs de Ben-Sasson et al. (2014), tenham estabelecido os fundamentos teóricos, e implementações subsequentes como libsnark e bellman tenham fornecido frameworks práticos, tem havido uma lacuna notável na análise sistemática de desempenho em todo o pipeline computacional.

A identificação do NTT como o novo gargalo primário (representando até 90% da latência) marca uma mudança crítica nas prioridades de otimização. Esta descoberta alinha-se com observações em outros domínios computacionalmente intensivos onde as otimizações iniciais visam os gargalos mais óbvios, apenas para revelar restrições secundárias que se tornam dominantes após melhorias iniciais. Padrões semelhantes foram observados em implementações criptográficas para sistemas blockchain, onde, após otimizar as operações de curva elíptica, os padrões de acesso à memória tornaram-se o fator limitante.

O uso exclusivo de pipelines de inteiros de 32 bits apresenta tanto desafios como oportunidades. Ao contrário das cargas de trabalho de aprendizagem automática que utilizam intensamente tensor cores e aritmética FP32/FP16, as ZKPs não podem beneficiar destas unidades especializadas nas arquiteturas GPU atuais. Isto sugere potencial para codesign hardware-software, semelhante à abordagem tomada na arquitetura TPU do Google para redes neuronais, mas especializada para operações criptográficas. O paralelismo limitado ao nível da instrução devido a dependências de dados enfatiza ainda mais a necessidade de inovações algorítmicas que possam expor mais paralelismo.

Em comparação com outros esforços de aceleração criptográfica, como os para encriptação homomórfica (como referenciado em [9]) ou frameworks de computação verificável, o foco do ZKProphet no desempenho de ponta a ponta, em vez da otimização de kernels individuais, fornece informações mais práticas para a implementação no mundo real. A referência a aplicações de aprendizagem automática verificável em [32] sugere aplicações promissoras entre domínios onde as ZKPs aceleradas por GPU poderiam permitir novos modelos de confiança em sistemas de IA.

As limitações de escalabilidade de desempenho identificadas neste trabalho têm implicações significativas para a implementação prática de ZKPs em sistemas de produção. À medida que as contagens de restrições aumentam com computações mais complexas, a relação de escalabilidade linear sugere que as arquiteturas GPU atuais podem enfrentar limites fundamentais sem inovações arquitetónicas que visem especificamente as cargas de trabalho criptográficas.

7. Referências

Groth, J. (2016). "On the Size of Pairing-Based Non-interactive Arguments." EUROCRYPT 2016.
Ben-Sasson, E., et al. (2014). "Succinct Non-Interactive Zero Knowledge for a von Neumann Architecture." USENIX Security Symposium.
Parno, B., et al. (2013). "Pinocchio: Nearly Practical Verifiable Computation." IEEE Symposium on Security and Privacy.
Setty, S., et al. (2013). "Resolving the conflict between generality and plausibility in verified computation." EuroSys.
Zhang, J., et al. (2020). "vCNN: Verifiable Convolutional Neural Network based on zk-SNARKs." Cryptology ePrint Archive.
Wahby, R.S., et al. (2018). "Full accounting for verifiable outsourcing." CCS.
Kosba, A., et al. (2016). "C∅C∅: A Framework for Building Composable Zero-Knowledge Proofs." USENIX Security.
Xie, T., et al. (2022). "zkCNN: Zero Knowledge Proofs for Convolutional Neural Network Predictions and Accuracy." CCS.