ZKProphet : Comprendre les Performances des Preuves à Divulgation Nulle de Connaissance sur les GPU

Table des matières

200x

Accélération maximale par rapport au CPU

90%

Contribution du NTT à la latence

32-bit

Utilisation du pipeline d'entiers

1. Introduction

Les Preuves à Divulgation Nulle de Connaissance (ZKPs) représentent un protocole cryptographique révolutionnaire qui permet à une partie (le Prouveur) de démontrer la connaissance d'une entrée secrète sans révéler aucune information sur le secret lui-même. Cette capacité a permis des applications transformatrices dans les cryptomonnaies privées, la sous-traitance de calcul vérifiable et les solutions de mise à l'échelle des blockchains. Le défi fondamental dans l'adoption des ZKP a été la surcharge computationnelle substantielle requise pour la génération des preuves, qui peut prendre plusieurs minutes sur les CPU modernes pour des calculs complexes.

Les GPU sont devenus la principale plateforme d'accélération pour les ZKP en raison de la nature massivement parallèle des noyaux de calcul fondamentaux. Comme le montre la Figure 1, les ZKP accélérés par GPU démontrent une accélération allant jusqu'à 200x par rapport aux implémentations sur CPU. Cependant, malgré ces gains impressionnants, une caractérisation systématique des goulots d'étranglement de performance et des limitations d'évolutivité sur les architectures GPU modernes a été notablement absente de la littérature.

2. Contexte et travaux connexes

2.1 Principes fondamentaux des Preuves à Divulgation Nulle de Connaissance

Les Preuves à Divulgation Nulle de Connaissance fonctionnent sur le principe qu'un Prouveur peut convaincre un Vérificateur de la connaissance d'un témoin $w$ pour une fonction publique $f$ et une entrée $x$ telle que $f(x,w) = y$, sans révéler aucune information sur $w$. Le protocole Groth16, qui forme la base de cette étude, fournit des preuves succinctes et des temps de vérification inférieurs à la milliseconde, le rendant particulièrement adapté aux applications réelles.

2.2 Accélération par GPU en cryptographie

Les travaux antérieurs sur l'accélération par GPU des primitives cryptographiques ont démontré des améliorations de performances significatives. Des études comme [19,30,31,42] ont montré que l'architecture parallèle des GPU est bien adaptée aux opérations cryptographiques, en particulier celles impliquant des calculs mathématiques à grande échelle. Cependant, ces efforts se sont principalement concentrés sur des noyaux individuels plutôt que sur la performance système de bout en bout.

3. Méthodologie et configuration expérimentale

3.1 Cadre ZKProphet

ZKProphet fournit un cadre d'analyse complet pour évaluer les performances des ZKP sur les GPU. Le cadre évalue systématiquement les noyaux de calcul fondamentaux, y compris la Multiplication Multi-Scalaire (MSM) et la Transformée Numéro-Théorique (NTT), qui représentent collectivement plus de 95 % de la charge de calcul dans la génération des ZKP.

3.2 Configurations de référence

Notre configuration expérimentale utilise des architectures GPU modernes des générations Ampere et Ada Lovelace de NVIDIA. Nous évaluons les performances pour différents nombres de contraintes, qui représentent la complexité du calcul prouvé. Les benchmarks incluent à la fois des charges de travail synthétiques et des applications ZKP réelles des domaines des cryptomonnaies et des blockchains.

4. Résultats de l'analyse des performances

4.1 Répartition des performances des noyaux

Notre analyse révèle un changement critique dans les goulots d'étranglement de performance. Alors que les recherches antérieures se concentraient largement sur l'optimisation des opérations MSM, nous constatons qu'avec les implémentations MSM modernes optimisées, les opérations NTT représentent désormais jusqu'à 90 % de la latence de génération des preuves. Cela représente un changement de paradigme significatif qui nécessite une attention renouvelée sur l'optimisation du NTT.

Figure 1 : Accélération du Prouveur vs Nombre de Contraintes
Les résultats expérimentaux démontrent que les implémentations GPU fournissent une accélération substantielle par rapport aux lignes de base CPU, avec une performance évoluant approximativement linéairement avec le nombre de contraintes jusqu'à une amélioration de 200x pour les grands ensembles de contraintes.

4.2 Analyse de l'évolutivité

Nous observons que les calculs ZKP s'exécutent exclusivement sur les pipelines d'entiers 32 bits du GPU et présentent un parallélisme au niveau des instructions limité en raison de dépendances de données inhérentes. Cela limite fondamentalement l'évolutivité des performances en fonction des unités de calcul entières disponibles plutôt que des capacités en virgule flottante.

5. Détails techniques de mise en œuvre

5.1 Fondements mathématiques

Les opérations mathématiques fondamentales dans les ZKP reposent sur l'arithmétique des corps finis sur de grands corps premiers. L'opération NTT, qui est une forme spécialisée de transformée de Fourier dans les corps finis, peut être exprimée comme :

$$X_k = \\sum_{j=0}^{n-1} x_j \\cdot \\omega^{jk} \\mod p$$

où $\\omega$ est une racine $n$-ième primitive de l'unité modulo $p$, et $p$ est un grand nombre premier. La NTT inverse est définie de manière similaire avec $\\omega^{-1}$.

5.2 Implémentation du code

Le pseudocode suivant démontre une implémentation NTT optimisée pour les architectures GPU :

__global__ void ntt_kernel(uint32_t *a, uint32_t *roots, int n) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    int stride = blockDim.x * gridDim.x;
    
    for (int i = tid; i < n/2; i += stride) {
        int j = bit_reverse(i, log2(n));
        if (i < j) {
            swap(a[i], a[j]);
        }
    }
    
    __syncthreads();
    
    for (int len = 2; len <= n; len <<= 1) {
        int half = len >> 1;
        for (int i = tid; i < n; i += stride) {
            if ((i & (len - 1)) < half) {
                uint32_t u = a[i];
                uint32_t v = mul_mod(a[i + half], roots[len + (i & (half - 1))]);
                a[i] = add_mod(u, v);
                a[i + half] = sub_mod(u, v);
            }
        }
        __syncthreads();
    }
}

6. Applications futures et orientations

L'optimisation des ZKP sur les GPU ouvre de nombreuses possibilités d'applications. Dans la technologie blockchain, les ZKP optimisés peuvent permettre des solutions de rollup plus efficaces et des contrats intelligents préservant la confidentialité. Pour l'apprentissage automatique vérifiable, comme exploré dans des travaux comme [32], les ZKP accélérés par GPU pourraient permettre la vérification pratique des inférences de modèles sans révéler les paramètres propriétaires des modèles.

Les orientations de recherche futures incluent l'exploration de l'arithmétique en précision mixte pour mieux utiliser les cœurs tensoriels des GPU, le développement d'approches spécialisées de co-conception matériel-logiciel, et la création de cadres d'optimisation adaptatifs pouvant ajuster automatiquement les paramètres ZKP en fonction des capacités matérielles spécifiques et des exigences applicatives.

Analyse originale

L'étude ZKProphet représente une avancée significative dans la compréhension des caractéristiques de performance des Preuves à Divulgation Nulle de Connaissance sur les architectures GPU modernes. Alors que les recherches antérieures, comme le travail fondateur sur les zk-SNARKs par Ben-Sasson et al. (2014), ont établi les fondements théoriques, et que les implémentations ultérieures comme libsnark et bellman ont fourni des cadres pratiques, il y a eu un manque notable dans l'analyse systématique des performances à travers l'ensemble du pipeline computationnel.

L'identification du NTT comme le nouveau goulot d'étranglement principal (représentant jusqu'à 90 % de la latence) marque un changement critique dans les priorités d'optimisation. Cette constatation s'aligne avec les observations dans d'autres domaines à forte intensité de calcul où les optimisations initiales ciblent les goulots d'étranglement les plus évidents, pour ne révéler que des contraintes secondaires qui deviennent dominantes après les améliorations initiales. Des schémas similaires ont été observés dans les implémentations cryptographiques pour les systèmes blockchain, où après l'optimisation des opérations sur les courbes elliptiques, les modèles d'accès mémoire sont devenus le facteur limitant.

L'utilisation exclusive des pipelines d'entiers 32 bits présente à la fois des défis et des opportunités. Contrairement aux charges de travail d'apprentissage automatique qui utilisent massivement les cœurs tensoriels et l'arithmétique FP32/FP16, les ZKP ne peuvent pas bénéficier de ces unités spécialisées dans les architectures GPU actuelles. Cela suggère un potentiel pour la co-conception matériel-logiciel, similaire à l'approche adoptée dans l'architecture TPU de Google pour les réseaux neuronaux, mais spécialisée pour les opérations cryptographiques. Le parallélisme limité au niveau des instructions dû aux dépendances de données souligne davantage le besoin d'innovations algorithmiques qui peuvent exposer plus de parallélisme.

Comparé aux autres efforts d'accélération cryptographique, tels que ceux pour le chiffrement homomorphe (comme référencé dans [9]) ou les cadres de calcul vérifiable, l'accent de ZKProphet sur la performance de bout en bout plutôt que sur l'optimisation de noyaux individuels fournit des insights plus pratiques pour le déploiement réel. La référence aux applications d'apprentissage automatique vérifiable dans [32] suggère des applications inter-domaines prometteuses où les ZKP accélérés par GPU pourraient permettre de nouveaux modèles de confiance dans les systèmes d'IA.

Les limitations d'évolutivité des performances identifiées dans ce travail ont des implications significatives pour le déploiement pratique des ZKP dans les systèmes de production. Alors que le nombre de contraintes augmente avec des calculs plus complexes, la relation d'évolutivité linéaire suggère que les architectures GPU actuelles pourraient faire face à des limites fondamentales sans innovations architecturales ciblant spécifiquement les charges de travail cryptographiques.

7. Références

Groth, J. (2016). "On the Size of Pairing-Based Non-interactive Arguments." EUROCRYPT 2016.
Ben-Sasson, E., et al. (2014). "Succinct Non-Interactive Zero Knowledge for a von Neumann Architecture." USENIX Security Symposium.
Parno, B., et al. (2013). "Pinocchio: Nearly Practical Verifiable Computation." IEEE Symposium on Security and Privacy.
Setty, S., et al. (2013). "Resolving the conflict between generality and plausibility in verified computation." EuroSys.
Zhang, J., et al. (2020). "vCNN: Verifiable Convolutional Neural Network based on zk-SNARKs." Cryptology ePrint Archive.
Wahby, R.S., et al. (2018). "Full accounting for verifiable outsourcing." CCS.
Kosba, A., et al. (2016). "C∅C∅: A Framework for Building Composable Zero-Knowledge Proofs." USENIX Security.
Xie, T., et al. (2022). "zkCNN: Zero Knowledge Proofs for Convolutional Neural Network Predictions and Accuracy." CCS.