Les TEEs peuvent être l'un des éléments fondamentaux de l'inférence confidentielle.
L'inférence vérifiable a été considérée comme l'un des cas d'utilisation canoniques du web3-AI. Dans ces récits, l'utilisation des environnements d'exécution de confiance(TEEs) a été au centre des préoccupations. Récemment, Anthropic a publié un document de recherche décrivant certaines idées dans ce domaine qui peuvent être pertinentes pour faire avancer l'agenda du web3-AI.
Les services d'IA générative - des agents conversationnels à la synthèse d'images - sont de plus en plus confiés à des entrées sensibles et détiennent des modèles propriétaires précieux. L'inférence confidentielle permet l'exécution sécurisée des charges de travail d'IA sur une infrastructure non fiable en combinant des TEE soutenus par du matériel avec des flux de travail cryptographiques robustes. Cet essai présente les principales innovations qui rendent l'inférence confidentielle possible et examine une architecture modulaire conçue pour des déploiements en production dans des environnements cloud et edge.
Innovations fondamentales dans l'inférence confidentielle
L'inférence confidentielle repose sur trois avancées fondamentales :
Environnements d'exécution de confiance (TEEs) sur les processeurs modernes
Des processeurs comme Intel SGX, AMD SEV-SNP et AWS Nitro créent des enclaves scellées, isolant le code et les données du système d'exploitation hôte et de l'hyperviseur. Chaque enclave mesure son contenu au démarrage et publie une attestation signée. Cette attestation permet aux propriétaires de modèles et de données de vérifier que leurs charges de travail s'exécutent sur un binaire approuvé et non altéré avant de révéler des secrets.
Intégration de l'accélérateur sécurisé
L'inférence haute performance nécessite souvent des GPU ou des puces AI spécialisées. Deux modèles d'intégration sécurisent ces accélé rateurs :
GPU TEE natifs : Accélérateurs de nouvelle génération ( par exemple, NVIDIA H100) intègrent une isolation matérielle qui déchiffre les modèles et les entrées directement dans la mémoire protégée de l'accélérateur, réencryption des sorties à la volée. Les attestations garantissent que le firmware de l'accélérateur et la pile de pilotes correspondent à l'état attendu.
Pont d'enclave CPU : Lorsque les accélé rateurs manquent de support TEE natif, une enclave basée sur le CPU établit des canaux chiffrés ( par exemple, des tampons de mémoire partagée protégés ) avec le GPU. L'enclave orchestre le mouvement des données et l'inférence, minimisant la surface d'attaque.
Flux de travail de chiffrement de bout en bout attesté
L'inférence confidentielle utilise un échange de clés en deux phases ancré dans les attestations d'enclave :
Provisionnement de modèle : Les poids du modèle sont chiffrés par enveloppe sous le service de gestion des clés du propriétaire du modèle (KMS). Lors du déploiement, le document d'attestation de l'enclave est validé par KMS, qui libère ensuite une clé de chiffrement des données (DEK) directement dans l'enclave.
Ingestion des données : De même, les clients chiffrent les entrées sous la clé publique de l'enclave seulement après avoir vérifié son attestation. L'enclave déchiffre les entrées, exécute l'inférence et rechiffre les sorties pour le client, garantissant que ni les poids du modèle ni les données utilisateur n'apparaissent jamais en texte clair en dehors de l'enclave.
Aperçu de l'architecture de référence
Un système d'inférence confidentiel de qualité production se compose généralement de trois composants principaux :
Service d'inférence confidentiel
Programme Secure Enclave : Un runtime minimal chargé dans le TEE qui effectue le déchiffrement, l'exécution de modèles et le chiffrement. Il évite les secrets persistants sur disque et dépend uniquement de l'hôte pour récupérer des blobs chiffrés et relayer l'attestation.
Proxy d'Enclave : Résidant dans le système d'exploitation hôte, ce proxy initialise et atteste l'enclave, récupère des blobs de modèle chiffrés à partir du stockage et orchestre la communication sécurisée avec KMS et les clients. Des contrôles réseau stricts garantissent que le proxy ne médie que les points de terminaison approuvés.
Pipeline de Provisionnement de Modèles
Chiffrement par enveloppe via KMS : Les modèles sont pré-chiffrés en blobs résistants à la falsification. L'attestation de l'enclave doit passer la validation KMS avant que tout DEK soit déchiffré. Pour les modèles ultra-sensibles, la gestion des clés peut se faire entièrement à l'intérieur de l'enclave pour éviter toute exposition externe.
Constructions Reproductibles & Audit : En utilisant des systèmes de construction déterministes (par exemple, Bazel) et des enclaves open source, les parties prenantes peuvent vérifier de manière indépendante que le binaire déployé correspond au code audité, atténuant ainsi les risques de chaîne d'approvisionnement.
Développeur & Environnement de Construction
Pipelines de construction déterministes et audités : Les images de conteneurs et les binaires sont produits avec des hachages vérifiables. Les dépendances sont minimisées et vérifiées pour réduire la surface d'attaque du TEE.
Outils de Vérification Binaire : Analyse post-construction ( par exemple, la comparaison des enclaves compilées avec le code source ) garantit que l'exécution correspond exactement à la base de code auditée.
Flux de travail des composants & Interactions
Attestation et Échange de Clés
L'enclave génère une paire de clés éphémères et produit une attestation signée contenant des mesures cryptographiques.
Le KMS du propriétaire du modèle vérifie l'attestation et déchiffre le DEK dans l'enclave.
Les clients récupèrent l'attestation de l'enclave, la valident et encryptent les entrées d'inférence sous la clé publique de l'enclave.
Chemin des données d'inférence
Chargement du modèle : Des blobs chiffrés sont diffusés dans l'enclave, où ils sont déchiffrés uniquement à l'intérieur de la mémoire protégée.
Phase de Calcul : L'inférence s'exécute soit sur le CPU, soit sur un accélérateur sécurisé. Dans les TEE GPU natifs, les tenseurs restent chiffrés jusqu'à leur traitement. Dans les configurations interconnectées, les tampons chiffrés et une forte affinité de cœur garantissent l'isolement.
Chiffrement de sortie : Les résultats d'inférence sont de nouveau chiffrés à l'intérieur de l'enclave et renvoyés directement au client ou transmis par le proxy sous des règles d'accès strictes.
Application du principe du moindre privilège
Tous les autorisations réseau, de stockage et cryptographiques sont strictement définies :
Les compartiments de stockage n'acceptent les demandes que des enclaves attestées.
Les ACL réseau restreignent le trafic proxy vers les points de terminaison KMS et enclave.
Les interfaces de débogage des hôtes sont désactivées pour contrer les menaces internes.
Atténuations des menaces et meilleures pratiques
Sécurité de la chaîne d'approvisionnement : Des constructions reproductibles et une validation binaire indépendante empêchent les compromissions malveillantes de la chaîne d'outils.
Agilité Cryptographique: La rotation périodique des clés et la planification des algorithmes post-quantiques protègent contre les menaces futures.
Défenses contre les canaux auxiliaires de l'accélérateur : Préférez les TEE natifs sur les accélérateurs ; appliquez un chiffrement de mémoire strict et une isolation des cœurs lors du passage via des enclaves CPU.
Renforcement opérationnel : Supprimer les services d'hôte inutiles, désactiver le débogage et adopter des principes de zéro confiance pour l'accès des opérateurs.
Conclusion
Les systèmes d'inférence confidentiels permettent le déploiement sécurisé de modèles d'IA dans des environnements non fiables en intégrant des TEE matériels, des flux de travail d'accélérateur sécurisés et des pipelines de cryptage attestés. L'architecture modulaire décrite ici équilibre performance, sécurité et auditabilité, offrant un plan pratique pour les organisations cherchant à fournir des services d'IA préservant la vie privée à grande échelle.
Cette recherche d'Anthropic sur l'inférence AI sécurisée avec des TEE peut être très pertinente pour le Web3 a été initialement publiée dans Sentora sur Medium, où les gens continuent la conversation en mettant en avant et en répondant à cette histoire.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Cette recherche d'Anthropic sur l'inférence AI sécurisée avec des TEE peut être très pertinente pour le Web3
Les TEEs peuvent être l'un des éléments fondamentaux de l'inférence confidentielle.
Les services d'IA générative - des agents conversationnels à la synthèse d'images - sont de plus en plus confiés à des entrées sensibles et détiennent des modèles propriétaires précieux. L'inférence confidentielle permet l'exécution sécurisée des charges de travail d'IA sur une infrastructure non fiable en combinant des TEE soutenus par du matériel avec des flux de travail cryptographiques robustes. Cet essai présente les principales innovations qui rendent l'inférence confidentielle possible et examine une architecture modulaire conçue pour des déploiements en production dans des environnements cloud et edge.
Innovations fondamentales dans l'inférence confidentielle
L'inférence confidentielle repose sur trois avancées fondamentales :
Environnements d'exécution de confiance (TEEs) sur les processeurs modernes
Des processeurs comme Intel SGX, AMD SEV-SNP et AWS Nitro créent des enclaves scellées, isolant le code et les données du système d'exploitation hôte et de l'hyperviseur. Chaque enclave mesure son contenu au démarrage et publie une attestation signée. Cette attestation permet aux propriétaires de modèles et de données de vérifier que leurs charges de travail s'exécutent sur un binaire approuvé et non altéré avant de révéler des secrets.
Intégration de l'accélérateur sécurisé
L'inférence haute performance nécessite souvent des GPU ou des puces AI spécialisées. Deux modèles d'intégration sécurisent ces accélé rateurs :
Flux de travail de chiffrement de bout en bout attesté
L'inférence confidentielle utilise un échange de clés en deux phases ancré dans les attestations d'enclave :
Aperçu de l'architecture de référence
Un système d'inférence confidentiel de qualité production se compose généralement de trois composants principaux :
Service d'inférence confidentiel
Développeur & Environnement de Construction
Flux de travail des composants & Interactions
Attestation et Échange de Clés
Chemin des données d'inférence
Application du principe du moindre privilège Tous les autorisations réseau, de stockage et cryptographiques sont strictement définies :
Atténuations des menaces et meilleures pratiques
Conclusion
Les systèmes d'inférence confidentiels permettent le déploiement sécurisé de modèles d'IA dans des environnements non fiables en intégrant des TEE matériels, des flux de travail d'accélérateur sécurisés et des pipelines de cryptage attestés. L'architecture modulaire décrite ici équilibre performance, sécurité et auditabilité, offrant un plan pratique pour les organisations cherchant à fournir des services d'IA préservant la vie privée à grande échelle.
Cette recherche d'Anthropic sur l'inférence AI sécurisée avec des TEE peut être très pertinente pour le Web3 a été initialement publiée dans Sentora sur Medium, où les gens continuent la conversation en mettant en avant et en répondant à cette histoire.