Os TEEs podem ser um dos princípios fundamentais na inferência confidencial.
A inferência verificável tem sido considerada um dos casos de uso canônicos da web3-AI. Nessas narrativas, o uso de ambientes de execução confiáveis(TEEs) tem estado em evidência. Recentemente, a Anthropic publicou um artigo de pesquisa delineando algumas ideias nesse espaço que podem ser relevantes para avançar a agenda na web3-AI.
Serviços de IA generativa - desde agentes conversacionais até síntese de imagens - estão cada vez mais confiados com entradas sensíveis e possuem modelos valiosos e proprietários. A inferência confidencial permite a execução segura de cargas de trabalho de IA em infraestrutura não confiável, combinando TEEs (Ambientes de Execução Confiáveis) com fluxos de trabalho criptográficos robustos. Este ensaio apresenta as principais inovações que tornam a inferência confidencial possível e examina uma arquitetura modular projetada para implementações de produção em ambientes de nuvem e de borda.
Inovações Centrais em Inferência Confidencial
A inferência confidencial repousa em três avanços fundamentais:
Ambientes de Execução Confiáveis (TEEs) em Processadores Modernos
Processadores como Intel SGX, AMD SEV-SNP e AWS Nitro criam enclaves selados, isolando o código e os dados do sistema operativo host e do hipervisor. Cada enclave mede o seu conteúdo na inicialização e publica uma atestação assinada. Esta atestação permite que os proprietários de modelos e dados verifiquem se as suas cargas de trabalho estão a ser executadas numa binária aprovada e não manipulada antes de revelarem quaisquer segredos.
Integração do Acelerador Seguro
A inferência de alto desempenho muitas vezes requer GPUs ou chips de IA especializados. Dois padrões de integração garantem esses aceleradores:
GPUs TEE Nativos: Aceleradores de próxima geração (, por exemplo, NVIDIA H100) incorporam isolamento de hardware que descriptografa modelos e entradas diretamente na memória protegida do acelerador, recriptografando saídas em tempo real. As atestações garantem que o firmware do acelerador e o stack do driver correspondam ao estado esperado.
CPU-Enclave Bridging: Quando os aceleradores não têm suporte nativo de TEE, um enclave baseado em CPU estabelece canais encriptados (, por exemplo, buffers de memória compartilhada protegidos ) com a GPU. O enclave orquestra o movimento de dados e a inferência, minimizando a superfície de ataque.
Fluxo de Trabalho de Criptografia de Ponta a Ponta Atestado
A inferência confidencial emprega uma troca de chaves em duas fases ancorada em atestações de enclave:
Provisionamento de Modelo: Os pesos do modelo são criptografados em envelope sob o serviço de gestão de chaves do proprietário do modelo (KMS). Durante a implementação, o documento de atestação do enclave é validado pelo KMS, que então libera uma chave de criptografia de dados (DEK) diretamente no enclave.
Ingestão de Dados: Da mesma forma, os clientes criptografam entradas sob a chave pública do enclave apenas após verificar sua atestação. O enclave descriptografa as entradas, executa a inferência e recriptografa as saídas para o cliente, garantindo que nem os pesos do modelo nem os dados do usuário apareçam em texto simples fora do enclave.
Visão Geral da Arquitetura de Referência
Um sistema de inferência confidencial de grau de produção normalmente compreende três componentes principais:
Serviço de Inferência Confidencial
Programa Secure Enclave: Um runtime mínimo carregado no TEE que realiza desencriptação, execução de modelo e encriptação. Evita segredos persistentes no disco e confia no host apenas para buscar blobs encriptados e relatar a atestação.
Proxy de Enclave: Resident no sistema operativo anfitrião, este proxy inicializa e atesta o enclave, recupera blobs de modelo encriptados do armazenamento e orquestra a comunicação segura com o KMS e os clientes. Controles de rede rigorosos asseguram que o proxy apenas media pontos finais aprovados.
Pipeline de Provisão de Modelos
Criptografia de Envelope via KMS: Os modelos são pré-criptografados em blobs resistentes à adulteração. A atestação do enclave deve passar na validação do KMS antes que qualquer DEK seja desembrulhado. Para modelos ultra-sensíveis, o manuseio de chaves pode ocorrer inteiramente dentro do enclave para evitar a exposição externa.
Construções Reproduzíveis & Auditoria: Usando sistemas de construção determinísticos (e.g., Bazel) e enclaves de código aberto, as partes interessadas podem verificar independentemente se o binário implantado corresponde ao código auditado, mitigando riscos de cadeia de suprimentos.
Desenvolvedor & Ambiente de Construção
Pipelines de Construção Determinísticos e Audíveis: Imagens de contêiner e binários são produzidos com hashes verificáveis. As dependências são minimizadas e verificadas para reduzir a superfície de ataque do TEE.
Ferramentas de Verificação Binária: Análise pós-construção (, por exemplo, comparar enclaves compilados com o código fonte ) assegura que a execução corresponde exatamente à base de código auditada.
Fluxo de Trabalho do Componente & Interações
Atestação e Troca de Chaves
O enclave gera um par de chaves efêmeras e produz uma atestação assinada contendo medições criptográficas.
O KMS do proprietário do modelo verifica a atestação e desembrulha o DEK no enclave.
Os clientes obtêm a atestação do enclave, validam-na e criptografam as entradas de inferência com a chave pública do enclave.
Caminho de Dados de Inferência
Carregamento de Modelo: Blobs encriptados fluem para o enclave, onde são desencriptados apenas dentro da memória protegida.
Fase de Cálculo: A inferência é executada no CPU ou em um acelerador seguro. Em TEEs nativos de GPU, os tensores permanecem criptografados até serem processados. Em configurações interligadas, buffers criptografados e forte afinidade de núcleo garantem isolamento.
Criptografia de Saída: Os resultados de inferência são recriptografados dentro do enclave e retornados diretamente ao cliente ou transmitidos através do proxy sob regras de acesso rigorosas.
Aplicação do Princípio do Menor Privilégio
Todas as permissões de rede, armazenamento e criptográficas são rigorosamente definidas:
Os buckets de armazenamento aceitam solicitações apenas de enclaves atestados.
As ACLs de rede restringem o tráfego de proxy para os endpoints KMS e enclave.
As interfaces de depuração do host estão desativadas para impedir ameaças internas.
Mitigações de Ameaças e Melhores Práticas
Segurança da Cadeia de Suprimentos: Compilações reproduzíveis e validação independente de binários impedem compromissos maliciosos na cadeia de ferramentas.
Agilidade Criptográfica: Rotação periódica de chaves e planejamento para algoritmos pós-quânticos protegem contra ameaças futuras.
Defesas de Canal Lateral do Acelerador: Preferir TEEs nativos em aceleradores; impor criptografia de memória rigorosa e isolamento de núcleos ao fazer a ponte via enclaves de CPU.
Fortalecimento Operacional: Remover serviços de host desnecessários, desativar depuração e adotar princípios de zero confiança para acesso do operador.
Conclusão
Os sistemas de inferência confidenciais permitem a implementação segura de modelos de IA em ambientes não confiáveis, integrando TEEs de hardware, fluxos de trabalho de aceleradores seguros e pipelines de criptografia atestada. A arquitetura modular aqui descrita equilibra desempenho, segurança e auditabilidade, oferecendo um plano prático para organizações que desejam fornecer serviços de IA que preservem a privacidade em grande escala.
Esta pesquisa da Anthropic sobre inferência de IA segura com TEEs pode ser muito relevante para o Web3 foi originalmente publicada na Sentora no Medium, onde as pessoas continuam a conversa destacando e respondendo a esta história.
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Esta pesquisa da Anthropic sobre Inferência de IA Segura com TEEs pode ser muito relevante para o Web3
Os TEEs podem ser um dos princípios fundamentais na inferência confidencial.
A inferência verificável tem sido considerada um dos casos de uso canônicos da web3-AI. Nessas narrativas, o uso de ambientes de execução confiáveis(TEEs) tem estado em evidência. Recentemente, a Anthropic publicou um artigo de pesquisa delineando algumas ideias nesse espaço que podem ser relevantes para avançar a agenda na web3-AI.
Serviços de IA generativa - desde agentes conversacionais até síntese de imagens - estão cada vez mais confiados com entradas sensíveis e possuem modelos valiosos e proprietários. A inferência confidencial permite a execução segura de cargas de trabalho de IA em infraestrutura não confiável, combinando TEEs (Ambientes de Execução Confiáveis) com fluxos de trabalho criptográficos robustos. Este ensaio apresenta as principais inovações que tornam a inferência confidencial possível e examina uma arquitetura modular projetada para implementações de produção em ambientes de nuvem e de borda.
Inovações Centrais em Inferência Confidencial
A inferência confidencial repousa em três avanços fundamentais:
Ambientes de Execução Confiáveis (TEEs) em Processadores Modernos
Processadores como Intel SGX, AMD SEV-SNP e AWS Nitro criam enclaves selados, isolando o código e os dados do sistema operativo host e do hipervisor. Cada enclave mede o seu conteúdo na inicialização e publica uma atestação assinada. Esta atestação permite que os proprietários de modelos e dados verifiquem se as suas cargas de trabalho estão a ser executadas numa binária aprovada e não manipulada antes de revelarem quaisquer segredos.
Integração do Acelerador Seguro
A inferência de alto desempenho muitas vezes requer GPUs ou chips de IA especializados. Dois padrões de integração garantem esses aceleradores:
Fluxo de Trabalho de Criptografia de Ponta a Ponta Atestado
A inferência confidencial emprega uma troca de chaves em duas fases ancorada em atestações de enclave:
Visão Geral da Arquitetura de Referência
Um sistema de inferência confidencial de grau de produção normalmente compreende três componentes principais:
Serviço de Inferência Confidencial
Fluxo de Trabalho do Componente & Interações
Atestação e Troca de Chaves
Caminho de Dados de Inferência
Aplicação do Princípio do Menor Privilégio Todas as permissões de rede, armazenamento e criptográficas são rigorosamente definidas:
Mitigações de Ameaças e Melhores Práticas
Conclusão
Os sistemas de inferência confidenciais permitem a implementação segura de modelos de IA em ambientes não confiáveis, integrando TEEs de hardware, fluxos de trabalho de aceleradores seguros e pipelines de criptografia atestada. A arquitetura modular aqui descrita equilibra desempenho, segurança e auditabilidade, oferecendo um plano prático para organizações que desejam fornecer serviços de IA que preservem a privacidade em grande escala.
Esta pesquisa da Anthropic sobre inferência de IA segura com TEEs pode ser muito relevante para o Web3 foi originalmente publicada na Sentora no Medium, onde as pessoas continuam a conversa destacando e respondendo a esta história.