Avaliação da Confiabilidade do Modelo GPT: A pesquisa DecodingTrust revela riscos e desafios potenciais

Avaliando a Credibilidade do Modelo GPT: O estudo "DecodingTrust" revela riscos potenciais

A Universidade de Illinois em Urbana-Champaign, em colaboração com várias outras universidades e instituições de pesquisa, lançou uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs). A equipe de pesquisa apresentou esta plataforma no artigo "DecodingTrust: Avaliação abrangente da confiabilidade dos modelos GPT."

A pesquisa encontrou algumas questões potenciais relacionadas à confiabilidade dos modelos GPT. Por exemplo, os modelos GPT podem ser facilmente induzidos a produzir saídas prejudiciais e tendenciosas, além de poderem vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Curiosamente, embora o GPT-4 geralmente seja mais confiável do que o GPT-3.5 em testes padrão, ele é mais suscetível a ataques quando confrontado com prompts maliciosamente projetados. Isso pode ser devido ao fato de que o GPT-4 segue com mais precisão as instruções enganosas.

Este estudo avaliou o modelo GPT de forma abrangente a partir de 8 dimensões, incluindo o desempenho do modelo em diferentes cenários e ambientes adversos. Por exemplo, a equipe de pesquisa projetou três cenários para avaliar a robustez do GPT-3.5 e do GPT-4 contra ataques adversariais de texto.

A pesquisa também descobriu alguns fenômenos interessantes. Por exemplo, o modelo GPT não é enganado por exemplos contrafactuais adicionados na demonstração, mas pode ser enganado por demonstrações de combate à fraude. Em termos de toxicidade e preconceito, o modelo GPT geralmente apresenta pouca viés em relação à maioria dos temas estereotipados, mas pode gerar conteúdo tendencioso sob sugestões enganosas. O viés do modelo também está relacionado aos grupos e temas mencionados.

Em termos de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treino, especialmente sob certos prompts. O GPT-4 é mais robusto na proteção de informações pessoais do que o GPT-3.5, mas em algumas situações pode vazar privacidade mais facilmente.

A equipe de pesquisa espera que este trabalho possa promover mais investigações na academia e ajudar a prevenir riscos potenciais. Eles enfatizam que este é apenas um ponto de partida e que mais esforços são necessários para criar modelos mais confiáveis. Para promover a colaboração, a equipe de pesquisa publicou o código de referência de avaliação, facilitando o uso por outros pesquisadores.

GPT-0.17%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 4
  • Repostar
  • Compartilhar
Comentário
0/400
DegenRecoveryGroupvip
· 19h atrás
Quanto mais inteligente, mais fácil é ser enganado, não é?
Ver originalResponder0
GasFeeWhisperervip
· 19h atrás
Olhando, olhando, começo a sentir sono. É mais um artigo de água.
Ver originalResponder0
MidnightGenesisvip
· 19h atrás
Peguei o ponto fraco do GPT... o meu sistema de monitoramento já tinha detectado vulnerabilidades semelhantes.
Ver originalResponder0
TokenSleuthvip
· 19h atrás
Quanto mais alto o nível, mais fácil é ser enganado. Que sensação familiar.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)