Evaluación de la confiabilidad del modelo GPT: La investigación DecodingTrust revela riesgos y desafíos potenciales

Evaluación de la credibilidad del modelo GPT: el estudio "DecodingTrust" revela riesgos potenciales

La Universidad de Illinois en Urbana-Champaign, junto con varias universidades e instituciones de investigación, ha lanzado una plataforma integral de evaluación de la confiabilidad para modelos de lenguaje grandes (LLMs). El equipo de investigación presentó esta plataforma en el artículo "DecodingTrust: evaluación integral de la confiabilidad de los modelos GPT".

La investigación ha encontrado algunos problemas potenciales relacionados con la confianza en los modelos GPT. Por ejemplo, los modelos GPT son propensos a ser engañados para producir salidas dañinas y sesgadas, y también pueden filtrar información privada de los datos de entrenamiento y el historial de conversaciones. Curiosamente, aunque GPT-4 suele ser más confiable que GPT-3.5 en pruebas estándar, cuando se enfrenta a indicaciones maliciosamente diseñadas, GPT-4 es más susceptible a ataques. Esto puede deberse a que GPT-4 sigue más precisamente las instrucciones engañosas.

El estudio evaluó integralmente el modelo GPT desde 8 dimensiones, incluyendo el rendimiento del modelo en diferentes contextos y entornos adversos. Por ejemplo, el equipo de investigación diseñó tres escenarios para evaluar la robustez de GPT-3.5 y GPT-4 frente a ataques adversariales de texto.

La investigación también ha encontrado algunos fenómenos interesantes. Por ejemplo, el modelo GPT no se deja engañar por ejemplos contrafácticos añadidos a la demostración, pero puede ser engañado por las demostraciones de fraude. En términos de toxicidad y sesgo, el modelo GPT generalmente tiene poca desviación con respecto a la mayoría de los temas de estereotipos, pero puede generar contenido sesgado bajo indicaciones engañosas. El sesgo del modelo también está relacionado con los grupos y temas mencionados.

En términos de privacidad, el modelo GPT puede filtrar información sensible de los datos de entrenamiento, especialmente bajo ciertos indicios. GPT-4 es más robusto en la protección de la información personal que GPT-3.5, pero en algunos casos puede ser más propenso a filtrar la privacidad.

El equipo de investigación espera que este trabajo promueva más estudios en el ámbito académico y ayude a prevenir riesgos potenciales. Enfatizan que esto es solo un punto de partida y se necesita más esfuerzo para crear modelos más confiables. Para fomentar la colaboración, el equipo de investigación ha hecho público el código de referencia de evaluación, facilitando su uso a otros investigadores.

GPT-2.05%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 4
  • Republicar
  • Compartir
Comentar
0/400
DegenRecoveryGroupvip
· 08-12 20:32
Cuanto más inteligente, más fácil es ser engañado, ¿verdad?
Ver originalesResponder0
GasFeeWhisperervip
· 08-12 20:26
Mirando me da sueño, otra vez es un trabajo de investigación.
Ver originalesResponder0
MidnightGenesisvip
· 08-12 20:23
Encontré el talón de Aquiles de GPT... Mi sistema de monitoreo ya había detectado fallos similares.
Ver originalesResponder0
TokenSleuthvip
· 08-12 20:17
Cuanto más avanzado, más fácil es ser engañado. Una sensación muy familiar.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)