تقييم موثوقية نموذج GPT: يكشف بحث DecodingTrust عن المخاطر والتحديات المحتملة

تقييم موثوقية نموذج GPT: دراسة "DecodingTrust" تكشف المخاطر المحتملة

أصدرت جامعة إلينوي في إربانا شامبين بالتعاون مع عدة جامعات ومؤسسات بحثية منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs). قدم فريق البحث هذه المنصة في ورقة بعنوان "DecodingTrust: تقييم شامل لموثوقية نماذج GPT."

أظهرت الأبحاث وجود بعض المشكلات المحتملة المتعلقة بموثوقية نماذج GPT. على سبيل المثال، تميل نماذج GPT إلى أن تكون مضللة، مما ينتج عنه مخرجات ضارة وذات انحياز، وقد تكون معرضة أيضًا لكشف المعلومات الخاصة من بيانات التدريب وسجل المحادثات. من المثير للاهتمام أنه على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في الاختبارات القياسية، إلا أنه عند مواجهة تحفيز مصمم بشكل خبيث، يكون GPT-4 أكثر عرضة للهجوم. قد يكون ذلك بسبب أن GPT-4 يتبع التعليمات المضللة بدقة أكبر.

أجرى هذا البحث تقييمًا شاملاً لنموذج GPT من ثمانية أبعاد، بما في ذلك أداء النموذج في سياقات مختلفة وبيئات معادية. على سبيل المثال، صممت فريق البحث ثلاثة سيناريوهات لتقييم قوة نموذج GPT-3.5 وGPT-4 ضد هجمات النصوص المعادية.

أظهرت الأبحاث أيضًا بعض الظواهر المثيرة للاهتمام. على سبيل المثال، لا يمكن أن تُخدع نماذج GPT بالأمثلة المضادة للحقائق المضافة في العرض التقديمي، لكنها يمكن أن تُخدع بالعروض المضادة للاحتيال. في ما يتعلق بالسمية والتحيز، فإن نماذج GPT بشكل عام لا تُظهر انحرافًا كبيرًا تجاه معظم موضوعات الصور النمطية، لكنها قد تنتج محتوى متحيز تحت تأثير الإشارات المضللة. كما يرتبط انحياز النموذج بالمجموعات والمواضيع المذكورة.

من حيث الخصوصية، قد ينكشف نموذج GPT عن معلومات حساسة موجودة في بيانات التدريب، خاصةً تحت تلميحات معينة. يعد GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكنه قد يكون في بعض الحالات أكثر عرضة لكشف الخصوصية.

تأمل فريق البحث أن تسهم هذه العمل في تعزيز الأبحاث الأكاديمية بشكل أكبر، ومساعدة في درء المخاطر المحتملة. وأكدوا أن هذه مجرد بداية، وهناك حاجة إلى مزيد من الجهود لإنشاء نماذج أكثر موثوقية. لتعزيز التعاون، قام فريق البحث بنشر كود المعايير التقييمية، لتسهيل استخدامه من قبل الباحثين الآخرين.

GPT-0.37%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • إعادة النشر
  • مشاركة
تعليق
0/400
DegenRecoveryGroupvip
· منذ 5 س
كلما كنت أذكى، كان من السهل خداعك، أليس كذلك؟
شاهد النسخة الأصليةرد0
GasFeeWhisperervip
· منذ 5 س
أشعر بالنعاس وأنا أشاهد، إنها ورقة مائية أخرى.
شاهد النسخة الأصليةرد0
MidnightGenesisvip
· منذ 5 س
لقد اكتشفت نقطة ضعف GPT... لقد اكتشف نظام المراقبة الخاص بي مثل هذه الثغرات منذ فترة.
شاهد النسخة الأصليةرد0
TokenSleuthvip
· منذ 5 س
كلما كانت أعلى، كانت أكثر عرضة للخداع. شعور مألوف جدًا.
شاهد النسخة الأصليةرد0
  • تثبيت