أظهرت الأبحاث ثغرات في موثوقية نموذج GPT ودعت إلى تعزيز أمان الذكاء الاصطناعي 

robot
إنشاء الملخص قيد التقدم

تقييم موثوقية نموذج اللغة

أصدر الباحثون مؤخرًا منصة شاملة لتقييم موثوقية نماذج اللغة الكبيرة (LLMs)، وتم تقديمها في الورقة البحثية "DecodingTrust: تقييم شامل لموثوقية نماذج GPT."

أظهرت نتائج التقييم بعض الثغرات المتعلقة بالموثوقية التي لم تكن معروفة من قبل. وجدت الدراسة أن نماذج GPT عرضة لإنتاج مخرجات سامة ومتحيزة، وقد تكشف أيضًا عن بيانات التدريب والمعلومات الخاصة في تاريخ المحادثات. على الرغم من أن GPT-4 عادة ما يكون أكثر موثوقية من GPT-3.5 في اختبارات المعيار القياسية، إلا أنه عند مواجهة تلميحات مصممة بشكل خبيث، يكون GPT-4 أكثر عرضة للهجوم، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.

أجرت هذه الدراسة تقييمًا شاملاً لموثوقية نماذج GPT، كاشفة عن الفجوات في الموثوقية. يمكن الوصول إلى معايير التقييم بشكل علني، ويأمل فريق البحث في تشجيع الباحثين الآخرين على متابعة البحث بناءً على ذلك، لمنع الاستغلال الضار المحتمل.

تم تقييم نموذج GPT من خلال تحليل شامل من ثمانية جوانب موثوقية، بما في ذلك متانة الهجمات العدائية، والسمية والتحيز، وتسريبات الخصوصية، وغيرها. على سبيل المثال، لتقييم متانة النص ضد الهجمات العدائية، قام البحث ببناء ثلاثة سيناريوهات تقييم، بما في ذلك اختبارات المعايير القياسية، والاختبارات تحت مهام توجيهية مختلفة، واختبارات النصوص العدائية الأكثر تحدياً.

وجدت الدراسات بعض النتائج المثيرة للاهتمام. فيما يتعلق بالعروض الهجومية، فإن نموذج GPT لن يتم تضليله بأمثلة بديلة، لكن قد يتم تضليله بالعروض المضادة للغش. في ما يتعلق بالسمية والتحيز، فإن نموذج GPT يظهر تحيزًا ضئيلًا عند تقديم مطالبات حميدة، لكنه عرضة للتحريض على "الموافقة" على محتوى متحيز من خلال مطالبات مضللة، و GPT-4 أكثر عرضة للتأثر من GPT-3.5.

فيما يتعلق بحماية الخصوصية، قد يقوم نموذج GPT بكشف المعلومات الحساسة الموجودة في بيانات التدريب، مثل عناوين البريد الإلكتروني. يظهر GPT-4 أداءً أفضل في حماية المعلومات الشخصية مقارنةً بـ GPT-3.5، لكن كلاهما يتمتع بحماية قوية لأنواع معينة من المعلومات. ومع ذلك، في بعض الحالات، قد يكون GPT-4 أكثر عرضة للكشف عن الخصوصية مقارنةً بـ GPT-3.5، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.

تقدم هذه الدراسة وجهة نظر شاملة لتقييم موثوقية نماذج اللغة الكبيرة، كاشفة عن مزايا وعيوب النماذج الحالية. يأمل الباحثون أن تدفع هذه الاكتشافات نحو تطوير نماذج ذكاء اصطناعي أكثر أمانًا وموثوقية.

GPT7.37%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • إعادة النشر
  • مشاركة
تعليق
0/400
TradFiRefugeevip
· منذ 17 س
البرامج الأمنية ليست مجانية
شاهد النسخة الأصليةرد0
DegenWhisperervip
· منذ 17 س
هذا حقيقي جدًا، هذه هي صندوق الكنز للمستثمرين المغامرين.
شاهد النسخة الأصليةرد0
RugpullSurvivorvip
· منذ 17 س
笑死 تداول العملات الرقمية看多了看哪都是漏洞
شاهد النسخة الأصليةرد0
RugpullTherapistvip
· منذ 17 س
يبدو أن الذكاء الاصطناعي سهل الإقناع للغاية
شاهد النسخة الأصليةرد0
  • تثبيت