DecodingTrust: Büyük dil modellerinin güvenilirlik açıklarını ortaya koyma

robot
Abstract generation in progress

Büyük Dil Modellerinin Güvenilirliğini Değerlendirme: DecodingTrust Araştırma Sonuçları

Birden fazla üniversite ve araştırma kurumundan oluşan bir ekip, son zamanlarda büyük dil modellerinin (LLMs) güvenilirliğini kapsamlı bir şekilde değerlendiren bir platform yayınladı. Bu araştırma, üretken önceden eğitilmiş transformer modeli (GPT)'nin güvenilirliğini kapsamlı bir şekilde değerlendirmeyi amaçlamaktadır.

Araştırmalar, daha önce kamuya açıklanmayan güvenilirlikle ilgili bazı açıklar bulmuştur. Örneğin, GPT modelleri zararlı ve önyargılı çıktılar üretmeye eğilimlidir ve eğitim verileri ile diyalog geçmişindeki gizli bilgileri sızdırabilir. Standart kıyaslama testlerinde GPT-4 genellikle GPT-3.5'ten daha güvenilir olmasına rağmen, kötü niyetli tasarlanmış istemlerle karşılaştığında, GPT-4 daha kolay bir şekilde saldırıya uğrayabilmektedir. Bu, GPT-4'ün yanıltıcı talimatlara daha katı bir şekilde uymasından kaynaklanıyor olabilir.

Araştırma ekibi, modelin düşman ortamlarındaki performansı da dahil olmak üzere, GPT modelini sekiz farklı açıdan kapsamlı bir şekilde değerlendirdi. Örneğin, metin karşıt saldırılarına karşı modelin dayanıklılığını standart referanslar ve kendi tasarladıkları zorlu veri setleri kullanarak değerlendirdiler.

Araştırmalar ayrıca, GPT modelinin belirli durumlarda yanıltıcı sistem ipuçlarıyla karşılaştığında önyargılı içerik üretmekte yanıltılabileceğini ortaya koymuştur. Modelin önyargı derecesi genellikle kullanıcı ipuçlarında bahsedilen demografik gruplara ve kalıp yargı konularına bağlıdır.

Gizlilik açısından, araştırmalar GPT modellerinin eğitim verilerindeki hassas bilgileri, örneğin e-posta adreslerini sızdırabileceğini ortaya koymuştur. GPT-4, kişisel kimlik bilgilerini koruma konusunda genel olarak GPT-3.5'ten daha sağlamdır, ancak her iki model de belirli bilgi türlerinde iyi performans göstermektedir. Ancak, konuşma geçmişinde gizlilik ihlali örnekleri ortaya çıktığında, her iki model de her tür kişisel bilgiyi sızdırabilir.

Bu araştırma, büyük dil modellerinin güvenilirliğini değerlendirmek ve geliştirmek için önemli bilgiler sunmaktadır. Araştırma ekibi, bu çalışmanın daha fazla araştırmayı teşvik etmesini ve nihayetinde daha güçlü, daha güvenilir AI modellerinin geliştirilmesine yardımcı olmasını umuyor.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 6
  • Share
Comment
0/400
PumpBeforeRugvip
· 4h ago
Ne oluyor? Yine bir açık var.
View OriginalReply0
MetaverseVagrantvip
· 07-14 05:25
Ah? gpt4'ün de kara deliği mi var?
View OriginalReply0
WalletInspectorvip
· 07-14 04:21
Hehe yine bir güvenlik açığı testi.
View OriginalReply0
RugPullAlertBotvip
· 07-14 04:14
gpt de saldırıya uğradı... hehe
View OriginalReply0
PuzzledScholarvip
· 07-14 04:01
Yapay zeka bir şey mi ağzından kaçırdı?
View OriginalReply0
RektDetectivevip
· 07-14 04:00
Ah, yine sorun çıkarmaya geldin.
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)