DecodingTrust: Mengungkap Kerentanan Keandalan Model Bahasa Besar

robot
Pembuatan abstrak sedang berlangsung

Menilai Keandalan Model Bahasa Besar: Temuan Penelitian DecodingTrust

Sebuah tim yang terdiri dari beberapa universitas dan lembaga penelitian baru-baru ini meluncurkan sebuah platform untuk menilai secara komprehensif keandalan model bahasa besar (LLMs). Penelitian ini bertujuan untuk mengevaluasi secara menyeluruh keandalan model transformer pra-latih generatif (GPT).

Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya belum dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang berbahaya dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar, GPT-4 biasanya lebih andal dibandingkan GPT-3.5, namun saat dihadapkan pada prompt yang dirancang dengan niat jahat, GPT-4 malah lebih rentan diserang. Hal ini mungkin disebabkan oleh fakta bahwa GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk kinerja model dalam lingkungan yang bersifat antagonis. Misalnya, mereka mengevaluasi ketahanan model terhadap serangan adversarial pada teks, menggunakan tolok ukur standar dan kumpulan data tantangan yang dirancang sendiri.

Penelitian juga menemukan bahwa model GPT dalam beberapa kasus dapat disesatkan untuk menghasilkan konten yang bias, terutama ketika dihadapkan dengan petunjuk sistem yang menyesatkan yang dirancang dengan cermat. Tingkat bias model sering kali bergantung pada kelompok populasi dan tema stereotip yang disebutkan dalam petunjuk pengguna.

Dalam hal privasi, penelitian menemukan bahwa model GPT dapat mengungkapkan informasi sensitif dalam data pelatihan, seperti alamat email. GPT-4 secara keseluruhan lebih robust dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kinerja yang baik pada beberapa jenis informasi. Namun, ketika ada contoh kebocoran privasi dalam riwayat percakapan, kedua model dapat mengungkapkan semua jenis informasi pribadi.

Penelitian ini memberikan wawasan penting untuk mengevaluasi dan meningkatkan keandalan model bahasa besar. Tim peneliti berharap pekerjaan ini dapat mendorong lebih banyak penelitian, dan akhirnya membantu mengembangkan model AI yang lebih kuat dan lebih dapat diandalkan.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
MetaverseVagrantvip
· 19jam yang lalu
Ah? Apakah gpt4 juga memiliki lubang hitam?
Lihat AsliBalas0
WalletInspectorvip
· 20jam yang lalu
Hehe, ini lagi uji celah ya
Lihat AsliBalas0
RugPullAlertBotvip
· 20jam yang lalu
gpt juga diserang… hehe
Lihat AsliBalas0
PuzzledScholarvip
· 20jam yang lalu
Apakah kecerdasan buatan ini telah berbicara terlalu blak-blakan?
Lihat AsliBalas0
RektDetectivevip
· 20jam yang lalu
Huh, datang lagi untuk mencari masalah.
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)