Penelitian mengungkap celah kepercayaan model GPT, menyerukan peningkatan keamanan AI.

robot
Pembuatan abstrak sedang berlangsung

Menilai Keandalan Model Bahasa

Para peneliti baru-baru ini merilis sebuah platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs), dan memperkenalkannya dalam makalah berjudul "DecodingTrust: Evaluasi Kredibilitas Model GPT Secara Komprehensif."

Hasil evaluasi mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak diketahui. Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan data pelatihan dan informasi privasi dari riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat dipercaya dibandingkan GPT-3.5, namun ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.

Pekerjaan ini melakukan penilaian menyeluruh terhadap kredibilitas model GPT, mengungkapkan kesenjangan dalam aspek kredibilitas. Dasar penilaian dapat diakses publik, dan tim peneliti berharap dapat mendorong peneliti lain untuk melanjutkan penelitian lebih dalam berdasarkan ini, untuk mencegah potensi penyalahgunaan.

Evaluasi dilakukan dengan analisis komprehensif terhadap model GPT dari delapan sudut kepercayaan, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta pelanggaran privasi. Sebagai contoh, untuk menilai ketahanan terhadap serangan adversarial teks, penelitian membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian teks adversarial yang lebih menantang.

Penelitian menemukan beberapa hasil menarik. Dalam hal demonstrasi adversarial, model GPT tidak akan terpengaruh oleh contoh kontra-faktual, tetapi mungkin terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT tidak terlalu bias di bawah petunjuk yang baik, tetapi mudah terpengaruh oleh petunjuk yang menyesatkan yang "memanipulasi" persetujuan terhadap konten yang bias, GPT-4 lebih mudah terpengaruh dibandingkan GPT-3.5.

Dalam hal perlindungan privasi, model GPT dapat mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi dibandingkan GPT-3.5, namun keduanya cukup tangguh dalam melindungi jenis informasi tertentu. Namun, dalam beberapa kasus, GPT-4 justru lebih rentan untuk mengungkap privasi dibandingkan GPT-3.5, mungkin karena ia mengikuti instruksi yang menyesatkan dengan lebih ketat.

Penelitian ini memberikan perspektif yang komprehensif untuk evaluasi keandalan model bahasa besar, mengungkapkan keunggulan dan kekurangan model yang ada. Para peneliti berharap temuan ini dapat mendorong pengembangan model AI yang lebih aman dan lebih andal.

GPT7.37%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 4
  • Posting ulang
  • Bagikan
Komentar
0/400
TradFiRefugeevip
· 17jam yang lalu
Perangkat lunak keamanan tidak dibuat tanpa alasan.
Lihat AsliBalas0
DegenWhisperervip
· 17jam yang lalu
Sangat nyata, inilah kotak harta karun para VC.
Lihat AsliBalas0
RugpullSurvivorvip
· 17jam yang lalu
Haha, Perdagangan Mata Uang Kripto terlalu banyak, melihat di mana-mana selalu ada celah.
Lihat AsliBalas0
RugpullTherapistvip
· 17jam yang lalu
AI juga terlalu mudah dibohongi, ya?
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)