Penelitian mengungkap celah kepercayaan model GPT, menyerukan peningkatan keamanan AI.

2025-08-17 04:49:24

Pembuatan abstrak sedang berlangsung

Menilai Keandalan Model Bahasa

Para peneliti baru-baru ini merilis sebuah platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs), dan memperkenalkannya dalam makalah berjudul "DecodingTrust: Evaluasi Kredibilitas Model GPT Secara Komprehensif."

Hasil evaluasi mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak diketahui. Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan data pelatihan dan informasi privasi dari riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat dipercaya dibandingkan GPT-3.5, namun ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.

Pekerjaan ini melakukan penilaian menyeluruh terhadap kredibilitas model GPT, mengungkapkan kesenjangan dalam aspek kredibilitas. Dasar penilaian dapat diakses publik, dan tim peneliti berharap dapat mendorong peneliti lain untuk melanjutkan penelitian lebih dalam berdasarkan ini, untuk mencegah potensi penyalahgunaan.

Evaluasi dilakukan dengan analisis komprehensif terhadap model GPT dari delapan sudut kepercayaan, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta pelanggaran privasi. Sebagai contoh, untuk menilai ketahanan terhadap serangan adversarial teks, penelitian membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian teks adversarial yang lebih menantang.

Penelitian menemukan beberapa hasil menarik. Dalam hal demonstrasi adversarial, model GPT tidak akan terpengaruh oleh contoh kontra-faktual, tetapi mungkin terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT tidak terlalu bias di bawah petunjuk yang baik, tetapi mudah terpengaruh oleh petunjuk yang menyesatkan yang "memanipulasi" persetujuan terhadap konten yang bias, GPT-4 lebih mudah terpengaruh dibandingkan GPT-3.5.

Dalam hal perlindungan privasi, model GPT dapat mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi dibandingkan GPT-3.5, namun keduanya cukup tangguh dalam melindungi jenis informasi tertentu. Namun, dalam beberapa kasus, GPT-4 justru lebih rentan untuk mengungkap privasi dibandingkan GPT-3.5, mungkin karena ia mengikuti instruksi yang menyesatkan dengan lebih ketat.

Penelitian ini memberikan perspektif yang komprehensif untuk evaluasi keandalan model bahasa besar, mengungkapkan keunggulan dan kekurangan model yang ada. Para peneliti berharap temuan ini dapat mendorong pengembangan model AI yang lebih aman dan lebih andal.

GPT7.37%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

11 Suka

Hadiah
11
4
Posting ulang
Bagikan

Komentar

0/400

TradFiRefugee

· 17jam yang lalu

Perangkat lunak keamanan tidak dibuat tanpa alasan.

Lihat AsliBalas0

DegenWhisperer

· 17jam yang lalu

Sangat nyata, inilah kotak harta karun para VC.

Lihat AsliBalas0

RugpullSurvivor

· 17jam yang lalu

Haha, Perdagangan Mata Uang Kripto terlalu banyak, melihat di mana-mana selalu ada celah.

Lihat AsliBalas0

RugpullTherapist

· 17jam yang lalu

AI juga terlalu mudah dibohongi, ya?

Lihat AsliBalas0

Topik
#July PPI Beats Expectations
40k Popularitas
#ETH ETFs Top $30B
42k Popularitas
#Gate Alpha Peak Trading Competition
148k Popularitas
#Gate Releases August Reserves Report
19k Popularitas
#BTC Hits New ATH
107k Popularitas

Sematkan

peta situs