Para peneliti baru-baru ini merilis sebuah platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs), dan memperkenalkannya dalam makalah berjudul "DecodingTrust: Evaluasi Kredibilitas Model GPT Secara Komprehensif."
Hasil evaluasi mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak diketahui. Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan data pelatihan dan informasi privasi dari riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat dipercaya dibandingkan GPT-3.5, namun ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Pekerjaan ini melakukan penilaian menyeluruh terhadap kredibilitas model GPT, mengungkapkan kesenjangan dalam aspek kredibilitas. Dasar penilaian dapat diakses publik, dan tim peneliti berharap dapat mendorong peneliti lain untuk melanjutkan penelitian lebih dalam berdasarkan ini, untuk mencegah potensi penyalahgunaan.
Evaluasi dilakukan dengan analisis komprehensif terhadap model GPT dari delapan sudut kepercayaan, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta pelanggaran privasi. Sebagai contoh, untuk menilai ketahanan terhadap serangan adversarial teks, penelitian membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian teks adversarial yang lebih menantang.
Penelitian menemukan beberapa hasil menarik. Dalam hal demonstrasi adversarial, model GPT tidak akan terpengaruh oleh contoh kontra-faktual, tetapi mungkin terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT tidak terlalu bias di bawah petunjuk yang baik, tetapi mudah terpengaruh oleh petunjuk yang menyesatkan yang "memanipulasi" persetujuan terhadap konten yang bias, GPT-4 lebih mudah terpengaruh dibandingkan GPT-3.5.
Dalam hal perlindungan privasi, model GPT dapat mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi dibandingkan GPT-3.5, namun keduanya cukup tangguh dalam melindungi jenis informasi tertentu. Namun, dalam beberapa kasus, GPT-4 justru lebih rentan untuk mengungkap privasi dibandingkan GPT-3.5, mungkin karena ia mengikuti instruksi yang menyesatkan dengan lebih ketat.
Penelitian ini memberikan perspektif yang komprehensif untuk evaluasi keandalan model bahasa besar, mengungkapkan keunggulan dan kekurangan model yang ada. Para peneliti berharap temuan ini dapat mendorong pengembangan model AI yang lebih aman dan lebih andal.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
11 Suka
Hadiah
11
4
Posting ulang
Bagikan
Komentar
0/400
TradFiRefugee
· 17jam yang lalu
Perangkat lunak keamanan tidak dibuat tanpa alasan.
Lihat AsliBalas0
DegenWhisperer
· 17jam yang lalu
Sangat nyata, inilah kotak harta karun para VC.
Lihat AsliBalas0
RugpullSurvivor
· 17jam yang lalu
Haha, Perdagangan Mata Uang Kripto terlalu banyak, melihat di mana-mana selalu ada celah.
Penelitian mengungkap celah kepercayaan model GPT, menyerukan peningkatan keamanan AI.
Menilai Keandalan Model Bahasa
Para peneliti baru-baru ini merilis sebuah platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs), dan memperkenalkannya dalam makalah berjudul "DecodingTrust: Evaluasi Kredibilitas Model GPT Secara Komprehensif."
Hasil evaluasi mengungkapkan beberapa kerentanan terkait kredibilitas yang sebelumnya tidak diketahui. Penelitian menemukan bahwa model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan data pelatihan dan informasi privasi dari riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat dipercaya dibandingkan GPT-3.5, namun ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Pekerjaan ini melakukan penilaian menyeluruh terhadap kredibilitas model GPT, mengungkapkan kesenjangan dalam aspek kredibilitas. Dasar penilaian dapat diakses publik, dan tim peneliti berharap dapat mendorong peneliti lain untuk melanjutkan penelitian lebih dalam berdasarkan ini, untuk mencegah potensi penyalahgunaan.
Evaluasi dilakukan dengan analisis komprehensif terhadap model GPT dari delapan sudut kepercayaan, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta pelanggaran privasi. Sebagai contoh, untuk menilai ketahanan terhadap serangan adversarial teks, penelitian membangun tiga skenario evaluasi, termasuk pengujian benchmark standar, pengujian di bawah instruksi tugas yang berbeda, serta pengujian teks adversarial yang lebih menantang.
Penelitian menemukan beberapa hasil menarik. Dalam hal demonstrasi adversarial, model GPT tidak akan terpengaruh oleh contoh kontra-faktual, tetapi mungkin terpengaruh oleh demonstrasi anti-penipuan. Dalam hal toksisitas dan bias, model GPT tidak terlalu bias di bawah petunjuk yang baik, tetapi mudah terpengaruh oleh petunjuk yang menyesatkan yang "memanipulasi" persetujuan terhadap konten yang bias, GPT-4 lebih mudah terpengaruh dibandingkan GPT-3.5.
Dalam hal perlindungan privasi, model GPT dapat mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi dibandingkan GPT-3.5, namun keduanya cukup tangguh dalam melindungi jenis informasi tertentu. Namun, dalam beberapa kasus, GPT-4 justru lebih rentan untuk mengungkap privasi dibandingkan GPT-3.5, mungkin karena ia mengikuti instruksi yang menyesatkan dengan lebih ketat.
Penelitian ini memberikan perspektif yang komprehensif untuk evaluasi keandalan model bahasa besar, mengungkapkan keunggulan dan kekurangan model yang ada. Para peneliti berharap temuan ini dapat mendorong pengembangan model AI yang lebih aman dan lebih andal.