Оцінка надійності великих мовних моделей: результати дослідження DecodingTrust
Команда, до складу якої входять кілька університетів та дослідницьких установ, нещодавно випустила платформу для комплексної оцінки довіри до великих мовних моделей (LLMs). Це дослідження має на меті всебічно оцінити надійність генеративних попередньо навчених трансформерних моделей (GPT).
Дослідження виявило кілька раніше не опублікованих вразливостей, пов'язаних з довірою. Наприклад, моделі GPT схильні до генерування шкідливих та упереджених виходів і можуть розкривати конфіденційну інформацію з даних навчання та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у випадку з навмисно спроектованими запитами GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 більш строго дотримується оманливих інструкцій.
Дослідницька команда всебічно оцінила модель GPT з восьми різних аспектів, включаючи її продуктивність у протистоянні агресивним середовищам. Наприклад, вони оцінили стійкість моделі до текстових атак, використовуючи стандартні бази даних та самостійно розроблені складні набори даних.
Дослідження також виявило, що моделі GPT в деяких випадках можуть бути введені в оману і генерувати упереджений контент, особливо коли вони стикаються з ретельно розробленими оманливими системними підказками. Ступінь упередженості моделі часто залежить від згаданих у підказках груп населення та тем стереотипів.
У сфері конфіденційності дослідження виявили, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 загалом є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі показують хороші результати у певних типах інформації. Однак, коли в історії розмови з'являються приклади витоку конфіденційності, обидві моделі можуть розкривати всі типи особистої інформації.
Це дослідження надає важливі уявлення для оцінки та покращення надійності великих мовних моделей. Дослідницька команда сподівається, що ця робота сприятиме подальшим дослідженням і в кінцевому підсумку допоможе розробити більш потужні та надійні моделі ШІ.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
DecodingTrust: Виявлення вразливостей довіри у великих мовних моделях
Оцінка надійності великих мовних моделей: результати дослідження DecodingTrust
Команда, до складу якої входять кілька університетів та дослідницьких установ, нещодавно випустила платформу для комплексної оцінки довіри до великих мовних моделей (LLMs). Це дослідження має на меті всебічно оцінити надійність генеративних попередньо навчених трансформерних моделей (GPT).
Дослідження виявило кілька раніше не опублікованих вразливостей, пов'язаних з довірою. Наприклад, моделі GPT схильні до генерування шкідливих та упереджених виходів і можуть розкривати конфіденційну інформацію з даних навчання та історії діалогів. Хоча в стандартних бенчмарках GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у випадку з навмисно спроектованими запитами GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 більш строго дотримується оманливих інструкцій.
Дослідницька команда всебічно оцінила модель GPT з восьми різних аспектів, включаючи її продуктивність у протистоянні агресивним середовищам. Наприклад, вони оцінили стійкість моделі до текстових атак, використовуючи стандартні бази даних та самостійно розроблені складні набори даних.
Дослідження також виявило, що моделі GPT в деяких випадках можуть бути введені в оману і генерувати упереджений контент, особливо коли вони стикаються з ретельно розробленими оманливими системними підказками. Ступінь упередженості моделі часто залежить від згаданих у підказках груп населення та тем стереотипів.
У сфері конфіденційності дослідження виявили, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 загалом є більш надійним у захисті особистої ідентифікаційної інформації, ніж GPT-3.5, але обидві моделі показують хороші результати у певних типах інформації. Однак, коли в історії розмови з'являються приклади витоку конфіденційності, обидві моделі можуть розкривати всі типи особистої інформації.
Це дослідження надає важливі уявлення для оцінки та покращення надійності великих мовних моделей. Дослідницька команда сподівається, що ця робота сприятиме подальшим дослідженням і в кінцевому підсумку допоможе розробити більш потужні та надійні моделі ШІ.