DecodingTrust: Раскрытие уязвимостей доверия крупных языковых моделей

robot
Генерация тезисов в процессе

Оценка достоверности крупных языковых моделей: результаты исследования DecodingTrust

Команда, состоящая из нескольких университетов и исследовательских институтов, недавно выпустила платформу для комплексной оценки надежности больших языковых моделей (LLMs). Это исследование направлено на всестороннюю оценку надежности генеративных предварительно обученных трансформерных моделей (GPT).

Исследование выявило несколько ранее не раскрытых уязвимостей, связанных с надежностью. Например, модели GPT склонны генерировать вредные и предвзятые выводы и могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками GPT-4 оказывается более уязвимым для атак. Это может быть связано с тем, что GPT-4 более строго следует вводящим в заблуждение указаниям.

Исследовательская группа провела всестороннюю оценку модели GPT с восьми разных точек зрения, включая ее производительность в условиях противодействия. Например, они оценили устойчивость модели к текстовым атакующим воздействиям, используя стандартные бенчмарки и самостоятельно разработанные сложные наборы данных.

Исследование также показало, что модели GPT в некоторых случаях могут быть введены в заблуждение и генерировать предвзятое содержание, особенно когда сталкиваются с тщательно разработанными вводящими в заблуждение системными подсказками. Степень предвзятости модели часто зависит от упомянутых в пользовательских подсказках групп населения и тем стереотипов.

В области конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 в целом более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели хорошо справляются с некоторыми видами информации. Однако, когда в истории диалога появляются примеры утечки конфиденциальности, обе модели могут раскрывать все типы личной информации.

Это исследование предоставляет важные идеи для оценки и улучшения надежности крупных языковых моделей. Исследовательская группа надеется, что эта работа сможет стимулировать дальнейшие исследования и в конечном итоге помочь в разработке более мощных и надежных ИИ-моделей.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
PumpBeforeRugvip
· 07-15 05:25
Что за хрень? Опять есть уязвимость.
Посмотреть ОригиналОтветить0
MetaverseVagrantvip
· 07-14 05:25
А? У gpt4 тоже есть черные дыры?
Посмотреть ОригиналОтветить0
WalletInspectorvip
· 07-14 04:21
Хе-хе, это снова тест на уязвимости.
Посмотреть ОригиналОтветить0
RugPullAlertBotvip
· 07-14 04:14
gpt также был атакован... хехе
Посмотреть ОригиналОтветить0
PuzzledScholarvip
· 07-14 04:01
Неужели искусственный интеллект ляпнул что-то лишнее?
Посмотреть ОригиналОтветить0
RektDetectivevip
· 07-14 04:00
Опять пришли искать проблемы.
Посмотреть ОригиналОтветить0
  • Закрепить