Исследователи недавно выпустили комплексную платформу оценки доверия для больших языковых моделей (LLMs) и представили её в статье «DecodingTrust: комплексная оценка доверия к моделям GPT».
Результаты оценки выявили некоторые ранее неизвестные уязвимости, связанные с надежностью. Исследование показало, что модели GPT склонны генерировать токсичный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в условиях злонамеренно разработанных подсказок GPT-4 оказывается более уязвимым для атак, возможно, из-за того, что он более строго следует вводящим в заблуждение инструкциям.
Эта работа провела всестороннюю оценку надежности модели GPT, выявив пробелы в надежности. Оценочные критерии доступны для публичного доступа, и исследовательская группа надеется поощрить других исследователей продолжить углубленное исследование на этой основе, чтобы предотвратить потенциальное злонамеренное использование.
Оценка была проведена с восьми аспектов доверия, включая устойчивость к атакующим воздействиям, токсичность и предвзятость, утечку данных и т.д. Например, для оценки устойчивости к текстовым атакующим воздействиям исследование разработало три сценария оценки, включая стандартные контрольные тесты, тесты с различными инструкциями по заданию и более сложные тесты с атакующими текстами.
Исследование выявило несколько интересных результатов. В отношении конкурентных демонстраций модели GPT не поддаются введению в заблуждение контрфактическими примерами, но могут быть введены в заблуждение демонстрациями, направленными против мошенничества. В аспекте токсичности и предвзятости модели GPT при благожелательных подсказках не проявляют значительных отклонений, но легко могут быть введены в заблуждение вводящими в заблуждение подсказками, которые "подкупают" согласие с предвзятым содержанием. GPT-4 легче поддается влиянию, чем GPT-3.5.
В области защиты конфиденциальности модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 показывает лучшие результаты в защите личной идентифицирующей информации по сравнению с GPT-3.5, но обе модели надежны в защите определенных типов информации. Тем не менее, в некоторых случаях GPT-4 может даже легче раскрывать конфиденциальность по сравнению с GPT-3.5, возможно, потому что она более строго следует вводящим в заблуждение инструкциям.
Данное исследование предоставляет всесторонний взгляд на оценку надежности крупных языковых моделей, раскрывая их преимущества и недостатки. Исследователи надеются, что эти выводы смогут способствовать разработке более безопасных и надежных ИИ-моделей.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
11 Лайков
Награда
11
4
Репост
Поделиться
комментарий
0/400
TradFiRefugee
· 17ч назад
Безопасное программное обеспечение не создается просто так.
Посмотреть ОригиналОтветить0
DegenWhisperer
· 17ч назад
Это так реально, это и есть сокровищница венчурных капиталистов.
Посмотреть ОригиналОтветить0
RugpullSurvivor
· 17ч назад
Смешно, что в Торговле криптовалютой, где бы ни смотрел, повсюду видны уязвимости.
Исследование выявило уязвимости в доверии к моделям GPT и призвало к усилению Безопасности с помощью искусственного интеллекта.
Оценка надежности языковой модели
Исследователи недавно выпустили комплексную платформу оценки доверия для больших языковых моделей (LLMs) и представили её в статье «DecodingTrust: комплексная оценка доверия к моделям GPT».
Результаты оценки выявили некоторые ранее неизвестные уязвимости, связанные с надежностью. Исследование показало, что модели GPT склонны генерировать токсичный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Хотя в стандартных бенчмарках GPT-4 обычно более надежен, чем GPT-3.5, в условиях злонамеренно разработанных подсказок GPT-4 оказывается более уязвимым для атак, возможно, из-за того, что он более строго следует вводящим в заблуждение инструкциям.
Эта работа провела всестороннюю оценку надежности модели GPT, выявив пробелы в надежности. Оценочные критерии доступны для публичного доступа, и исследовательская группа надеется поощрить других исследователей продолжить углубленное исследование на этой основе, чтобы предотвратить потенциальное злонамеренное использование.
Оценка была проведена с восьми аспектов доверия, включая устойчивость к атакующим воздействиям, токсичность и предвзятость, утечку данных и т.д. Например, для оценки устойчивости к текстовым атакующим воздействиям исследование разработало три сценария оценки, включая стандартные контрольные тесты, тесты с различными инструкциями по заданию и более сложные тесты с атакующими текстами.
Исследование выявило несколько интересных результатов. В отношении конкурентных демонстраций модели GPT не поддаются введению в заблуждение контрфактическими примерами, но могут быть введены в заблуждение демонстрациями, направленными против мошенничества. В аспекте токсичности и предвзятости модели GPT при благожелательных подсказках не проявляют значительных отклонений, но легко могут быть введены в заблуждение вводящими в заблуждение подсказками, которые "подкупают" согласие с предвзятым содержанием. GPT-4 легче поддается влиянию, чем GPT-3.5.
В области защиты конфиденциальности модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 показывает лучшие результаты в защите личной идентифицирующей информации по сравнению с GPT-3.5, но обе модели надежны в защите определенных типов информации. Тем не менее, в некоторых случаях GPT-4 может даже легче раскрывать конфиденциальность по сравнению с GPT-3.5, возможно, потому что она более строго следует вводящим в заблуждение инструкциям.
Данное исследование предоставляет всесторонний взгляд на оценку надежности крупных языковых моделей, раскрывая их преимущества и недостатки. Исследователи надеются, что эти выводы смогут способствовать разработке более безопасных и надежных ИИ-моделей.