DecodingTrust : Révéler les vulnérabilités de confiance des grands modèles de langage

robot
Création du résumé en cours

Évaluer la crédibilité des grands modèles de langage : résultats de recherche DecodingTrust

Une équipe composée de plusieurs universités et institutions de recherche a récemment lancé une plateforme d'évaluation complète de la crédibilité des modèles de langage de grande taille (LLMs). Cette étude vise à évaluer de manière exhaustive la fiabilité des modèles de transformateur pré-entraînés génératifs (GPT).

Des recherches ont révélé des vulnérabilités liées à la crédibilité qui n'avaient pas été publiées auparavant. Par exemple, le modèle GPT a tendance à produire des résultats nuisibles et biaisés, et pourrait divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Bien que GPT-4 soit généralement plus fiable que GPT-3.5 dans les tests de référence standards, il est en réalité plus vulnérable aux attaques lorsqu'il est confronté à des incitations malveillantes. Cela pourrait être dû au fait que GPT-4 suit plus strictement des instructions trompeuses.

L'équipe de recherche a procédé à une évaluation complète du modèle GPT sous huit angles différents, y compris ses performances dans des environnements adverses. Par exemple, ils ont évalué la robustesse du modèle face aux attaques adverses sur le texte, en utilisant des références standard et des ensembles de données difficiles conçus par leurs soins.

La recherche a également révélé que les modèles GPT peuvent, dans certains cas, être induits en erreur pour produire du contenu biaisé, en particulier lorsqu'ils sont confrontés à des incitations trompeuses soigneusement conçues. Le degré de biais du modèle dépend souvent des groupes démographiques et des thèmes stéréotypés mentionnés dans l'invite de l'utilisateur.

En matière de confidentialité, des études ont révélé que les modèles GPT pourraient divulguer des informations sensibles présentes dans les données d'entraînement, telles que les adresses e-mail. GPT-4 est globalement plus robuste que GPT-3.5 en matière de protection des informations d'identité personnelle, mais les deux modèles montrent de bonnes performances sur certains types d'informations. Cependant, lorsque des exemples de fuite de confidentialité apparaissent dans l'historique des conversations, les deux modèles peuvent divulguer tous les types d'informations personnelles.

Cette étude fournit des informations importantes pour évaluer et améliorer la fiabilité des grands modèles de langage. L'équipe de recherche espère que ce travail pourra stimuler d'autres recherches et, en fin de compte, aider à développer des modèles d'IA plus puissants et plus fiables.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
PumpBeforeRugvip
· Il y a 10h
Qu'est-ce qui se passe encore, il y a une faille.
Voir l'originalRépondre0
MetaverseVagrantvip
· 07-14 05:25
Ah ? GPT-4 a aussi des trous noirs ?
Voir l'originalRépondre0
WalletInspectorvip
· 07-14 04:21
Haha, c'est encore un test de vulnérabilité.
Voir l'originalRépondre0
RugPullAlertBotvip
· 07-14 04:14
gpt a également été attaqué… hehe
Voir l'originalRépondre0
PuzzledScholarvip
· 07-14 04:01
L'intelligence artificielle a-t-elle laissé échapper un secret ?
Voir l'originalRépondre0
RektDetectivevip
· 07-14 04:00
Eh bien, encore quelqu'un qui vient chercher des ennuis.
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)