DecodingTrust: Revelando as vulnerabilidades de confiança dos grandes modelos de linguagem

robot
Geração do resumo em andamento

Avaliação da confiabilidade de grandes modelos de linguagem: Resultados da pesquisa DecodingTrust

Uma equipe composta por várias universidades e instituições de pesquisa lançou recentemente uma plataforma de avaliação abrangente da confiabilidade de grandes modelos de linguagem (LLMs). Este estudo visa avaliar de forma abrangente a fiabilidade do modelo de transformer pré-treinado generativo (GPT).

Pesquisas descobriram algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas prejudiciais e tendenciosas, e pode vazar informações privativas dos dados de treinamento e do histórico de conversas. Embora, em testes de referência padrão, o GPT-4 geralmente seja mais confiável do que o GPT-3.5, quando confrontado com prompts maliciosamente projetados, o GPT-4 torna-se mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais rigorosa instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo o desempenho do modelo em ambientes adversariais. Por exemplo, eles avaliaram a robustez do modelo contra ataques adversariais de texto, utilizando benchmarks padrão e conjuntos de dados desafiadores projetados por eles.

A pesquisa também descobriu que o modelo GPT pode ser induzido a gerar conteúdo tendencioso em certas situações, especialmente quando confrontado com prompts de sistema enganosos cuidadosamente elaborados. O grau de viés do modelo muitas vezes depende dos grupos populacionais e dos temas de estereótipos mencionados na solicitação do usuário.

Em termos de privacidade, estudos descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. O GPT-4 é, em geral, mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ambos os modelos se saem bem em certos tipos de informações. No entanto, quando exemplos de vazamento de privacidade aparecem no histórico de conversas, ambos os modelos podem vazar todos os tipos de informações pessoais.

Este estudo fornece importantes insights para avaliar e melhorar a confiabilidade de grandes modelos de linguagem. A equipe de pesquisa espera que este trabalho impulsione mais investigações e, por fim, ajude a desenvolver modelos de IA mais robustos e confiáveis.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
MetaverseVagrantvip
· 13h atrás
Ah? O gpt4 também tem buracos negros?
Ver originalResponder0
WalletInspectorvip
· 14h atrás
Hehe, é mais um teste de vulnerabilidades.
Ver originalResponder0
RugPullAlertBotvip
· 14h atrás
gpt também foi atacado... hehe
Ver originalResponder0
PuzzledScholarvip
· 14h atrás
A inteligência artificial não disse um segredo?
Ver originalResponder0
RektDetectivevip
· 14h atrás
Puxa, lá vem você de novo arranjando confusão.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)