DecodingTrust: Revelando as vulnerabilidades de confiança dos grandes modelos de linguagem

robot
Geração de resumo em curso

Avaliação da confiabilidade de grandes modelos de linguagem: Resultados da pesquisa DecodingTrust

Uma equipe composta por várias universidades e instituições de pesquisa lançou recentemente uma plataforma de avaliação abrangente da confiabilidade de grandes modelos de linguagem (LLMs). Este estudo visa avaliar de forma abrangente a fiabilidade do modelo de transformer pré-treinado generativo (GPT).

Pesquisas descobriram algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas prejudiciais e tendenciosas, e pode vazar informações privativas dos dados de treinamento e do histórico de conversas. Embora, em testes de referência padrão, o GPT-4 geralmente seja mais confiável do que o GPT-3.5, quando confrontado com prompts maliciosamente projetados, o GPT-4 torna-se mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais rigorosa instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo o desempenho do modelo em ambientes adversariais. Por exemplo, eles avaliaram a robustez do modelo contra ataques adversariais de texto, utilizando benchmarks padrão e conjuntos de dados desafiadores projetados por eles.

A pesquisa também descobriu que o modelo GPT pode ser induzido a gerar conteúdo tendencioso em certas situações, especialmente quando confrontado com prompts de sistema enganosos cuidadosamente elaborados. O grau de viés do modelo muitas vezes depende dos grupos populacionais e dos temas de estereótipos mencionados na solicitação do usuário.

Em termos de privacidade, estudos descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. O GPT-4 é, em geral, mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ambos os modelos se saem bem em certos tipos de informações. No entanto, quando exemplos de vazamento de privacidade aparecem no histórico de conversas, ambos os modelos podem vazar todos os tipos de informações pessoais.

Este estudo fornece importantes insights para avaliar e melhorar a confiabilidade de grandes modelos de linguagem. A equipe de pesquisa espera que este trabalho impulsione mais investigações e, por fim, ajude a desenvolver modelos de IA mais robustos e confiáveis.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 6
  • Partilhar
Comentar
0/400
PumpBeforeRugvip
· 07-15 05:25
Que porcaria, há uma falha novamente.
Ver originalResponder0
MetaverseVagrantvip
· 07-14 05:25
Ah? O gpt4 também tem buracos negros?
Ver originalResponder0
WalletInspectorvip
· 07-14 04:21
Hehe, é mais um teste de vulnerabilidades.
Ver originalResponder0
RugPullAlertBotvip
· 07-14 04:14
gpt também foi atacado... hehe
Ver originalResponder0
PuzzledScholarvip
· 07-14 04:01
A inteligência artificial não disse um segredo?
Ver originalResponder0
RektDetectivevip
· 07-14 04:00
Puxa, lá vem você de novo arranjando confusão.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)