Estudo revela vulnerabilidades na confiabilidade dos modelos GPT e pede um reforço na Segurança da IA

robot
Geração de resumo em curso

Avaliação da confiabilidade dos modelos de linguagem

Pesquisadores recentemente lançaram uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs), apresentada no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."

Os resultados da avaliação revelaram algumas vulnerabilidades relacionadas à credibilidade que eram desconhecidas anteriormente. A pesquisa descobriu que o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ele é mais suscetível a ataques quando enfrenta prompts maliciosamente projetados, possivelmente porque segue instruções enganosas de forma mais rigorosa.

Este trabalho realizou uma avaliação abrangente da credibilidade do modelo GPT, revelando lacunas na credibilidade. As referências de avaliação estão disponíveis publicamente, e a equipe de pesquisa espera incentivar outros pesquisadores a continuar a pesquisa aprofundada com base nisso, a fim de prevenir potenciais usos maliciosos.

A avaliação foi realizada a partir de oito ângulos de credibilidade, abrangendo uma análise abrangente do modelo GPT, incluindo a robustez contra ataques adversariais, toxicidade e preconceitos, e vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez contra ataques adversariais de texto, o estudo construiu três cenários de avaliação, incluindo testes padrão de referência, testes sob diferentes instruções de tarefas orientadoras, e testes de texto adversarial mais desafiadores.

A pesquisa revelou alguns resultados interessantes. No que diz respeito a demonstrações adversariais, o modelo GPT não é enganado por exemplos contrafactuais, mas pode ser enganado por demonstrações de fraude. Em relação à toxicidade e preconceito, o modelo GPT apresenta pouca variação sob sugestões benignas, mas é facilmente induzido por sugestões enganosas a "concordar" com conteúdos tendenciosos, sendo o GPT-4 mais suscetível do que o GPT-3.5.

Em termos de proteção de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos são robustos na proteção de certos tipos de informações. No entanto, em algumas situações, o GPT-4 pode acabar por vazar mais privacidade do que o GPT-3.5, possivelmente porque segue instruções enganosas de forma mais rigorosa.

Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem, revelando as vantagens e desvantagens dos modelos existentes. Os pesquisadores esperam que estas descobertas possam impulsionar o desenvolvimento de modelos de IA mais seguros e confiáveis.

GPT17.01%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 4
  • Republicar
  • Partilhar
Comentar
0/400
TradFiRefugeevip
· 10h atrás
O software de segurança não é feito à toa.
Ver originalResponder0
DegenWhisperervip
· 10h atrás
Tão real, este é o baú de tesouros dos vcs.
Ver originalResponder0
RugpullSurvivorvip
· 10h atrás
Rindo até a morte, na negociação de criptomoedas, vejo falhas em todo lugar.
Ver originalResponder0
RugpullTherapistvip
· 10h atrás
A IA é tão fácil de enganar, não é?
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)