Estudo revela vulnerabilidades na confiabilidade dos modelos GPT e pede um reforço na Segurança da IA

2025-08-17 04:49:24

Geração de resumo em curso

Avaliação da confiabilidade dos modelos de linguagem

Pesquisadores recentemente lançaram uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs), apresentada no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."

Os resultados da avaliação revelaram algumas vulnerabilidades relacionadas à credibilidade que eram desconhecidas anteriormente. A pesquisa descobriu que o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ele é mais suscetível a ataques quando enfrenta prompts maliciosamente projetados, possivelmente porque segue instruções enganosas de forma mais rigorosa.

Este trabalho realizou uma avaliação abrangente da credibilidade do modelo GPT, revelando lacunas na credibilidade. As referências de avaliação estão disponíveis publicamente, e a equipe de pesquisa espera incentivar outros pesquisadores a continuar a pesquisa aprofundada com base nisso, a fim de prevenir potenciais usos maliciosos.

A avaliação foi realizada a partir de oito ângulos de credibilidade, abrangendo uma análise abrangente do modelo GPT, incluindo a robustez contra ataques adversariais, toxicidade e preconceitos, e vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez contra ataques adversariais de texto, o estudo construiu três cenários de avaliação, incluindo testes padrão de referência, testes sob diferentes instruções de tarefas orientadoras, e testes de texto adversarial mais desafiadores.

A pesquisa revelou alguns resultados interessantes. No que diz respeito a demonstrações adversariais, o modelo GPT não é enganado por exemplos contrafactuais, mas pode ser enganado por demonstrações de fraude. Em relação à toxicidade e preconceito, o modelo GPT apresenta pouca variação sob sugestões benignas, mas é facilmente induzido por sugestões enganosas a "concordar" com conteúdos tendenciosos, sendo o GPT-4 mais suscetível do que o GPT-3.5.

Em termos de proteção de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos são robustos na proteção de certos tipos de informações. No entanto, em algumas situações, o GPT-4 pode acabar por vazar mais privacidade do que o GPT-3.5, possivelmente porque segue instruções enganosas de forma mais rigorosa.

Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem, revelando as vantagens e desvantagens dos modelos existentes. Os pesquisadores esperam que estas descobertas possam impulsionar o desenvolvimento de modelos de IA mais seguros e confiáveis.

GPT17.01%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

11 gostos

Recompensa
11
4
Republicar
Partilhar

Comentar

0/400

TradFiRefugee

· 10h atrás

O software de segurança não é feito à toa.

Ver originalResponder0

DegenWhisperer

· 10h atrás

Tão real, este é o baú de tesouros dos vcs.

Ver originalResponder0

RugpullSurvivor

· 10h atrás

Rindo até a morte, na negociação de criptomoedas, vejo falhas em todo lugar.

Ver originalResponder0

RugpullTherapist

· 10h atrás

A IA é tão fácil de enganar, não é?

Ver originalResponder0

Tópico
#July PPI Beats Expectations
37k Popularidade
#ETH ETFs Top $30B
39k Popularidade
#Gate Alpha Peak Trading Competition
149k Popularidade
#Gate Releases August Reserves Report
18k Popularidade
#BTC Hits New ATH
88k Popularidade

Pino