Avaliação da confiabilidade dos modelos de linguagem
Pesquisadores recentemente lançaram uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs), apresentada no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."
Os resultados da avaliação revelaram algumas vulnerabilidades relacionadas à credibilidade que eram desconhecidas anteriormente. A pesquisa descobriu que o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ele é mais suscetível a ataques quando enfrenta prompts maliciosamente projetados, possivelmente porque segue instruções enganosas de forma mais rigorosa.
Este trabalho realizou uma avaliação abrangente da credibilidade do modelo GPT, revelando lacunas na credibilidade. As referências de avaliação estão disponíveis publicamente, e a equipe de pesquisa espera incentivar outros pesquisadores a continuar a pesquisa aprofundada com base nisso, a fim de prevenir potenciais usos maliciosos.
A avaliação foi realizada a partir de oito ângulos de credibilidade, abrangendo uma análise abrangente do modelo GPT, incluindo a robustez contra ataques adversariais, toxicidade e preconceitos, e vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez contra ataques adversariais de texto, o estudo construiu três cenários de avaliação, incluindo testes padrão de referência, testes sob diferentes instruções de tarefas orientadoras, e testes de texto adversarial mais desafiadores.
A pesquisa revelou alguns resultados interessantes. No que diz respeito a demonstrações adversariais, o modelo GPT não é enganado por exemplos contrafactuais, mas pode ser enganado por demonstrações de fraude. Em relação à toxicidade e preconceito, o modelo GPT apresenta pouca variação sob sugestões benignas, mas é facilmente induzido por sugestões enganosas a "concordar" com conteúdos tendenciosos, sendo o GPT-4 mais suscetível do que o GPT-3.5.
Em termos de proteção de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos são robustos na proteção de certos tipos de informações. No entanto, em algumas situações, o GPT-4 pode acabar por vazar mais privacidade do que o GPT-3.5, possivelmente porque segue instruções enganosas de forma mais rigorosa.
Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem, revelando as vantagens e desvantagens dos modelos existentes. Os pesquisadores esperam que estas descobertas possam impulsionar o desenvolvimento de modelos de IA mais seguros e confiáveis.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
11 gostos
Recompensa
11
4
Republicar
Partilhar
Comentar
0/400
TradFiRefugee
· 10h atrás
O software de segurança não é feito à toa.
Ver originalResponder0
DegenWhisperer
· 10h atrás
Tão real, este é o baú de tesouros dos vcs.
Ver originalResponder0
RugpullSurvivor
· 10h atrás
Rindo até a morte, na negociação de criptomoedas, vejo falhas em todo lugar.
Estudo revela vulnerabilidades na confiabilidade dos modelos GPT e pede um reforço na Segurança da IA
Avaliação da confiabilidade dos modelos de linguagem
Pesquisadores recentemente lançaram uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs), apresentada no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."
Os resultados da avaliação revelaram algumas vulnerabilidades relacionadas à credibilidade que eram desconhecidas anteriormente. A pesquisa descobriu que o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações privadas dos dados de treinamento e do histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ele é mais suscetível a ataques quando enfrenta prompts maliciosamente projetados, possivelmente porque segue instruções enganosas de forma mais rigorosa.
Este trabalho realizou uma avaliação abrangente da credibilidade do modelo GPT, revelando lacunas na credibilidade. As referências de avaliação estão disponíveis publicamente, e a equipe de pesquisa espera incentivar outros pesquisadores a continuar a pesquisa aprofundada com base nisso, a fim de prevenir potenciais usos maliciosos.
A avaliação foi realizada a partir de oito ângulos de credibilidade, abrangendo uma análise abrangente do modelo GPT, incluindo a robustez contra ataques adversariais, toxicidade e preconceitos, e vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez contra ataques adversariais de texto, o estudo construiu três cenários de avaliação, incluindo testes padrão de referência, testes sob diferentes instruções de tarefas orientadoras, e testes de texto adversarial mais desafiadores.
A pesquisa revelou alguns resultados interessantes. No que diz respeito a demonstrações adversariais, o modelo GPT não é enganado por exemplos contrafactuais, mas pode ser enganado por demonstrações de fraude. Em relação à toxicidade e preconceito, o modelo GPT apresenta pouca variação sob sugestões benignas, mas é facilmente induzido por sugestões enganosas a "concordar" com conteúdos tendenciosos, sendo o GPT-4 mais suscetível do que o GPT-3.5.
Em termos de proteção de privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 apresenta um desempenho melhor na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos são robustos na proteção de certos tipos de informações. No entanto, em algumas situações, o GPT-4 pode acabar por vazar mais privacidade do que o GPT-3.5, possivelmente porque segue instruções enganosas de forma mais rigorosa.
Este estudo fornece uma perspectiva abrangente sobre a avaliação da confiabilidade de grandes modelos de linguagem, revelando as vantagens e desvantagens dos modelos existentes. Os pesquisadores esperam que estas descobertas possam impulsionar o desenvolvimento de modelos de IA mais seguros e confiáveis.