DecodingTrust: Revelando as vulnerabilidades de confiança dos grandes modelos de linguagem

2025-07-14 03:51:55

Geração do resumo em andamento

Avaliação da confiabilidade de grandes modelos de linguagem: Resultados da pesquisa DecodingTrust

Uma equipe composta por várias universidades e instituições de pesquisa lançou recentemente uma plataforma de avaliação abrangente da confiabilidade de grandes modelos de linguagem (LLMs). Este estudo visa avaliar de forma abrangente a fiabilidade do modelo de transformer pré-treinado generativo (GPT).

Pesquisas descobriram algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas prejudiciais e tendenciosas, e pode vazar informações privativas dos dados de treinamento e do histórico de conversas. Embora, em testes de referência padrão, o GPT-4 geralmente seja mais confiável do que o GPT-3.5, quando confrontado com prompts maliciosamente projetados, o GPT-4 torna-se mais suscetível a ataques. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais rigorosa instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo o desempenho do modelo em ambientes adversariais. Por exemplo, eles avaliaram a robustez do modelo contra ataques adversariais de texto, utilizando benchmarks padrão e conjuntos de dados desafiadores projetados por eles.

A pesquisa também descobriu que o modelo GPT pode ser induzido a gerar conteúdo tendencioso em certas situações, especialmente quando confrontado com prompts de sistema enganosos cuidadosamente elaborados. O grau de viés do modelo muitas vezes depende dos grupos populacionais e dos temas de estereótipos mencionados na solicitação do usuário.

Em termos de privacidade, estudos descobriram que os modelos GPT podem vazar informações sensíveis contidas nos dados de treinamento, como endereços de e-mail. O GPT-4 é, em geral, mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ambos os modelos se saem bem em certos tipos de informações. No entanto, quando exemplos de vazamento de privacidade aparecem no histórico de conversas, ambos os modelos podem vazar todos os tipos de informações pessoais.

Este estudo fornece importantes insights para avaliar e melhorar a confiabilidade de grandes modelos de linguagem. A equipe de pesquisa espera que este trabalho impulsione mais investigações e, por fim, ajude a desenvolver modelos de IA mais robustos e confiáveis.

GPT-3.71%

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

10 Curtidas