A avaliação da confiabilidade do modelo GPT revela novas vulnerabilidades. Especialistas pedem uma pesquisa aprofundada para melhorias.

Avaliação da Confiabilidade do Modelo GPT

Recentemente, várias universidades e instituições de pesquisa renomadas juntaram-se para lançar uma plataforma de avaliação abrangente da confiabilidade dos modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".

A avaliação revelou algumas vulnerabilidades relacionadas à credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a produzir saídas tendenciosas e prejudiciais, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora nos testes padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar sugestões maliciosamente projetadas, o GPT-4 é mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.

Este trabalho avaliou de forma abrangente a confiabilidade dos modelos GPT, revelando as deficiências existentes. As referências de avaliação foram publicamente divulgadas, e a equipe de pesquisa espera incentivar mais pesquisadores a explorar em profundidade com base nisso, trabalhando juntos para criar modelos mais robustos e confiáveis.

Para avaliar a robustez do GPT-3.5 e do GPT-4, os pesquisadores projetaram três cenários de avaliação:

  1. Testar no benchmark AdvGLUE padrão, avaliando a vulnerabilidade do modelo a ataques adversariais de texto existentes.
  2. Usar diferentes descrições de tarefas e indicações de sistema na base de dados AdvGLUE para investigar a capacidade de recuperação do modelo.
  3. Teste com o novo texto adversarial desafiador gerado AdvGLUE++.

A pesquisa descobriu que o modelo GPT demonstra uma robustez inesperada em certos aspectos, como não ser enganado por exemplos contrafactuais adicionados nas demonstrações. Mas existem vulnerabilidades em outros aspectos, como a suscetibilidade a sugestões enganosas do sistema, levando-o a concordar com conteúdos tendenciosos. O viés do modelo também depende dos grupos mencionados e dos temas específicos.

Em termos de proteção da privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente sob dicas contextuais relevantes. O GPT-4 é, em geral, mais robusto na proteção de informações pessoais do que o GPT-3.5, mas em certas situações, pode acabar vazando mais privacidade.

Este estudo fornece novas perspetivas e métodos para a avaliação abrangente da fiabilidade de grandes modelos de linguagem. À medida que estes modelos são amplamente utilizados em várias áreas, a avaliação e melhoria contínuas da sua fiabilidade são cruciais.

GPT-5.8%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 8
  • Repostar
  • Compartilhar
Comentário
0/400
Anon32942vip
· 08-18 02:18
Haha, vai estar condenado.
Ver originalResponder0
BoredWatchervip
· 08-17 20:51
Esta onda, esta onda está um pouco difícil de aguentar.
Ver originalResponder0
GateUser-a5fa8bd0vip
· 08-15 03:05
Ainda não percebi bem como jogar e já há falhas?
Ver originalResponder0
shadowy_supercodervip
· 08-15 02:59
A inteligência artificial está a fazer-se de desentendida?
Ver originalResponder0
ArbitrageBotvip
· 08-15 02:58
4 não sabe tudo, pato
Ver originalResponder0
AirdropChaservip
· 08-15 02:39
Ai, finalmente descobriram esta vulnerabilidade.
Ver originalResponder0
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)