A avaliação da confiabilidade do modelo GPT revela novas vulnerabilidades. Especialistas pedem uma pesquisa aprofundada para melhorias.

2025-08-15 02:36:50

Avaliação da Confiabilidade do Modelo GPT

Recentemente, várias universidades e instituições de pesquisa renomadas juntaram-se para lançar uma plataforma de avaliação abrangente da confiabilidade dos modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".

A avaliação revelou algumas vulnerabilidades relacionadas à credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a produzir saídas tendenciosas e prejudiciais, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora nos testes padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar sugestões maliciosamente projetadas, o GPT-4 é mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.

Este trabalho avaliou de forma abrangente a confiabilidade dos modelos GPT, revelando as deficiências existentes. As referências de avaliação foram publicamente divulgadas, e a equipe de pesquisa espera incentivar mais pesquisadores a explorar em profundidade com base nisso, trabalhando juntos para criar modelos mais robustos e confiáveis.

Para avaliar a robustez do GPT-3.5 e do GPT-4, os pesquisadores projetaram três cenários de avaliação:

Testar no benchmark AdvGLUE padrão, avaliando a vulnerabilidade do modelo a ataques adversariais de texto existentes.
Usar diferentes descrições de tarefas e indicações de sistema na base de dados AdvGLUE para investigar a capacidade de recuperação do modelo.
Teste com o novo texto adversarial desafiador gerado AdvGLUE++.

A pesquisa descobriu que o modelo GPT demonstra uma robustez inesperada em certos aspectos, como não ser enganado por exemplos contrafactuais adicionados nas demonstrações. Mas existem vulnerabilidades em outros aspectos, como a suscetibilidade a sugestões enganosas do sistema, levando-o a concordar com conteúdos tendenciosos. O viés do modelo também depende dos grupos mencionados e dos temas específicos.

Em termos de proteção da privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente sob dicas contextuais relevantes. O GPT-4 é, em geral, mais robusto na proteção de informações pessoais do que o GPT-3.5, mas em certas situações, pode acabar vazando mais privacidade.

Este estudo fornece novas perspetivas e métodos para a avaliação abrangente da fiabilidade de grandes modelos de linguagem. À medida que estes modelos são amplamente utilizados em várias áreas, a avaliação e melhoria contínuas da sua fiabilidade são cruciais.

GPT-5.8%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

19 Curtidas

Recompensa
19
8
Repostar
Compartilhar

Comentário

0/400

Anon32942

· 08-18 02:18

Haha, vai estar condenado.

Ver originalResponder0

BoredWatcher

· 08-17 20:51

Esta onda, esta onda está um pouco difícil de aguentar.

Ver originalResponder0

GateUser-a5fa8bd0

· 08-15 03:05

Ainda não percebi bem como jogar e já há falhas?

Ver originalResponder0

shadowy_supercoder

· 08-15 02:59

A inteligência artificial está a fazer-se de desentendida?

Ver originalResponder0

ArbitrageBot

· 08-15 02:58

4 não sabe tudo, pato

Ver originalResponder0

AirdropChaser

· 08-15 02:39

Ai, finalmente descobriram esta vulnerabilidade.

Ver originalResponder0

Tema
#Institutions Hold 10M+ ETH
99 Popularidade
#MicroStrategy Loosens Stock Rules
83 Popularidade
#Gate July Transparency Report
14k Popularidade
#BTC ETFs Top $153B in Holdings
19k Popularidade
#Fed Ends Novel Activities Supervision
15k Popularidade

Marcar

sitemap