Recentemente, várias universidades e instituições de pesquisa renomadas juntaram-se para lançar uma plataforma de avaliação abrangente da confiabilidade dos modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A avaliação revelou algumas vulnerabilidades relacionadas à credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a produzir saídas tendenciosas e prejudiciais, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora nos testes padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar sugestões maliciosamente projetadas, o GPT-4 é mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.
Este trabalho avaliou de forma abrangente a confiabilidade dos modelos GPT, revelando as deficiências existentes. As referências de avaliação foram publicamente divulgadas, e a equipe de pesquisa espera incentivar mais pesquisadores a explorar em profundidade com base nisso, trabalhando juntos para criar modelos mais robustos e confiáveis.
Para avaliar a robustez do GPT-3.5 e do GPT-4, os pesquisadores projetaram três cenários de avaliação:
Testar no benchmark AdvGLUE padrão, avaliando a vulnerabilidade do modelo a ataques adversariais de texto existentes.
Usar diferentes descrições de tarefas e indicações de sistema na base de dados AdvGLUE para investigar a capacidade de recuperação do modelo.
Teste com o novo texto adversarial desafiador gerado AdvGLUE++.
A pesquisa descobriu que o modelo GPT demonstra uma robustez inesperada em certos aspectos, como não ser enganado por exemplos contrafactuais adicionados nas demonstrações. Mas existem vulnerabilidades em outros aspectos, como a suscetibilidade a sugestões enganosas do sistema, levando-o a concordar com conteúdos tendenciosos. O viés do modelo também depende dos grupos mencionados e dos temas específicos.
Em termos de proteção da privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente sob dicas contextuais relevantes. O GPT-4 é, em geral, mais robusto na proteção de informações pessoais do que o GPT-3.5, mas em certas situações, pode acabar vazando mais privacidade.
Este estudo fornece novas perspetivas e métodos para a avaliação abrangente da fiabilidade de grandes modelos de linguagem. À medida que estes modelos são amplamente utilizados em várias áreas, a avaliação e melhoria contínuas da sua fiabilidade são cruciais.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
19 Curtidas
Recompensa
19
8
Repostar
Compartilhar
Comentário
0/400
Anon32942
· 08-18 02:18
Haha, vai estar condenado.
Ver originalResponder0
BoredWatcher
· 08-17 20:51
Esta onda, esta onda está um pouco difícil de aguentar.
Ver originalResponder0
GateUser-a5fa8bd0
· 08-15 03:05
Ainda não percebi bem como jogar e já há falhas?
Ver originalResponder0
shadowy_supercoder
· 08-15 02:59
A inteligência artificial está a fazer-se de desentendida?
A avaliação da confiabilidade do modelo GPT revela novas vulnerabilidades. Especialistas pedem uma pesquisa aprofundada para melhorias.
Avaliação da Confiabilidade do Modelo GPT
Recentemente, várias universidades e instituições de pesquisa renomadas juntaram-se para lançar uma plataforma de avaliação abrangente da confiabilidade dos modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A avaliação revelou algumas vulnerabilidades relacionadas à credibilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a produzir saídas tendenciosas e prejudiciais, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora nos testes padrão o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar sugestões maliciosamente projetadas, o GPT-4 é mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.
Este trabalho avaliou de forma abrangente a confiabilidade dos modelos GPT, revelando as deficiências existentes. As referências de avaliação foram publicamente divulgadas, e a equipe de pesquisa espera incentivar mais pesquisadores a explorar em profundidade com base nisso, trabalhando juntos para criar modelos mais robustos e confiáveis.
Para avaliar a robustez do GPT-3.5 e do GPT-4, os pesquisadores projetaram três cenários de avaliação:
A pesquisa descobriu que o modelo GPT demonstra uma robustez inesperada em certos aspectos, como não ser enganado por exemplos contrafactuais adicionados nas demonstrações. Mas existem vulnerabilidades em outros aspectos, como a suscetibilidade a sugestões enganosas do sistema, levando-o a concordar com conteúdos tendenciosos. O viés do modelo também depende dos grupos mencionados e dos temas específicos.
Em termos de proteção da privacidade, o modelo GPT pode vazar informações sensíveis dos dados de treinamento, especialmente sob dicas contextuais relevantes. O GPT-4 é, em geral, mais robusto na proteção de informações pessoais do que o GPT-3.5, mas em certas situações, pode acabar vazando mais privacidade.
Este estudo fornece novas perspetivas e métodos para a avaliação abrangente da fiabilidade de grandes modelos de linguagem. À medida que estes modelos são amplamente utilizados em várias áreas, a avaliação e melhoria contínuas da sua fiabilidade são cruciais.