Đánh giá độ tin cậy của mô hình GPT tiết lộ lỗ hổng mới, các chuyên gia kêu gọi nghiên cứu sâu hơn để cải thiện.

Đánh giá độ tin cậy của mô hình GPT

Gần đây, nhiều trường đại học và viện nghiên cứu nổi tiếng đã hợp tác phát hành một nền tảng đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Kết quả nghiên cứu liên quan được công bố trong bài viết "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."

Đánh giá này phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa được công khai trước đây. Ví dụ, mô hình GPT dễ dàng tạo ra các đầu ra có thiên kiến và có hại, và cũng có thể rò rỉ dữ liệu đào tạo và thông tin riêng tư trong lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các gợi ý được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, có thể là vì nó tuân theo các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.

Công việc này đã đánh giá toàn diện độ tin cậy của mô hình GPT, tiết lộ những thiếu sót hiện có. Các tiêu chuẩn đánh giá đã được công bố công khai, nhóm nghiên cứu hy vọng có thể khuyến khích nhiều nhà nghiên cứu hơn nữa khám phá sâu hơn trên cơ sở này, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn.

Để đánh giá tính ổn định của GPT-3.5 và GPT-4, các nhà nghiên cứu đã thiết kế ba kịch bản đánh giá:

  1. Thực hiện kiểm tra trên chuẩn AdvGLUE, đánh giá độ dễ tổn thương của mô hình đối với các cuộc tấn công chống lại văn bản hiện tại.
  2. Sử dụng các mô tả nhiệm vụ và gợi ý hệ thống khác nhau trên chuẩn AdvGLUE để nghiên cứu khả năng phục hồi của mô hình.
  3. Sử dụng văn bản chống đối đầy thách thức mới được tạo ra AdvGLUE++ để kiểm tra.

Nghiên cứu cho thấy, mô hình GPT thể hiện sự mạnh mẽ bất ngờ ở một số khía cạnh, chẳng hạn như không bị dẫn dụ bởi các ví dụ phản sự thật được thêm vào trong buổi trình diễn. Tuy nhiên, ở những khía cạnh khác lại có lỗ hổng, như dễ bị ảnh hưởng bởi các gợi ý hệ thống gây hiểu lầm và đồng ý với nội dung thiên lệch. Đ偏差 của mô hình cũng phụ thuộc vào nhóm người và chủ đề cụ thể được đề cập.

Về mặt bảo vệ quyền riêng tư, mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, đặc biệt là dưới các gợi ý ngữ cảnh liên quan. GPT-4 nói chung bảo vệ thông tin cá nhân tốt hơn GPT-3.5, nhưng trong một số trường hợp lại dễ rò rỉ quyền riêng tư hơn.

Nghiên cứu này cung cấp một góc nhìn và phương pháp mới để đánh giá toàn diện độ tin cậy của các mô hình ngôn ngữ lớn. Với việc các mô hình này được áp dụng rộng rãi trong nhiều lĩnh vực, việc liên tục đánh giá và cải thiện độ tin cậy của chúng là vô cùng quan trọng.

GPT0.97%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Anon32942vip
· 12giờ trước
Haha, chết tiệt rồi.
Xem bản gốcTrả lời0
BoredWatchervip
· 17giờ trước
Đợt này à, đợt này hơi khó chịu.
Xem bản gốcTrả lời0
GateUser-a5fa8bd0vip
· 08-15 03:05
Vẫn chưa chơi rõ ràng đã có lỗ hổng rồi sao
Xem bản gốcTrả lời0
shadowy_supercodervip
· 08-15 02:59
Trí tuệ nhân tạo đang giả ngây?
Xem bản gốcTrả lời0
ArbitrageBotvip
· 08-15 02:58
4 không phải là cái gì cũng hiểu cả
Xem bản gốcTrả lời0
AirdropChaservip
· 08-15 02:39
Ôi cuối cùng cũng bị phát hiện lỗ hổng này.
Xem bản gốcTrả lời0
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)