Gần đây, nhiều trường đại học và viện nghiên cứu nổi tiếng đã hợp tác phát hành một nền tảng đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Kết quả nghiên cứu liên quan được công bố trong bài viết "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Đánh giá này phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa được công khai trước đây. Ví dụ, mô hình GPT dễ dàng tạo ra các đầu ra có thiên kiến và có hại, và cũng có thể rò rỉ dữ liệu đào tạo và thông tin riêng tư trong lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các gợi ý được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, có thể là vì nó tuân theo các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.
Công việc này đã đánh giá toàn diện độ tin cậy của mô hình GPT, tiết lộ những thiếu sót hiện có. Các tiêu chuẩn đánh giá đã được công bố công khai, nhóm nghiên cứu hy vọng có thể khuyến khích nhiều nhà nghiên cứu hơn nữa khám phá sâu hơn trên cơ sở này, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn.
Để đánh giá tính ổn định của GPT-3.5 và GPT-4, các nhà nghiên cứu đã thiết kế ba kịch bản đánh giá:
Thực hiện kiểm tra trên chuẩn AdvGLUE, đánh giá độ dễ tổn thương của mô hình đối với các cuộc tấn công chống lại văn bản hiện tại.
Sử dụng các mô tả nhiệm vụ và gợi ý hệ thống khác nhau trên chuẩn AdvGLUE để nghiên cứu khả năng phục hồi của mô hình.
Sử dụng văn bản chống đối đầy thách thức mới được tạo ra AdvGLUE++ để kiểm tra.
Nghiên cứu cho thấy, mô hình GPT thể hiện sự mạnh mẽ bất ngờ ở một số khía cạnh, chẳng hạn như không bị dẫn dụ bởi các ví dụ phản sự thật được thêm vào trong buổi trình diễn. Tuy nhiên, ở những khía cạnh khác lại có lỗ hổng, như dễ bị ảnh hưởng bởi các gợi ý hệ thống gây hiểu lầm và đồng ý với nội dung thiên lệch. Đ偏差 của mô hình cũng phụ thuộc vào nhóm người và chủ đề cụ thể được đề cập.
Về mặt bảo vệ quyền riêng tư, mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, đặc biệt là dưới các gợi ý ngữ cảnh liên quan. GPT-4 nói chung bảo vệ thông tin cá nhân tốt hơn GPT-3.5, nhưng trong một số trường hợp lại dễ rò rỉ quyền riêng tư hơn.
Nghiên cứu này cung cấp một góc nhìn và phương pháp mới để đánh giá toàn diện độ tin cậy của các mô hình ngôn ngữ lớn. Với việc các mô hình này được áp dụng rộng rãi trong nhiều lĩnh vực, việc liên tục đánh giá và cải thiện độ tin cậy của chúng là vô cùng quan trọng.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Đánh giá độ tin cậy của mô hình GPT tiết lộ lỗ hổng mới, các chuyên gia kêu gọi nghiên cứu sâu hơn để cải thiện.
Đánh giá độ tin cậy của mô hình GPT
Gần đây, nhiều trường đại học và viện nghiên cứu nổi tiếng đã hợp tác phát hành một nền tảng đánh giá toàn diện về độ tin cậy của các mô hình ngôn ngữ lớn (LLMs). Kết quả nghiên cứu liên quan được công bố trong bài viết "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."
Đánh giá này phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa được công khai trước đây. Ví dụ, mô hình GPT dễ dàng tạo ra các đầu ra có thiên kiến và có hại, và cũng có thể rò rỉ dữ liệu đào tạo và thông tin riêng tư trong lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các gợi ý được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, có thể là vì nó tuân theo các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.
Công việc này đã đánh giá toàn diện độ tin cậy của mô hình GPT, tiết lộ những thiếu sót hiện có. Các tiêu chuẩn đánh giá đã được công bố công khai, nhóm nghiên cứu hy vọng có thể khuyến khích nhiều nhà nghiên cứu hơn nữa khám phá sâu hơn trên cơ sở này, cùng nhau nỗ lực tạo ra những mô hình mạnh mẽ và đáng tin cậy hơn.
Để đánh giá tính ổn định của GPT-3.5 và GPT-4, các nhà nghiên cứu đã thiết kế ba kịch bản đánh giá:
Nghiên cứu cho thấy, mô hình GPT thể hiện sự mạnh mẽ bất ngờ ở một số khía cạnh, chẳng hạn như không bị dẫn dụ bởi các ví dụ phản sự thật được thêm vào trong buổi trình diễn. Tuy nhiên, ở những khía cạnh khác lại có lỗ hổng, như dễ bị ảnh hưởng bởi các gợi ý hệ thống gây hiểu lầm và đồng ý với nội dung thiên lệch. Đ偏差 của mô hình cũng phụ thuộc vào nhóm người và chủ đề cụ thể được đề cập.
Về mặt bảo vệ quyền riêng tư, mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, đặc biệt là dưới các gợi ý ngữ cảnh liên quan. GPT-4 nói chung bảo vệ thông tin cá nhân tốt hơn GPT-3.5, nhưng trong một số trường hợp lại dễ rò rỉ quyền riêng tư hơn.
Nghiên cứu này cung cấp một góc nhìn và phương pháp mới để đánh giá toàn diện độ tin cậy của các mô hình ngôn ngữ lớn. Với việc các mô hình này được áp dụng rộng rãi trong nhiều lĩnh vực, việc liên tục đánh giá và cải thiện độ tin cậy của chúng là vô cùng quan trọng.