Evaluasi keandalan model GPT mengungkapkan celah baru, para ahli menyerukan penelitian mendalam untuk perbaikan.

Menilai Keandalan Model GPT

Baru-baru ini, sejumlah universitas dan lembaga penelitian terkemuka telah bersama-sama meluncurkan sebuah platform untuk menilai keandalan model bahasa besar (LLMs). Hasil penelitian terkait diterbitkan dalam artikel berjudul "DecodingTrust: Evaluasi Menyeluruh Terhadap Keandalan Model GPT".

Evaluasi ini menemukan beberapa kerentanan terkait kepercayaan yang sebelumnya tidak diungkapkan. Misalnya, model GPT cenderung menghasilkan output yang bias dan berbahaya, serta dapat mengungkapkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam tes standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, ketika menghadapi petunjuk yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.

Pekerjaan ini secara komprehensif mengevaluasi keandalan model GPT, mengungkapkan kekurangan yang ada. Dasar evaluasi telah dipublikasikan, dan tim peneliti berharap dapat mendorong lebih banyak peneliti untuk mengeksplorasi lebih dalam berdasarkan hal ini, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya.

Untuk mengevaluasi ketahanan GPT-3.5 dan GPT-4, peneliti merancang tiga skenario evaluasi:

  1. Menguji pada benchmark AdvGLUE standar, mengevaluasi kerentanan model terhadap serangan adversarial teks yang ada.
  2. Menggunakan instruksi tugas yang berbeda dan petunjuk sistem pada benchmark AdvGLUE untuk menyelidiki kemampuan pemulihan model.
  3. Uji menggunakan teks adversarial yang menantang yang baru dihasilkan, AdvGLUE++.

Penelitian menunjukkan bahwa model GPT menunjukkan ketahanan yang tidak terduga dalam beberapa aspek, misalnya tidak terpengaruh oleh contoh kontra-faktual yang ditambahkan dalam demonstrasi. Namun, ada celah di sisi lain, seperti mudah dipengaruhi oleh prompt sistem yang menyesatkan dan setuju dengan konten yang bias. Bias model juga tergantung pada kelompok yang disebutkan dan topik spesifik.

Dalam hal perlindungan privasi, model GPT mungkin akan mengungkapkan informasi sensitif dari data pelatihan, terutama di bawah petunjuk konteks yang relevan. Secara keseluruhan, GPT-4 lebih kuat dalam melindungi informasi pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus justru lebih mudah mengungkapkan privasi.

Penelitian ini memberikan perspektif dan metode baru untuk mengevaluasi kredibilitas model bahasa besar secara komprehensif. Dengan penerapan luas model-model ini di berbagai bidang, evaluasi dan perbaikan kredibilitasnya secara berkelanjutan sangat penting.

GPT12.76%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • Posting ulang
  • Bagikan
Komentar
0/400
Anon32942vip
· 3jam yang lalu
Haha sudah doomed.
Lihat AsliBalas0
BoredWatchervip
· 8jam yang lalu
Gelombang ini, agak sulit untuk ditangani.
Lihat AsliBalas0
GateUser-a5fa8bd0vip
· 08-15 03:05
Belum bermain dengan jelas sudah ada celahnya ya?
Lihat AsliBalas0
shadowy_supercodervip
· 08-15 02:59
Apakah kecerdasan buatan berpura-pura bodoh?
Lihat AsliBalas0
ArbitrageBotvip
· 08-15 02:58
4 bukan semuanya mengerti bebek
Lihat AsliBalas0
AirdropChaservip
· 08-15 02:39
Aduh, akhirnya kelemahan ini ditemukan.
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)