Нещодавно кілька відомих університетів та дослідницьких установ спільно випустили платформу для комплексної оцінки достовірності великих мовних моделей (LLMs). Відповідні результати дослідження були опубліковані в статті «DecodingTrust: комплексна оцінка достовірності моделей GPT».
Ця оцінка виявила деякі раніше непублічні вразливості, пов'язані з достовірністю. Наприклад, моделі GPT схильні до створення упереджених та шкідливих результатів, а також можуть витікати приватні дані з навчальних даних і історії діалогів. Хоча у стандартних тестах GPT-4 зазвичай більш надійний, ніж GPT-3.5, у випадку зловмисно спроектованих підказок GPT-4 виявляється більш вразливим до атак, можливо, через те, що він суворіше дотримується вводячих в оману інструкцій.
Ця робота всебічно оцінює надійність моделей GPT, виявляючи існуючі недоліки. Оцінювальні критерії були оприлюднені, і дослідницька команда сподівається заохотити більше дослідників поглиблено досліджувати цю тему, спільно працюючи над створенням більш потужних і надійних моделей.
Для оцінки надійності GPT-3.5 та GPT-4 дослідники розробили три сценарії оцінювання:
Провести тестування на стандартному бенчмарку AdvGLUE, оцінити вразливість моделі до існуючих текстових атак.
Дослідження відновлювальної здатності моделі за допомогою різних описів завдань та системних підказок на базі AdvGLUE.
Тестування за допомогою новоствореного складного антагоністичного тексту AdvGLUE++.
Дослідження виявило, що модель GPT демонструє несподівану стійкість в певних аспектах, наприклад, не піддається впливу контрфактичних прикладів, доданих під час демонстрації. Але в інших аспектах є вразливості, такі як легкість впливу оманливих системних підказок, що призводить до згоди з упередженим змістом. Упередженість моделі також залежить від згаданих груп населення та конкретної теми.
У сфері захисту конфіденційності моделі GPT можуть розкривати чутливу інформацію з навчальних даних, особливо за відповідного контекстного підказування. GPT-4 загалом є більш надійним у захисті особистої інформації порівняно з GPT-3.5, але в деяких випадках, навпаки, легше розкриває конфіденційність.
Це дослідження надає нові перспективи та методи для комплексної оцінки надійності великих мовних моделей. Оскільки ці моделі широко застосовуються в різних сферах, постійна оцінка та вдосконалення їх надійності є надзвичайно важливими.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Оцінка достовірності моделей GPT виявила нові вразливості. Експерти закликають до поглибленого дослідження та вдосконалення.
Оцінка достовірності моделі GPT
Нещодавно кілька відомих університетів та дослідницьких установ спільно випустили платформу для комплексної оцінки достовірності великих мовних моделей (LLMs). Відповідні результати дослідження були опубліковані в статті «DecodingTrust: комплексна оцінка достовірності моделей GPT».
Ця оцінка виявила деякі раніше непублічні вразливості, пов'язані з достовірністю. Наприклад, моделі GPT схильні до створення упереджених та шкідливих результатів, а також можуть витікати приватні дані з навчальних даних і історії діалогів. Хоча у стандартних тестах GPT-4 зазвичай більш надійний, ніж GPT-3.5, у випадку зловмисно спроектованих підказок GPT-4 виявляється більш вразливим до атак, можливо, через те, що він суворіше дотримується вводячих в оману інструкцій.
Ця робота всебічно оцінює надійність моделей GPT, виявляючи існуючі недоліки. Оцінювальні критерії були оприлюднені, і дослідницька команда сподівається заохотити більше дослідників поглиблено досліджувати цю тему, спільно працюючи над створенням більш потужних і надійних моделей.
Для оцінки надійності GPT-3.5 та GPT-4 дослідники розробили три сценарії оцінювання:
Дослідження виявило, що модель GPT демонструє несподівану стійкість в певних аспектах, наприклад, не піддається впливу контрфактичних прикладів, доданих під час демонстрації. Але в інших аспектах є вразливості, такі як легкість впливу оманливих системних підказок, що призводить до згоди з упередженим змістом. Упередженість моделі також залежить від згаданих груп населення та конкретної теми.
У сфері захисту конфіденційності моделі GPT можуть розкривати чутливу інформацію з навчальних даних, особливо за відповідного контекстного підказування. GPT-4 загалом є більш надійним у захисті особистої інформації порівняно з GPT-3.5, але в деяких випадках, навпаки, легше розкриває конфіденційність.
Це дослідження надає нові перспективи та методи для комплексної оцінки надійності великих мовних моделей. Оскільки ці моделі широко застосовуються в різних сферах, постійна оцінка та вдосконалення їх надійності є надзвичайно важливими.