Команда вчених з Intel, Університету штату Айдахо та Іллінойсу представила нову стратегію обходу фільтрів безпеки в великих мовних моделях, таких як ChatGPT і Gemini. Про це повідомляє 404 Media.
У процесі дослідження було виявлено, що чат-боти можуть бути змушені надавати заборонену інформацію через формулювання запитів у складній або неоднозначній формі, або за допомогою посилань на неіснуючі джерела. Цей метод отримав назву "інформаційне перевантаження".
Фахівці використовували спеціальний інструмент InfoFlood, який автоматизує процес "перевантаження" інформацією. Це призводить до дезорієнтації систем, які можуть почати надавати заборонений чи небезпечний контент, що зазвичай блокується внутрішніми фільтрами безпеки.
Слабкість полягає в тому, що моделі концентруються на поверхневій структурі тексту, не виявляючи приховану небезпеку. Це створює можливості для зловмисників обійти обмеження і отримати шкідливу інформацію.
У рамках відповідального розкриття вразливостей, автори дослідження планують передати отримані результати компаніям, які працюють з великими мовними моделями, для підвищення рівня їхньої безпеки. Дослідники також запропонують методи для вирішення виявлених проблем.
"Моделі LLM в основному покладаються на захисні механізми при введенні та виведенні даних для виявлення шкідливого контенту. InfoFlood може бути використаний для навчання цих механізмів захисту — він дозволяє витягувати релевантну інформацію з потенційно небезпечних запитів, роблячи моделі більш стійкими до таких атак", — йдеться в дослідженні.