image
Технологии

Новые вызовы безопасности для больших языковых моделей

Группа ученых из Intel, Университета штата Айдахо и Университета Иллинойс представила новую стратегию обхода фильтров безопасности в больших языковых моделях, таких как ChatGPT и Gemini. Об этом сообщает 404 Media.

В ходе исследования было установлено, что чат-ботов можно заставить выдавать запрещенную информацию, если формулировать запросы сложным или неоднозначным образом или ссылаться на несуществующие источники. Этот метод получил название "информационное перегрузка".

Специалисты использовали специальный инструмент InfoFlood, который автоматизирует процесс "перегрузки" моделей информацией. В результате системы становятся дезориентированными и могут начать предоставлять запрещенный или опасный контент, который обычно блокируется встроенными фильтрами безопасности.

Уязвимость заключается в том, что модели сосредотачиваются на поверхностной структуре текста, не распознавая опасный контент в скрытой форме. Это открывает возможности для злоумышленников избежать ограничений и получить вредоносную информацию.

В рамках ответственного раскрытия уязвимостей, авторы исследования планируют передать полученные результаты компаниям, работающим с большими языковыми моделями, для повышения уровня их безопасности. Исследователи также предложат методы для решения выявленных проблем.

"Модели LLM в основном полагаются на защитные механизмы при вводе и выводе данных для выявления вредоносного контента. InfoFlood можно использовать для обучения этих защитных механизмов — он позволяет извлекать релевантную информацию из потенциально опасных запросов, делая модели более устойчивыми к подобным атакам", — говорится в исследовании.