image
Технологии

Недостатки тестов безопасности ИИ

Исследователи обнаружили недостатки в множестве тестов, которые используются для оценки безопасности и эффективности новых моделей искусственного интеллекта. Как сообщает The Guardian, исследование проводилось специалистами Института безопасности ИИ Великобритании, а также экспертами из университетов Стэнфорда, Беркли и Оксфорда.
Они проанализировали более 440 тестов, оценивающих системы безопасности ИИ.
Эксперты выявили, что данные тесты имеют недостатки, которые, по их мнению, «подрывают достоверность полученных результатов». Они также отметили, что почти все тесты имеют «слабые места по крайней мере в одной области», а результаты могут быть «нерелевантными или даже вводящими в заблуждение».
Многие из этих оценок используются для проверки новых моделей ИИ, разработанных крупными технологическими компаниями, отметил исследователь Эндрю Бин из Оксфордского интернет-института.
В Великобритании и США отсутствуют национальные регуляции для ИИ, поэтому эти тесты используются для проверки безопасности новых моделей и их соответствия интересам людей.
«Тесты являются основой практически всех заявлений о достижениях в области ИИ. Однако без единых определений и надежных методов измерения сложно понять, улучшаются ли модели на самом деле или это просто видимость,» - подчеркнул Бин.
Исследование охватывало только общедоступные тесты, но ведущие компании в области ИИ также имеют собственные внутренние тесты, которые не были рассмотрены.
Бин заметил, что «шокирующим выводом было то, что лишь небольшое меньшинство (16%) тестов использовало статистические методы для оценки точности критериев. В тех случаях, когда устанавливались критерии для оценки характеристик ИИ, особенно его «беспечности», определения часто были спорными или неопределенными, что снижало полезность теста.
В выводах исследования подчеркивается «необходимость совместных стандартов и лучших практик» в области ИИ.