image
Технології

Недостатності у тестах безпеки штучного інтелекту

Вчені виявили недоліки у багатьох тестах, що використовуються для оцінки безпеки та ефективності сучасних моделей штучного інтелекту. Як повідомляє The Guardian, дослідження проводили фахівці з Інституту безпеки ШІ Великої Британії, а також експерти з університетів Стенфорда, Берклі та Оксфорда.
Вони проаналізували більше 440 тестів, що оцінюють систему безпеки ШІ.
Експерти виявили, що ці тести мають недоліки, які, на їхню думку, «підривають достовірність отриманих результатів». Вони також зазначили, що майже всі тести мають «слабкі місця принаймні в одній сфері», а результати можуть бути «неактуальними або навіть оманливими».
Багато з цих оцінок використовуються для перевірки нових моделей ШІ, розроблених великими технологічними компаніями, зазначив дослідник Ендрю Бін з Оксфордського інституту.
У Британії та США відсутні загальнонаціональні регуляції для ШІ, тому ці тести використовуються для перевірки безпеки нових моделей і їх відповідності інтересам людей.
«Тести є основою практично всіх заяв про досягнення в ШІ. Але без єдиних визначень і надійних методів вимірювання важко зрозуміти, чи моделі дійсно покращуються, чи це просто видимість», - наголосив Бін.
У дослідженні аналізувалися лише загальнодоступні тести, проте провідні компанії з ШІ мають власні внутрішні тести, які не були вивчені.
Бін зазначив, що «шокуючим було те, що лише 16% тестів використовували статистичні методи для оцінки точності критеріїв. У випадках, коли встановлювалися критерії для оцінки характеристик ШІ, визначення терміна «нешкідливість» було неоднозначним, що знижувало практичну цінність тесту.
У висновках дослідження підкреслюється «необхідність спільних стандартів і найкращих практик» в області ШІ.