Современные языковые модели искусственного интеллекта, в частности o3 от OpenAI, демонстрируют большую склонность к ошибкам по сравнению с предыдущими версиями. Эта тема обсуждается в статье The New York Times, которая ссылается на ряд исследований.
Похожие недостатки наблюдаются и в моделях других компаний, таких как Google и китайский стартап DeepSeek. Несмотря на рост математических возможностей, количество фактических ошибок лишь увеличивается.
Одной из основных проблем являются так называемые "галлюцинации", когда модели выдумывают информацию без указания источников. Амр Авадалла, генеральный директор Vectara, отмечает, что эта проблема вряд ли будет решена.
Примером такой галлюцинации стал бот технической поддержки Cursor, который ошибочно утверждал, что инструмент можно использовать только на одном компьютере, что привело к множеству жалоб и удалению аккаунтов. Позже выяснилось, что компания не вносила никаких изменений — это была выдумка бота.
В тестировании различных моделей уровень выдуманных фактов достиг 79%. В ходе внутреннего тестирования модель o3 от OpenAI допустила 33% галлюцинаций, что вдвое больше, чем у o1. Новая модель 04-mini показала еще худшие результаты с 48% ошибок.
При ответах на общие вопросы уровень галлюцинаций в моделях o3 и o4-mini был еще выше — 51% и 79% соответственно. В сравнении, старая модель o1 выдумывала факты в 44% случаев. OpenAI признает необходимость дальнейших исследований для выяснения причин таких ошибок.
Независимые исследования показывают, что галлюцинации также встречаются в моделях Google и DeepSeek. Компания Vectara выяснила, что такие модели выдумывают факты как минимум в 3% случаев, а в отдельных случаях этот показатель достигает 27%. Несмотря на усилия по устранению этих ошибок, уровень галлюцинаций снизился всего на 1-2% за последний год.
