Нове покоління відкритих моделей штучного інтелекту від OpenAI

OpenAI випустила дві нові моделі штучного інтелекту з розширеними можливостями логічного мислення — gpt-oss-120b та gpt-oss-20b. Ці моделі стали першими з відкритими вагами з моменту випуску GPT-2 більше п’яти років тому. Вони доступні безкоштовно на платформі Hugging Face, орієнтуючи свою пропозицію на розробників та дослідників, які бажають створювати власні рішення на базі відкритих технологій.

Ці моделі мають різні характеристики та вимоги до обладнання:

gpt-oss-120b — це потужніша модель, що може працювати на одній графічній карті NVIDIA;
gpt-oss-20b — спрощена версія, яка може запускатися на звичайному ноутбуці з 16 ГБ оперативної пам’яті.

OpenAI ставить перед собою мету представити відкриту платформу ШІ в США як альтернативу зростаючому впливу китайських лабораторій, таких як DeepSeek, Qwen (Alibaba) та Moonshot AI, які активно розвивають потужні відкриті моделі.

Що стосується тестування, то на платформі Codeforces модель 120b набрала 2622 бали, а 20b — 2516, що перевищує показники DeepSeek R1, але поступається закритим моделям o3 та o4-mini. У складному тесті Humanity’s Last Exam (HLE) модель 120b показала 19%, а 20b — 17,3%, що вищі результати за інші відкриті моделі, але нижче за o3.

Нові моделі були розроблені з використанням методології, близької до закритих моделей OpenAI. Вони застосовують методику mixture-of-experts (MoE), активуючи лише частину параметрів для кожного токена, що значно підвищує ефективність. Додаткове навчання з використанням RL дозволило покращити логічне мислення моделей та викликати інструменти, такі як веб-пошук або виконання Python-коду.

Ці моделі обробляють лише текстову інформацію і не генерують зображення чи аудіо. Вони поширюються під ліцензією Apache 2.0, що дозволяє комерційне використання без узгодження з OpenAI, хоча навчальні дані залишаються закритими через ризики, пов’язані з авторськими правами.

Запуск gpt-oss має на меті зміцнити позиції OpenAI в спільноті розробників та відповісти на політичний тиск з боку США, які прагнуть підвищити значення відкритих американських моделей у глобальному контексті.