Новости

OpenAI впервые за пять лет выпустила языковые модели с открытыми весами. Они поддерживают рассуждения и по производительности приближаются к проприетарным моделям

Компания OpenAI выпустила две текстовые большие языковые модели с открытыми весами под лицензией Apache 2.0: gpt-oss-120b с 117 миллиардами параметров и gpt-oss-20b с 21 миллиардом параметров. Это первый подобный релиз с момента открытия весов модели GPT-2 в 2019 году. Обе модели семейства gpt-oss имеют архитектуру Mixture-of-Experts, контекстное окно 128 тысяч токенов, поддерживают цепочки рассуждений и могут использовать внешние инструменты, например, веб-поиск и исполнение кода Python. По производительности они приближаются к o4-mini, при этом для работы младшей версии достаточно 16 гигабайт оперативной памяти. Об этом сообщается в блоге компании и карточке моделей.

В 2019 году компания OpenAI выпустила большую языковую модель GPT-2, опубликовав ее веса в открытом доступе. Этот шаг, хоть и сопровождался опасениями о возможном злоупотреблении новой технологией, позволил тысячам исследователей по всему миру экспериментировать с новой генеративной моделью и способствовал дальнейшему бурному развитию области. С тех пор компания перешла к стратегии выпуска закрытых моделей, таких как GPT-3 и GPT-4. В то же время конкуренты, в частности Meta, DeepSeek, и Alibaba сделали ставку на открытые модели, завоевав популярность среди исследователей и разработчиков.

Почти шесть лет спустя OpenAI решила вернуться к публикации открытых моделей и выпустила под лицензией Apache 2.0 семейство рассуждающих моделей gpt-oss с открытыми весами. В него вошли две текстовые рассуждающие модели: gpt-oss-120b с 116,8 миллиарда параметров, и ее младшая версия gpt-oss-20b с 20,9 миллиарда параметров. Обе построены на архитектуре Mixture-of-Experts, которая позволяет активировать только часть общего числа параметров для обработки каждого токена: 5,1 миллиарда активных параметров у старшей и 3,6 миллиарда у младшей модели. Длина контекста обеих моделей составляет 128 тысяч токенов.

Обе модели обучены с акцентом на естественные науки, технологии и программирование, поддерживают цепочки размышлений и использование внешних инструментов (веб-поиск, исполнение кода Python). Благодаря квантизации удалось сократить объем требуемой памяти: gpt-oss-120b умещается в одном GPU с 80 гигабайт оперативной памяти, а gpt-oss-20b можно запускать на системах с 16 гигабайт памяти, что позволяет использовать ее локально, без подключения к интернету. Модели могут переключаться между тремя уровнями рассуждения, отличающимися длиной цепочки рассуждений.

В сравнительном тестировании gpt-oss-120b показала производительность, сопоставимую с o4-mini и превосходящую o3-mini в большинстве ключевых тестов. Например, в тестах по математике олимпиадного уровня AIME 2025 она достигла максимальной точности в 97,9 процента (с использованием инструментов), что превосходит результат 86,5 процента OpenAI o3-mini (без использования инструментов) и приближается к показателям o4-mini, которая набрала 99,5 процента. В бенчмарке MMLU, оценивающем знания в широком спектре дисциплин, gpt-oss-120b получила 90 процентов, что сопоставимо с o4-mini (93 процента).

В области программирования на бенчмарке Codeforces (с инструментами) модель набрала рейтинг elo 2622, немного уступив o4-mini (2719). Младшая модель, gpt-oss-20b, также показывает высокие результаты, несмотря на значительно меньший размер. Например, в AIME 2025 ее точность составила 98,7 процента. В медицинском бенчмарке HealthBench (Realistic Health Conversations) и HealthBench Hard gpt-oss-120b с уровнем рассуждений high превосходит GPT-4o, o3-mini, o1 и o4-mini, и почти достигает уровня o3, а 20b немного превосходит o1, несмотря на то, что заметно меньше по размеру.

Из проблем у новых моделей отмечается более высокий, чем у o4-mini, уровень галлюцинаций, который разработчики объясняют тем, что модели меньшего размера обладают меньшим объемом «общих знаний» по сравнению с более крупными, что приводит к большей склонности к выдумыванию ответов. Также подчеркивается, что возможность использовать инструменты, такие как веб-поиск, снижает количество галлюцинаций, поскольку модель может находить и проверять информацию.

В последнее время ученые все чаще используют LLM для написания статей и рецензий. Однако, некоторые исследователи обеспокоены: большие языковые модели склонны к галлюцинациям и пока не способны понимать заложенные в них знания. Стоит ли в таком случае делегировать им академическую работу и не несет ли это риски для всей системы научного знания — разбирался наш постоянный автор физик-теоретик Марат Хамадеев.

Источник

Нажмите, чтобы оценить статью
[Итого: 0 Среднее значение: 0]

Похожие статьи

Добавить комментарий

Кнопка «Наверх»