Большие языковые модели (LLM) все чаще используют, чтобы писать статьи и рецензии. Это тревожит ученых. Например, в марте 2025 года материал, посвященный этой теме, вышел в журнале Nature. Казалось бы, кто как не ученые должны ратовать за прогресс. Однако у них есть весомые поводы для беспокойства: LLM склонны к галлюцинациям и пока не способны понимать заложенные в них знания, а повальное делегирование академической работы искусственному интеллекту создает риски для всей системы научного знания.

Содержание
Предел возможного
Качественное научное исследование обязательно публикуется в рецензируемом журнале. Обычно эксперты из той же сферы отсекают заведомо ошибочные или лженаучные знания. В большинстве случаев такая статья — единственный результат научной работы исследователей (вместе с данными и дополнительными материалами, разумеется).
Но нельзя сказать, что система ревью работает идеально. Ее регулярно критикуют, например, за отсутствие корреляций между оценкой рецензентов и значимостью работы или за склонность журналов принимать к публикации лишь те статьи, результаты которых выглядят интересными (подробнее об этом можно прочитать в материале «Собака съела протокол»).
Тем не менее кредит доверия, который приобретают статьи, прошедшие рецензирование в хороших журналах, позволяет хотя бы в первом приближении не беспокоиться о качестве научной работы. Однако теперь ученым приходится сомневаться и в этом.
Меньшее зло
Статьи, написанные генеративным ИИ, помимо галлюцинаций, могут содержать плагиат, ошибочные выводы и ссылки на некорректные источники. Впрочем, назвать LLM абсолютным злом нельзя: эксперты отмечают, что языковые модели уравнивают тех, кто говорил (и писал) на английском с рождения, и тех, для кого он никогда не был основным языком, — например, помогая выдержать стиль журнала или проверить орфографию.
Более того, несколько научных групп открыто заявляют, что их цель — создание моделей, способных самостоятельно генерировать качественные научные работы. Так, в марте 2025 года японская компания Sakana AI при помощи модели The AI Scientist написала статью, которая прошла слепое рецензирование на воркшоп престижной конференции по искусственному интеллекту ICLR 2025.
Однако подобные воркшопы считаются «легкой мишенью», поскольку доля принятых статей там обычно достигает 60-70 процентов — куда ценнее для ИИ-исследователей попасть на
В компьютерных науках публикации в сборниках трудов конференций ценятся выше, чем публикация в научных журналах. Для конференций существует рейтинг, составленный Ассоциацией компьютерных исследований и образования Австралазии CORE. Наивысший ранг в нем обозначается как A*. Ученые в области ИИ в случае успеха просто говорят «нашу статью приняли на конференцию A*». Такие статьи ценятся выше, чем статьи в журналах первого квартиля, а процедура рецензирования для них зачастую проходит гораздо строже.
. В мае 2025 года именно этого добились исследователи из американской компании Intology, чья модель Zochi самостоятельно провела исследование и написала статью, которую приняли на конференцию ACL 2025. Люди лишь помогли создать рисунки и внесли несколько мелких исправлений.
Но если даже мы научим ИИ писать статьи без ошибок, галлюцинаций и плагиата, ждет ли нас светлое будущее? Не факт. Продуктивность ученых сегодня принято оценивать по наукометрическим показателям, которые включают число статей (мы писали об этом в материале «Графомания или смерть»). Это привело к тому, что в течение последних десятилетий научная система перестроилась под массовость публикаций. Странно ожидать, что для упрощения задачи ученые не будут пользоваться современными технологиями.
В теории, фильтром на пути нарастающего потока целиком сгенерированных статей должна стать все та же система рецензирования. Но сейчас на рецензентах и без того много работы, количество которой с каждым годом лишь растет.
Может быть, им тоже пора вооружиться LLM?
Глас рассудка
Изначально система рецензирования апеллирует к социальной ответственности и потому имеет добровольный характер. Чаще всего ученые получают запрос от журнала и вознаграждения за эту работу не получают. При этом, как я отметил выше, число статей из года в год растет. Едва ли альтруистические механизмы способны и дальше обеспечивать работу такой системы.
В разных журналах и областях науки проблему решают по-разному. Так, издательство Elsevier поощряет рецензентов 30-дневным бесплатным доступом к своим продуктам. В науках об ИИ в последнее время закрепилась другая практика: кто-то из коллектива авторов, подающих статью, обязан выступить в роли рецензента для другой научной работы. Такие требования появились в правилах конференций A*: ACL, ICML, ICLR и других.
Как и в случае со статьями, принудительное написание рецензий, которое профессора нередко поручают своим студентам и аспирантам, подталкивает к «облегчению» труда с помощью LLM. В другом исследовании, проведенном в 2024 году, авторы проанализировали
Рецензирование на большинстве конференции по ИИ открытое. Анонимизированные тексты может увидеть любой желающий.
к статьям, которые участники подавали на главные конференции по машинному обучению после релиза первой версии ChatGPT. Выяснилось, что от 6 до 17 процентов текстов содержат явные следы использования ИИ. В феврале 2025 года издательство Wiley напрямую спросило у почти пяти тысяч исследователей из 70 стран мира, пользуются ли те ИИ-инструментами для научной работы — в том числе и для составления рецензий. Оказалось, что в той или иной степени их используют 19 процентов опрошенных.
Сообщения о применении ИИ-инструментов в рецензировании побудило новостную редакцию Nature исследовать этот вопрос. Для этого журналисты собрали мнения разработчиков, ученых и издателей. Если верить колонке, издательство AIP Publishing уже тестирует инструмент, который обобщает основные выводы и методы исследований, оценивает новизну, а также проверяет цитаты. В будущем издательство планирует открыть доступ к сервису для некоторых рецензентов. А вот в Elsevier к использованию генеративного ИИ для написания рецензий относятся негативно.
«Писать поверхностные замечания с помощью LLM — это далеко не то же самое, что написать адекватную рецензию. Писать — значит думать», — сказал в разговоре с Nature Карл Бергстром, эволюционный биолог из Вашингтонского университета в Сиэтле. Другое опасение высказал Мохаммад Хоссейни, специалист по научной этике в Медицинской школе Файнберга Северо-Западного университета в Чикаго. Он считает, что, даже если люди будут знать о машинном авторстве рецензий, использование ИИ чревато созданием своего рода «эхо-камеры» — ситуации, при которой в информационном пространстве из-за положительной обратной связи доминируют лишь определенные идеи.
Вопрос цены
Nature признает: даже если все стороны дискуссии сойдутся во мнении, что ученым нужно перестать использовать LLM для рецензирования, это едва ли осуществимо. Как минимум потому, что для этого нужен надежный инструмент, который определяет машинное происхождение текста.
Несмотря на обилие подобных сервисов, которые уже доступны всем желающим, гарантий точности в их работе нет. Помимо того, что они способны принять текст, написанный LLM, за естественный, у них бывают и ложноположительные срабатывания. Например, некоторые сервисы посчитали, что Декларация независимости США 1776 года и даже Библия могли быть написаны ИИ.
Конечно, детектор детектору — рознь. Пока одни опираются на нехитрый статистический анализ, включающий вычисление частоты редких слов или сложность предложений, другие обращаются к геометрии и топологии данных. Дело в том, что при работе с текстом LLM кодируют его с помощью векторов, которые населяют отдельные многомерные векторные пространства. Точки в этом пространстве обычно тяготеют к сложным многомерным поверхностям, зачастую с фрактальными свойствами. В 2023 году команда российских исследователей из Сколтеха, AI Lab, AIRI и Математического института имени Стеклова пыталась найти признаки «машинности» в тексте, изучая такие поверхности. Опираясь на вычисление внутренней размерности с помощью персистетных гомологий, они обнаружили надежный на тот момент критерий, который отличал тексты, написанные современными LLM, от человеческих.
Правда, с тех пор языковые модели научились лучше имитировать естественные тексты. Для этой колонки я поговорил с руководителем Лаборатории ИИ в медицине Университета Иннополис Ильей Першиным. Он рассказал, что их команда опубликовала небольшую статью по оценке фрактальных свойств текста, написанного различными LLM. Выяснилось, что с увеличением количества параметров LLM фрактальные свойства сгенерированного текста все больше напоминают таковые у человеческого. Другими словами, тексты современных моделей, кажется, не по зубам даже самым продвинутым детекторам.
Я также поговорил и с одним из авторов работы по персистентным гомологиями, старшим академическим консультантом в компании Huawei и автором телеграм-канала «Техножрица» Лаидой Кушнаревой. По ее мнению, если длинный текст в несколько абзацев сгенерирован стандартной популярной моделью (например, ChatGPT) по стандартному промпту и без какой-либо последующей обработки, то отличить его от человеческого несложно. Однако, если давать модели промпты, которые заставят ее генерировать текст в необычном для себя стиле или обрабатывать полученный результат с целью замаскировать использование LLM, то отличий можно и не найти.
Существуют и другие, более надежные способы. Например, встраивать в текст аналог водяных знаков непосредственно в процессе генерации с помощью намеренных статистических искажений, либо хэшировать (то есть математическим образом преобразовать в отдельную строку символов) каждый генерируемый текст. Сложность в том, что подобные подходы требуют, чтобы соответствующие правила приняли все разработчики LLM. Возможно, крупные компании еще можно заставить пойти на этот шаг с помощью юридических рычагов, но небольшую языковую модель может развернуть у себя любой желающий. Руководитель группы «Пространственный интеллект» AIRI и программный директор фонда «Интеллект» Антон Конушин уверен: опенсорс развивается очень быстро, и заставить всех его пользователей помечать синтезированные данные — невозможно.
Что-то кончается, что-то начинается
Все эксперты, с которыми я пообщался, когда готовил этот материал, негативно относятся к полностью сгенерированным ИИ рецензиям. Помимо поверхностности и шаблонности текстов, их огорчает то, что коллега даже не удосужился прочитать научную работу.
Есть и более строгие данные о восприятии таких рецензий учеными. В 2024 году американские исследователи попросили более 300 исследователей из 110 организаций, которые занимаются машинным обучением и вычислительной биологией, сравнить полезность рецензий, написанных LLM и живыми рецензентами. Недовольны ИИ-рецензиями остались всего 17,5 процента участников, тогда как остальные посчитали обратную связь от машин в разной степени полезной.
Важно отметить, что авторы исследования работали с (на тот момент)
Сокращение от «state-of-the-art», то есть нечто, находящееся на переднем крае прогресса. Часто используется в машинном обучении, чтобы обозначить текущего лидера по метрикам среди моделей для решения той или иной задачи.
GPT-4. Современные же модели способны к гораздо более глубокому анализу источников, а потому и качество их рецензий должно быть выше.
При этом к преимуществам ИИ-рецензентов перед живыми людьми можно отнести беспристрастность, а также эрудированность и широкий кругозор. По мнению Мохаммада Хоссейни, если научное сообщество примет ИИ-рецензии, оно должно установить строгие стандарты прозрачности: «Полная информация об ИИ и о том, какую часть рецензии он написал, каким промптом и когда пользовался рецензент — все это должно быть открыто».
Из-за LLM наука так или иначе изменится навсегда. А как именно — увидим.