Блоги

Секс, спагетти и рок-н-ролл. Разбираемся в лоре легендарных мемов машинного обучения

У исследователей искусственного интеллекта есть собственные знаковые ритуалы, шутки и внутренние мемы. Как в программировании давно прижился «Hello, World!», так и в машинном обучении появились собственные артефакты: от культовых картинок до историй, которые регулярно цитируют в статьях и на конференциях. В этом блоге я расскажу про несколько самых известных из них.

Содержание

Все, что вам нужно

Много ли научных статей имеют страницы в Википедии? В основном этим могут похвастаться публикации прошлого века: например, статья Эйнштейна о броуновском движении или работа Крика и Уотсона о структуре ДНК. Они заслужили место в энциклопедии из-за значимости открытий. 

В исследованиях искусственного интеллекта тоже есть свои герои — с той лишь разницей, что большинство статей, удостоенных войти в Википедию, опубликовано в XXI веке. Наверное, самой значимой с точки зрения влияния на культуру стала работа «Attention Is All You Need», опубликованная в 2017 году исследователями из Google.

Я уже упоминал эту статью в материале «И целого интернета мало» о проблемах в обучении LLM и трансформерах — архитектуре, которую используют большинство современных языковых моделей. Именно ей в 2017 году исследователи Google посвятили свою работу. В основе трансформеров лежит механизм внимания (attention), который существенно улучшил работу моделей машинного обучения с последовательностями символов.

Насколько существенно?

Трансформеры совершили революцию в обработке естественного языка и навсегда изменили ландшафт архитектур искусственного интеллекта. Их способность к масштабированию позволила создать по-настоящему

с числом параметров более миллиарда, хотя эта граница условна

, для которых количество перешло в качество: текст, который создают современные LLM, практически неотличим от человеческого.

Название статьи отсылает к хиту The Beatles «All You Need Is Love». Об этом рассказал один из восьми авторов, Лион Джонс (Llion Jones), родившийся в Великобритании. Использование такого очевидного референса к поп-культуре едва ли было бы возможно в более строгой области вроде теоретической физики. Но в компьютерных науках заголовок породил своеобразный тренд. 

Другие исследователи стали отсылать к статье Google, используя в названиях собственных статей формулу «*** Is All You Need». На момент написания этого блога Google Scholar индексирует около 75 тысяч статей с таким названием, вышедших не ранее 2018 года. 

Встречается и бунт против системы: шаблон вида «*** Is Not All You Need». Сегодня насчитывается около шести тысяч публикаций с таким заголовком. Дошло до того, что ИИ-исследователь из Гарварда Кенто Ниши (Kento Nishi) запустил скрипт, который собирает все препринты на arXiv.org с отсылкой к статье 2017 года в названии.

Из списка Ниши, кстати, можно узнать, что исследователи Google не были первыми, кто использовал эту игру слов в заголовке. В 2015 году вышла статья с рифмой в названии — «All you need is a good init» («Все, что вам нужно — это хорошая инициализация»). Через пару лет другой коллектив авторов ответил на публикацию заголовком «All You Need is Beyond a Good Init» («Все, что вам нужно, лежит за гранью хорошей инициализации»). Но культурный феномен породила именно статья про трансформеры.

Первая леди интернета

Алгоритмы и методы, которые используются для реальных задач, важно сравнивать друг с другом. Для этого нужны хорошие тесты. Желательно, чтобы они проверяли в том числе экзотические случаи, воспроизводились и не были предвзяты. Тестом может быть даже одно изображение — например, снимок из ноябрьского номера Playboy за 1972 год.

На фотографии выше, которая стала мемом в области обработки изображений и компьютерного зрения, — шведская фотомодель по имени Лена Сёдерберг (впоследствии Форсен). Скан этого снимка Александр Савчук, сотрудник Университета Южной Калифорнии, использовал для доклада на одной из многочисленных конференций. 

Фото, названное «Лена» (иногда «Ленна»), понравилось коллегам Савчука, и вскоре все больше научных коллективов начали использовать его в качестве тестового. Снимок Форсен стал первым изображением в мире, отправленным по сети ARPANet, предшественнице интернета. А в 1991 году «Лена» оказалась на обложке престижного научного журнала Optical Engineering.

Узнав об этом, владельцы Playboy вынудили редакцию Optical Engineering выпустить отдельное редакционное заявление о добросовестном использовании чужих изображений. Однако впоследствии руководство эротического журнала смягчилось, то ли вдохновившись научным прогрессом, то ли обрадовавшись рекордным продажам ноябрьского номера 1972 года.

Культовый статус среди инженеров и титул «Первой леди интернета» принято объяснять крайне удачным сочетанием характеристик «Лены». Давид Мансон, главный редактор журнала IEEE Transactions on Image Processing, в 1996 году отмечал хорошее сочетание деталей, теней и текстур. Кроме того, на изображении есть плавный переход полутонов и человеческое лицо. Первое позволяет алгоритмам работать на разнообразных уровнях яркости и оттенков, второе полезно для систем распознавания и обработки человеческих лиц. 

Впрочем, нельзя отрицать и влияние эстетики. По мнению Мансона, «неудивительно, что исследователи в области обработки изображений, в основном мужчины, тяготели к [использованию] картинки, которую они считали привлекательной».

О нахлынувшей славе Лена Форсен узнала лишь спустя 15 лет после публикации первой статьи с ее изображением. Поначалу неожиданная известность обрадовала модель — она даже стала почетным гостем 50-й конференции Imaging Science and Technology (IS&T) в 1997 году и IEEE International Conference on Image Processing в 2015 году.

Но вскоре Лена Форсен устала от такого внимания. В документальном фильме «Losing Lena» она призывает инженеров перестать использовать фотографию. Помимо личных мотивов, это связано еще и с волной критики: существует мнение, что снимок из эротического журнала, который даже более полувека спустя остается одним из наиболее популярных тестовых изображений, символизирует недостаток разнообразия в индустрии и мешает женщинам в сфере компьютерных наук уравняться в статусе с мужчинами. 

К настоящему моменту некоторые журналы уже ввели мораторий на использование этого тестового изображения. Так поступили, например, в Optical Engineering и Nature Nanotechnology, а Journal of Modern Optics предложил несколько альтернатив, близких к «Лене» по характеристикам.

Спагетти-тест

Чтобы понять, насколько хорошо работает та или иная модель, одного набора тестов недостаточно — нужны стандартизированные «линейки», по которым можно сравнивать результаты алгоритмов. Такие системы оценки, задающие общие правила игры для инженеров и исследователей, называются бенчмарками.

В сообществе разработчиков ИИ-моделей для генерации видео популярным способом продемонстрировать их возможности стал сценарий «Уилл Смит ест спагетти». Иногда в шутку его называют бенчмарком, хотя это скорее мем, ведь настоящие бенчмарки должны оценивать модели не на глаз, а с помощью числовых метрик.

Первым актера заставил есть макароны пользователь Reddit под ником chaindrop, опубликовавший пост 23 марта 2023 года. Он использовал модель ModelScope text2video от Alibaba, которая создает короткие видеозаписи по текстовому описанию. Нейросеть не смогла правдоподобно сгенерировать внешность актера и его движения — перекошенное лицо и руки Смита постоянно дергаются и деформируются, а спагетти телепортируются или исчезают.

Ролик одновременно пугал и смешил людей, но вместе с тем породил желание сделать спагетти-генерацию более реалистичной с помощью следующих text2video-моделей. С тех пор в сообществе укоренилось правило: любая новая модель проверяется на способность воспроизвести эту сцену более убедительно, чем ее предшественники.

В течение последующих месяцев в интернете появилось множество видео по различным вариациям этого промпта, а также ролики с другими знаменитостями. Подборку таких генераций за 2023 и 2024 годы можно посмотреть здесь. А когда компания OpenAI представила модель Sora —

state-of-the-art, то есть наилучшее на данный момент

в генерации видео по тексту, —  пользователи массово стали просить создателей сгенерировать Уилла Смита. На это отреагировал и сам актер, который выложил пародию на генерацию 2023 года.

Пока text2video-модели постоянно улучшаются, спагетти-тест остается актуальным: хоть это и просто мем, он все-таки позволяет на глаз оценить, насколько сильно выросло качество создаваемых видеороликов. Вероятно, наиболее заметной из последних можно назвать генерацию, выполненную с помощью мультимодальной модели Veo 3 от Google DeepMind. Она создала действительно правдоподобный видеоряд — впрочем, нереалистичный хруст спагетти пока все еще выдает его машинное происхождение.

Человек, который изобрел все

Знакомьтесь, Юрген Шмидхубер, титулованный немецко-швейцарский исследователь в области искусственного интеллекта. Имя этого человека, скорее всего, хорошо известно тем, кто занимается машинным обучением: он был одним из авторов ключевых нейросетевых архитектур, в частности долгой краткосрочной памяти (Long short-term memory, LSTM).

Но мемом Шмидхубер стал из-за статьи, причем даже не своего авторства. В 2014 году коллектив исследователей под руководством Йошуа Бенжио предложил новую архитектуру под названием генеративно-состязательная сеть (generative adversarial network, GAN). Первым автором соответствующей статьи был американец Ян Гудфеллоу. 

Если кратко, работа GAN основан на игре двух нейросетей: генератора, который создает изображения, и дискриминатора, который пытается определить их искусственность. Состязательность позволила создавать очень реалистичные изображения, и GAN быстро набрали популярность. Организаторы конференции NIPS 2016 пригласили Яна Гудфеллоу выступить в секции Tutorial — образовательном треке, предназначенном для углубленного изучения конкретных тем, инструментов или методов.

На лекцию пришел Юрген Шмидхубер. Посреди выступления он прервал Гудфеллоу и заявил, что создатели GAN проигнорировали его работу, где уже предлагалось использовать конкуренцию между двумя моделями. Гудфеллоу спорить с Шмидхубером не стал и объявил, что они дискутировали по этому вопросу через электронную почту.

Позже выяснилось, что Шмидхубер был рецензентом статьи про GAN и высказывал претензию в ревью. На это Гудфеллоу ответил, что идея конкуренции скорее качественная, чем формальная, и указал на отличия между работами.

Скандал на NIPS 2016 года быстро стал горячей темой для обсуждения в соцсети X (тогда она еще называлась Twitter). Мнения пользователей разделились: одни считали, что Шмидхубер действительно вдохновил создателей GAN, другие —  что прерывать лекцию в любом случае не стоило. Наконец, нашлись и те, кто посмеялся над ситуацией. 

Впоследствии Юрген Шмидхубер не раз оспаривал авторство чужих алгоритмов. У него были претензии и к

Французский и американский ученый, один из пионеров оптического распознавания символов с помощью нейросетей.

из-за сверточных нейросетей, и к

Один из нобелевских лауреатов 2024 года по физике за, фактически, использование нейросетей.

из-за обратного распространения ошибки, да и к команде Бенжио у Шмидхубера нашлись вопросы помимо GAN. Все обвинения ученый даже собрал в отдельном блоге и призвал коллег к ответу.

Не прошли мимо Шмидхубера и крупные инфоповоды последнего времени, например, Нобелевская премия по физике в 2024 году или успех китайской модели DeepSeek в начале 2025 года. Все это обеспечило ученому репутацию главного оспаривателя авторства в машинном обучении. Илон Маск написал про него: «Шмидхубер изобрел все». Эта фраза стала мемом. Сам Шмидхубер, похоже, с юмором относится к этому титулу. Например, отвечая Маску, он написал: «Спасибо за щедрую гиперболу. Правда, нарезать хлеб придумал не я».

Надо заметить, что Юрген Шмидхубер далеко не всегда отстаивает собственное авторство. Его в целом не устраивает тот факт, что современные исследователи мало читают и ссылаются на работы, вышедшие до 1990-х годов. Однако четкие критерии плагиата зачастую трудно установить даже экспертам в области, и это служит благодатной почвой для претензий немецкого ученого.

Источник

Нажмите, чтобы оценить статью
[Итого: 0 Среднее значение: 0]

Похожие статьи

Кнопка «Наверх»