Рекомендательная система анализирует поведение пользователя в прошлом — просмотры, клики, лайки, таймспент и другие сигналы, чтобы предсказать, какой контент с наибольшей вероятностью заинтересует его в будущем.
Первые рекомендательные системы появились в мире еще в конце 1990-х и расцвели в 2010-х. А сегодня сложно представить музыкальный или видеосервис без персональных рекомендаций. Эти технологии, основанные на машинном обучении и искусственном интеллекте, подбирают контент для каждого пользователя. И продукты VK — не исключение.
Вместе с руководителем направления рекомендаций VK Андреем Зимовновым разберем, как устроены такие системы и какие алгоритмы в них заложены, а также почему в рекомендациях все чаще используют нейросети и трансформеры.
Содержание
От первого лайка до предпочтений
Представьте, что вы посмотрели видео про электросамокаты. Что произойдет дальше? Скорее всего, система предложит вам что-то похожее — например, обзор другого гаджета или тест-драйв электровелосипеда. Это работает благодаря item2item-подходу: он помогает находить похожие ролики на основе контента, тегов и описаний. По сути это быстрый способ найти «близких родственников» уже просмотренного видео.
Более сложные методы опираются не на сами видео, а на поведение аудитории. Алгоритм анализирует, какие ролики часто смотрят пользователи с похожими интересами. Если, скажем, люди, интересующиеся самокатами, часто переходят на видео о городской мобильности или экологичных технологиях, система начнет предлагать такой контент и вам. Этот подход называют коллаборативной фильтрацией: он строится на схожести вкусов, даже если контент сам по себе сильно различается.
А гибридные модели объединяют оба подхода. Они учитывают и содержимое видео, и поведение аудитории, чтобы не только показывать то, что похоже на уже просмотренное, но и находить неожиданные, но релевантные рекомендации. Именно такая комбинация лежит в основе современных рекомендательных систем.
Баланс интересов
Для социальных платформ важно поддерживать как пользователей, так и авторов. С одной стороны, алгоритмы должны повышать вовлеченность и подбирать контент, который удерживает внимание и мотивирует возвращаться в сервис. С другой стороны, блогеры хотят быстрее находить свою аудиторию, а не надеяться на случайный рост через год. Грамотно выстроенные системы рекомендаций позволяют решить обе задачи.
Например, некоторые ML-механики отвечают за разнообразие предлагаемого контента. Допустим, человек интересуется машинами или компьютерными играми. Алгоритм понимает, что видеть подряд только игры или машины ему становится неинтересно, и подмешивает в ленту другие типы контента, даже если такой контент потенциально вызовет чуть меньше вовлеченности в моменте. Это же помогает продвигать новых авторов — иногда их публикации приоритетно попадают в ленты пользователей.
Коктейль из технологий
Современные рекомендательные системы VK представляют собой единую, масштабируемую discovery-платформу, где до 90 процентов технологий используется повторно в разных продуктах — от лент социальных сетей до витрин видео и клипов. Несмотря на общую техническую базу, каждая система адаптируется под специфику контента и пользовательские сценарии конкретного продукта.
Изначально рекомендательные движки развивались независимо, но их объединение уже дало ощутимые результаты: в два раза выросло потребление контента в VK Клипах, время смотрения в VK Видео увеличилось втрое, слушатели VK Музыки стали на 35 процентов чаще добавлять треки из VK Микс к себе в плейлисты. Такой рост стал возможен благодаря внедрению передовых технологий — от рекомендательных трансформеров до графовых нейросетей и нейросетевых контентных моделей.
Трансформеры в рекомендациях
Рекомендательные трансформеры становятся ключевым элементом в системах рекомендаций. К слову, именно трансформеры стоят за буквой «T» в аббревиатуре GPT. Эти архитектуры позволяют учитывать не только отдельные действия пользователя, например просмотр конкретного видео, но и последовательности событий, временные зависимости и динамику изменения интересов.
Благодаря механизму self-attention модель может в реальном времени определять, какие элементы пользовательской истории наиболее важны для текущего запроса, и формировать персонализированные рекомендации с учетом сложного контекста поведения.
Как работает self-attention ↓
Это способ, которым трансформер «понимает» важность разных частей входных данных по отношению друг к другу. Проще говоря, он отвечает на вопрос: «На какие другие элементы мне стоит обратить внимание, когда я обрабатываю вот этот элемент?»
Допустим, пользователь последовательно взаимодействовал с разными постами: мем → цитата из книги → клип про спорт → новость о технике. Когда модель анализирует интерес к технике, ей важно понять, что именно в предыдущих постах подтолкнуло пользователя к этому взаимодействию. Ведь нужно решить, что показать дальше.
Что делает self-attention? Он сравнивает каждую единицу контента со всеми остальными и присваивает им веса важности. Например:
- мем — менее важен (0,2);
- цитата из книги — менее важна (0,3);
- видео про спорт — важно (0,7);
- новость о технике — важна (0,5).
Эти веса показывают, как сильно каждый товар влияет на формирование траектории. Причем модель смотрит не на последние одно-два действия, а обрабатывает довольно длинные цепочки. Даже находит скрытые паттерны, например, может догадаться: «Если человек сначала смотрит видео про спорт, потом технику, скорее всего, дальше будет интерес к фитнес-браслетам».
Подробнее о рекомендательных трансформерах можно узнать в видео «Трансформируем рекомендации».
Графовые нейросети
В отличие от классических, графовые модели позволяют учитывать не только индивидуальные действия пользователей, но и их связи друг с другом. Такие модели представляют данные в виде графа, где узлы — это пользователи и видео, а ребра — взаимодействия и социальные связи.
Это позволяет точнее выявлять скрытые зависимости и использовать информацию о поведении похожих пользователей. Результатом внедрения графовых моделей стало улучшение персонализации в VK Видео. Подробнее об этом можно послушать на недавнем Data Fest, партнером которого компания становится уже второй год подряд.
Глубокое понимание контента
Для повышения качества персонализации в VK активно применяются мультимодальные нейросетевые модели, способные анализировать видео по нескольким модальностям одновременно: по визуальному ряду, описанию, речи и фоновой музыке.
Такие модели формируют общее представление о содержании видео, это позволяет не только точнее подбирать контент под интересы пользователя, но и эффективно решать проблему холодного старта — когда нужно рекомендовать новое видео, еще не набравшее взаимодействий.
Как устроены мультимодальные контентные модели — смотрите в этом видео с фестиваля.
Будущее персонализировано
Любопытно, что большинство современных технологий искусственного интеллекта выросло всего из одной статьи, опубликованной в 2017 году. С тех пор развитие идет экспоненциально, и, вполне возможно, в ближайшем будущем рекомендательные системы станут настолько точными и адаптивными, что радикально изменят ландшафт медиа и социальных платформ.
В конечном счете долгосрочный успех любой социальной сети определяется тем, насколько ею комфортно пользоваться — как читателям, так и авторам. Сегодня рекомендательные системы — это уже не дополнение, а основа цифрового сервиса. И именно их развитие становится главным полем для экспериментов, улучшений и основой конкурентного преимущества.
Ну а чтобы приближать будущее самостоятельно (и увидеть его первее прочих), приходите работать и влиять на то, какими будут сервисы VK в ближайшие десять лет.
Реклама