Швейцарские инженеры научили четвероногого робота с манипулятором на спине играть в бадминтон. Все движения робот выполняет, используя единую политику управления на основе обучения с подкреплением. Робот следит за воланом, координирует движения ног и роборуки с ракеткой, и отбивает подачи соперника, полагаясь только на данные бортовой камеры. В серии игр в помещении и на открытом воздухе робособака продемонстрировала, что может успешно отбивать до 10 воланов подряд. Статья опубликована в журнале Science Robotics.
Разработка роботов, способных играть в динамичные игры, позволяет инженерам разрабатывать новые приводы и оттачивать схемы управления в быстро меняющихся условиях, поскольку такие задачи требуют хорошей координации движений и восприятия. Уже существуют роботы-теннисисты, которые могут успешно противостоять человеку в настольном теннисе. Однако большинство из них выглядят как манипулятор, установленный на неподвижной платформе. Они ориентируются по внешним камерам и способны перемещаться только в ограниченных пределах, как, например, робот, разработанный Google DeepMind в 2024 году, или робот-теннисист компании Omron, представленный еще в 2014 году.
Инженерам из Швейцарской высшей технической школы Цюриха под руководством Марко Хуттера (Marco Hutter) удалось создать свободно передвигающегося по игровому полю ходячего робота, который полагается только на собственные сенсоры при игре в бадминтон. Чтобы успешно отбивать подачи соперника, роботу необходимо точно прогнозировать траекторию полета волана и одновременно с этим быстро перемещаться в пределах игрового поля, координируя движения ног, положение тела и манипулятора с ракеткой.
Основной проекта послужил четвероногий робот модели ANYmal-D. На него установили манипулятор DynaArm и неподвижную стереокамеру ZED X с глобальным затвором (позволяет считывать все пиксели изображения сразу, а не построчно). На конце роборуки закреплена бадминтонная ракетка. За управление всеми движениями робота и руки отвечает единая политика управления, полученная с помощью обучения с подкреплением в симуляторе Isaac Gym. Разработчики применили архитектуру асимметричного актора-критика, в котором критик (нейросеть, оценивающая насколько хороши текущие действия) во время обучения имеет доступ к большему количеству информации, чем нейросеть-актор, непосредственно управляющая роботом и потому получающая только зашумленные данные с сенсоров. Такой подход помогает критику более точно оценивать полезность текущих состояний и улучшать обучение, не нарушая применимость результата в реальных условиях.
Чтобы воспроизвести в симуляторе ошибки и задержки восприятия, характерные для реального робота, разработчики построили модель шумов для камеры. Для этого волан поместили в фиксированной точке, а камеру двигали вручную вокруг него, отслеживая ее положение с помощью системы захвата движений. Модель учитывает расстояние от камеры до волана, угловую скорость базы, и то, попадает ли волан в поле зрения. Зашумленные данные в симуляции и на реальном роботе передаются в расширенный фильтр Калмана, обученный на аэродинамической модели полета волана, который оценивает и предсказывает его траекторию движения. В кадре волан распознается и выделяется по его оранжевому цвету с помощью HSV-фильтрации. После этого найденная точка перехвата вместе с данными о текущем состоянии робота передается в RL-политику управления.
Обучение политики в симуляции происходило на десятках тысяч эпизодов, каждый из которых включал шесть последовательных подач волана. За счет этого робот выработал устойчивое и адаптивное поведение между ударами, например, он научился самостоятельно возвращаться в центр поля, как это делают реальные игроки, а также отслеживать положение летящего волана, наклоняя корпус. Чтобы движения не приводили к перегрузке приводов, в обучении учитывались ограничения на максимальный потребляемый моторами ток. Для этого использовался модифицированный алгоритм обучения с подкреплением N-P3O (разновидность Proximal Policy Optimization), который позволяет следить, чтобы политика не выходила за пределы заданных ограничений.
После обучения разработчики протестировали систему на реальном роботе. Испытания проходили как в помещении, так и на открытом воздухе. Робот стабильно отслеживает движения волана и выполняет замахи ракеткой со скоростью, достигающей 12 метров в секунду. Также, в зависимости от ситуации он адаптирует походку — от мелких шагов, если волан пролетает недалеко, до быстрых перемещений, напоминающих галоп, при необходимости резко дотянуться до удаленной точки. В ходе матчей с людьми робот успешно отбивает целые серии подач. В одном из эпизодов ему, например, удалось отбить 10 воланов подряд.
В будущем инженеры планируют улучшить систему восприятия, установив камеру на подвижный привод или увеличив количество камер, чтобы четвероногий робоспортсмен мог отслеживать полет волана не только впереди себя, но и в ситуациях, когда тот оказывается сверху или позади. Также рассматривается возможность установить дополнительные сенсоры, чтобы отслеживать звук и силу удара и добавить модуль оценки действий противника — в текущей реализации они не учитываются.
Двуногих роботов тоже обучают спортивным играм. Компания Toyota, например, создала прототип человекоподобного робота-баскетболиста, умеющего выполнять штрафные броски.