Как вы могли судить по недавним новостям (а также перепостам в Telegram и VK), последние недели Александр Панов, Константин Яковлев и Алексей Скрынник набирались впечатлений в Конференц-центре Ванкувера (Канада), где с 20 по 27 февраля проходила 38-я конференция по искусственному интеллекту AAAI 2024 — одно из крупнейших и крутейших международных событий в мире ИИ. Для участия отобрали 2340 статей из более чем 21600 заявленных (около половины — из Китая, причём ряду китайцев, включая организаторов, отказали в визах, из-за чего часть мероприятий пришлось отменить). Работ сотрудников Института проблем искусственного интеллекта это, к счастью, не коснулось: все три были представлены в основном треке. И пока коллеги переводят дух, мы попытаемся поймать этот драйв ещё раз.
Итак, в первые же дни Александр и Алексей на постерной сессии продемонстрировали децентрализованный метод Монте-Карло для поиска в дереве для частично наблюдаемой многоагентной навигации (ссылка), созданный командой ИПИИ, МФТИ и AIRI под влиянием подхода AlphaZero компании DeepMind, где каждый агент полагается лишь на собственные наблюдения. Приложенный метод MATS-LP решает задачу MAPF для автоматизированных складов, робототехники, умного транспорта и т. п. в постановке LifeLong, когда при достижении цели агенту сразу даётся новая цель. Он использует комбинацию поиска по дереву Монте-Карло и стратегии, полученной на основе обучения с подкреплением для разрешения конфликтов — по аналогии с AlphaGo Zero, но для многоагентного случая. По словам Александра, метод фактически задал новый стандарт в освещаемом им направлении и привлёк внимание сообщества. Чему способствовали грамотное оформление и презентация Алексея.
Тематику исследования он подхватил и в другой — устной — презентации «Учимся следовать: децентрализованная непрерывная многоагентная навигация посредством планирования и обучения» (ссылка), озвученной буквально под занавес. Предложенный Алексеем метод Follower выделяет проблему конфликтных областей, возникающих тогда, когда агенты стремятся достичь своих целей максимально быстро, что вызывает появление загруженных зон на карте, особенно в центральных районах, коридорах или узких проходах. Он создаёт индивидуальные маршруты на основе обучения с подкреплением от текущего положения агентов к их целям, равномерно распределяя их по карте. Подход был проверен на большом количестве заданий и стал лучшим в классе обучаемых LMAPF алгоритмов, превосходя даже современные централизованные подходы!
В эксклюзивном интервью для сайта ФИЦ ИУ РАН один из авторов — Константин Яковлев — так его прокомментировал: «Чтобы решить задачу, каждому агенту необходимо руководствоваться нетривиальной стратегией принятия решений, которая соблюдает баланс между эгоизмом (каждый агент стремится к цели) и кооперативностью (иногда агенту нужно уступать, чтобы другие агенты могли пройти к своим целям). Традиционные методы плохо справляются с этой задачей, поэтому в своих работах мы совместно с коллегами из AIRI и МФТИ предлагаем алгоритмы, оригинально сочетающие в себе техники эвристического поиска, поиска Монте-Карло по дереву и обучения с подкреплением».
О собственном докладе — «Улучшенный анонимный алгоритм многоагентной навигации» (ссылка) — Константин отозвался следующим образом: «Тематика многоагентного планирования давно и активно развивается в нашем отделе... (Improved Anonymous Multi-Agent Path Finding Algorithm) касается случая, когда присутствует централизованной планировщик, который должен распределить членов группы по заданным целям и построить безопасные маршруты их достижения. Мы с аспирантом из МФТИ предложили новый эффективный алгоритм решения этой задачи, обладающий строгими теоретическими гарантиями, в частности — гарантиями оптимальности решения (минимизируется время достижения последним агентом цели)... Особенно мы гордимся тем, что обобщающая способность наших методов заметно выше, чем у конкурентов, так как именно это качество традиционно считается наиболее уязвимым местом обучаемых подходов».
В общем, вот такие у ИПИИ потрясающие новости. Все труды, кстати, пока что в открытом доступе (следуйте по ссылкам), официальный сборник ещё придётся подождать. Ну а нам остаётся только поздравить коллег с их великолепным дебютом и пожелать удачи в преодолении бастионов ICLR, NeurIPS и ICML. Будем держать руку на пульсе.
Cсылки по теме: