От многоуровневого метода Монте-Карло к символической модели мира: путь команды 71 отдела от Иннополиса до IROS 2024

17.10.2024

 

С 10 по 12 октября в Иннополисе (Татарстан) проходила Первая международная конференция по вычислительной оптимизации ICOMP 2024. Среди ведущих докладчиков были замечены, например, Питер Рихтарик, Франческо Орабона и Мартин Такак. Впрочем, нашлось там место и разработчикам методов искусственного интеллекта. Александр Панов и Алексей Скрынник с коллегами из МФТИ и AIRI представили сразу два оригинальных метода: «Переосмысляя исследования и опыт исследований глубокого многоагентного обучения с подкреплением» (ссылка) для оптимизации алгоритма с минимальными модификациями в рамках QMIX, а также MAdam — «Многоуровневый метод Монте-Карло для среднего вознаграждения в обучении с подкреплением, не зависимый от случайных предсказаний» (ссылка) для алгоритмов семейства актор-критик.

 

По словам заведующего 71 отделом, организация ICOMP получилась на мировом уровне. Ему ли не знать! Ведь спустя несколько дней Александр с Алексеем уже летели в Абу-Даби (Объединённые Арабские Эмираты) на вторую по важности Международную конференцию по интеллектуальной робототехнике и интеллектуальным системам — IROS 2024 (на первой, ICRA 2024, они побывали в мае). Попутно к ним присоединились Константин Яковлев, Андрей Городецкий и Антон Андрейчук.

Кстати, именно Константин фактически и открывал сие грандиозное мероприятие: обучающий семинар «Многоагентное планирование пути: на перекрёстье эвристического поиска и обучения с подкреплением» под его руководством стартовал в первые же часы IROS. В числе приглашённых спикеров на нём выступили Свен Кениг и Гийом Сарторетти.

Не отставали и наши учёные: Александр Панов, Алексей Скрынник и Антон Андрейчук поведали миру о своём ноу-хау — среде POGEMA (Partially Observable Grid Environment for Multiple Agents) (ссылка) и наборе инструментов для обучения и тестирования обучаемых и классических MAPF алгоритмов, которые коллектив активно развивает с 2022 года.

 

Кроме того, они поделились последними результатами исследований базовой модели MAPF-GPT (ссылка) и даже сделали обзор сред в MARL (многоагентном обучении с подкреплением ), что нашло большой отклик в сердцах специалистов. Опять же, для убедительности приводим слова Александра: «Интерес в робо-сообществе был значительный, даже код запустить не поленилась почти половина участников». Эва!

Этим участие коллег в ICOMP, разумеется, не ограничилось. 15 октября Андрей Городецкий, Константин Миронов и Александр Панов презентовали модель символической динамики для «Оптимизации стратегии на основе модели с использованием символической модели мира» (ссылка), где применили символьную регрессию к задаче о генерации траекторий для движения роботов.

А 17 октября Константин Яковлев и Антон Андрейчук вместе с Рони Штерном представили на суд людской «Оптимальный и ограниченно-субоптимальный поиск пути под любым углом» (ссылка), для чего понадобилось изготовить планировщик на основе алгоритмов Continuous Conflict-based Search (CCBS) и Safe Interval Path Planning (TO-AA-SIPP) с использованием прогрессивных техник многоагентного планирования траекторий Disjoint Splitting и Multi-Constraints.

Также наши увлечённые учёные посетили все возможные мероприятия и даже заглянули на экскурсию в местный аналог Сколково — Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), где, как оказалось, трудятся и некоторые выходцы из России. Мы же подождём традиционного отчёта от самих участников событий, который скоро выйдет на канале Центра когнитивного моделирования МФТИ. Но уже сейчас можно сказать, что год удался: команда выступила на всех ведущих мировых площадках и внесла заметный вклад в общее дело.


Cсылки по теме:

сайт ICOMP 2024

семинар IROS 2024

телеграм Grounding Knowledge