POGEMA, наконец, представлена миру: 71 отдел на ICLR и CLeaR 2025

15.05.2025

 

Весна входит в свою пиковую фазу, равно как и команда 71 отдела. Последние три недели ей буквально не сидится на месте. Судите сами. С 24 по 28 апреля в Сингапуре проходила новенькая ICLR 2025 — один из трёх мировых китов в области машинного обучения. В прошлом году сборной ФИЦ ИУ РАН, Центра когнитивного моделирования и института AIRI удалось не только попасть на ICLR, но и отлично выступить с двумя проектами. В этом году учёные решили закрепить успех и вновь привезли на конференцию два проекта. Александр Панов традиционно вёл прямой репортаж в своём тревел-блоге, ну а мы — сопереживали что есть сил. 

 

Среди материалов первым делом выделялась выстраданная статья о грид-среде POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation (ссылка), эдакой «песочнице» для решения частично наблюдаемых задач многоагентного поиска путей, которую Александр Скрынник сотоварищи развивают на протяжении многих лет: например, в 2023 году он демонстрировал её работу на нашем семинаре. Туда вошли все необходимые инструменты для обучения, валидации, визуализации, сбора статистики и автоматизированной оценки, которых так не хватало самим авторам при исследовании методов обучения с подкреплением. Знакомил с POGEMA гостей лично Константин Яковлев:

А Евгений Джевеликян, Пётр Кудеров и Александр Панов привезли новёхонький алгоритм временной памяти с онлайн-обучением для принятия решений в изменяющихся и частично наблюдаемых средах в статье под заглавием Learning Successor Features with Distributed Hebbian Temporal Memory (ссылка). Алгоритм основан на сплаве формализма фактор-графов и модели нейрона из нескольких компонентов с использованием distributed representations, разреженных матриц переходов и локальных Hebbian-подобных правил обучения для борьбы с нестабильностью и чересчур медленным процессом обучения традиционных алгоритмов временной памяти, вроде RNN или HMM. Ребята также активно посещали воркшопы, которых была представлена целая россыпь, о чём позднее рассказали в соответствующем видео:

 

Ну а 7–9 мая в Лозанне (Швейцария) состоялась маленькая, но уютная конференция Causal Learning and Reasoning (CLeaR 2025). Основная тема была заявлена как «каузальные графические модели, в том числе в приложении к методам машинного обучения», что пришлось очень кстати. Ведь у Леонида Угадярова, Виталия Воробьёва и Александра Панова накопилась подходящая презентация Relational Object-Centric Actor-Critic (ссылка) — презентация подхода, объединяющего объектно-центричный актор-критик с графической моделью мира, которая предсказывает будущее состояние и вознаграждает в зависимости от текущей связки state-action (состояние-действие). Где действия — это вмешательства в среду. Оценка метода велась как в моделируемой трёхмерной роботизированной среде, так и в 2D-среде с композиционной структурой. Подробности Леонид изложил в подобающем моменту постере.

Cсылки по теме:

ICLR 2025

CLeaR 2025