Reinforcement learning as a step into the future: The 71th Department and the Center for Coginitve Modeling at Neuroinformatics-2024

С 21 по 25 октября в тихой гавани Московского физико-технического института проходила XXVI Международная научно-техническая конференция «Нейроинформатика-2024». Традиционно программа мероприятия охватывала массу всевозможных нейронаук, от адаптивного поведения и когнитивных исследований до искусственных нейронных сетей, нейробиологии и системной биофизики. Движение всего этого нейромеханизма на протяжении пяти дней обеспечивал наш старый знакомый Дмитрий Юдин — одновременно координатор, ведущий конференции, докладчик и даже стример (онлайн-трансляция проходила на канале Центра когнитивного моделирования).

И традиционно наиболее пристальное внимание организаторы уделили молодым учёным: помимо оценки конкурса воркшопов, наградами отметили и начинающих ораторов. Кстати, в их числе была и Мария Нестерова, чья работа «Адаптивное расписание обучения оптимизации: обучение с подкреплением с помощью динамического упорядочивания заданий» (ссылка) под редакцией наставников, Алексея Скрынника и Александра Панова, прозвучала в рамках секции «Обучение с подкреплением в системах естественного и искусственного интеллекта» и вошла в тройку призёров, с чем мы её и поздравляем! И немного о работе.

Расписание обучения (curriculum) автоматически определяет порядок обучения нескольких заданий, что позволяет повысить эффективность обучения самого агента. Среди особенностей собственного подхода Мария выделила адаптивность при подборе заданий в зависимости от цели и текущих навыков, предобучение расписания на нескольких целевых заданиях и его моделирование как мета-агента, который составляет расписание для другого агента. Она подробно очертила схему метода и его преимущества перед известными аналогами, поведала об успешных экспериментах для задачи поиска пути в частично наблюдаемой среде (в коридоре) и в среде crafter.

В той же секции проявил себя и Александр Чернявский (научный руководитель и соавтор — опять же, Александр Панов), рассказав о «применении моделирования оппонента и моделирования среды к децентрализованному мультиагентному обучению с подкреплением» (ссылка). Он последовательно разложил проблему на три составляющие: модель взаимодействия (частично наблюдаемая марковская игра), концепт решения (равновесие Нэша) и доступ агентов к имеющейся информации (децентрализованное обучение с децентрализованном исполнением, DTDE). Задача изначально нестационарна из-за частичной наблюдаемости и необходимости совершать множество обучающихся шагов, почему для её решения и потребовалась модель мира с прокси-функцией или наградой для минимизации взаимодействия со средами.

Базисом для проектируемого метода команды послужила архитектура модели Dreamer. Проверяли его на двух постановках проблем: итеративные матричные игры и кооперативные игры, которые моделировались как децентрализованные частично наблюдаемые марковские процессы с общей функцией награды для всех агентов. Что из этого получилось, смотрите в ролике ниже (с 1:15:35). Между прочим, и запись ярчайшего дебюта Марии Нестеровой доступна там же по таймкоду 2:12:52:

Нелишним будет отметить и ведущего секции Алексея Староверова, чьи наводящие вопросы не имели цели запутать спикеров, но помогали им раскрыть тематику работ. На его плечи легла и секция «Обучение с подкреплением в нейробиологии и в системах искусственного интеллекта», хотя из-за нехватки времени и чтецов её пришлось урезать. Так, жертвой пал и самый интригующий доклад «Изучение исследования ошибок ансамблирования для обучения с подкреплением без учителя» (ссылка) Нуцу Шимана, Артёма Латышева, Петра Кудерова и Александра Панова, где ожидалась презентация метода, обучающего ансамбль динамики вперёд предсказания сетей с использованием несогласия (дисперсии) в качестве внутренней награды. Метод также нашёл применение при изучении состояния алгоритма URL. Тем не менее, доклад вошёл в подборку лучших работ форума Advances in Neural Computation, Machine Learning, and Cognitive Research VIII издательства Springer.

Не менее ярко заявил о себе и наш сотрудник Денис Васильев при поддержке коллектива авторов, представив замечательную версию «Адаптации функции расстояния в целенаправленном обучении с подкреплением, основанном на модели» (ссылка) поведения среды (модели мира) для достижения агентом любых целей. Для чего пришлось вновь воспользоваться марковским процессом принятия решений (шестёрка < S, A, G, R, T, p0 >), позволяющим генерировать произвольные функции вознаграждения, которые поощряют достижение целей. Были использованы алгоритмы на базе DreamerV2 и PEG, где выбор цели всецело зависит от максимизации исследовательской награды из достигнутого состояния. О процедурах обучения, реализации, экспериментах в средах PoinMaze и AntMaze связанных с этим проблемах лучше расскажет сам Денис (с 2:12:50):

Остальная часть команды 71 отдела в это время находилась совсем в другом месте, и тоже с очень ответственной миссией. Но об этом читайте в следующей новости. А пока что мы поздравляем участников с очередным отличным завершением очередной отличной конференции!

Cсылки по теме:

сайт «Нейроинформатики»