Грант РНФ № 18-71-00143 https://www.rscf.ru/project/18-71-00143/
Название: Иерархическое обучение с подкреплением в задаче приобретения концептуальных процедурных знаний когнитивными агентами
Руководитель проекта: Панов Александр Игоревич
Организация финансирования: Федеральный исследовательский центр «Информатика и управление» Российской академии наук
Срок выполнения при поддержке РНФ: 07.2018 — 06.2020
Обучение с подкреплением является одним из разделов машинного обучения, в котором в явном виде присутствует взаимодействие интеллектуального агента (робота) со средой и учитывается обратная связь, возникающая при совершении действий агентом. Принятая в обучении с подкреплением постановка задачи, объединяющая приобретение знаний, планирование и применение плана, наиболее естественна в области когнитивной робототехники, где предполагается, что робот обучается в процессе взаимодействия с внешней средой. Однако, классические методы решения задачи обучения с подкреплением малоэффективны при большой размерности пространства состояний внешней среды и при отложенной обратной связи, поступающей от среды с задержкой. В этом случае применяются две модификации классических методов: приближенные подходы, в которых в качестве универсальных аппроксиматоров могут использоваться, например, глубокие нейронные сети (так называемое глубокое обучение с подкреплением) и иерархическое обучение с подкреплением, в котором допускается образование более сложных операций, мета-действий или навыков, на основе элементарных изначально доступных операций. В настоящем проекте предлагается объединить эти подходы для разработки нового метода иерархического обучения с подкреплением, обладающего рядом ключевых особенностей:
а) использование понятия внутреннего пространства состояний, действия агента в котором приводят к обновлению иерархии операций,
б) чередование процедур абстрагирования действий и абстрагирования состояний внешней среды в процессе обучения,
в) использование глубоких нейронных сетей и кортикоморфных алгоритмов по приближению функций оценок качества состояний и планов (стратегий).
Новый метод, как ожидается, продемонстрирует большую эффективность в задачах высокой размерности и отложенным подкреплением от среды по сравнению с имеющимися мировыми аналогами, а также позволит эффективно реализовать перенос знаний на новые задачи из того же класса и увеличить мощность класса задач, для которых возможно применение переноса знаний.
Разработанный метод предполагается использовать для решения так называемой проблемы символизации или привязки символов, актуальной в робототехнике. Эта проблема заключается в том, что символы, которыми оперируют классические методы искусственного интеллекта (например, при планировании), не связаны с сенсорными данными, только по которым робототехническая система может судить о текущем состоянии внешней среды. Иными словами, семантика концептуальных знаний агента не связана с получаемой извне информацией. Для решения этой проблемы будут применены методы так называемой нейросимвольной обработки информации. В качестве данных о внешней среде предполагается использовать данные с сенсоров, следящих как за внешним окружением, так и за внутренними параметрами робота (агента). Формируемые в процессе обучения с подкреплением абстрактные действия и обобщенные состояния среды будут пополнять концептуальные знания робота — расширять множество понятий, над которыми агент может совершать операции вывода как с обычными символами, например, языка исчислений первого порядка, либо проводить высокоуровневое концептуальное планирование. В качестве промежуточного способа представления знаний будет использована модель каузальных сетей, разрабатываемая руководителем проекта. Для практической проверки предлагаемых методов и подходов в процессе реализации проекта предполагается проведение как модельных экспериментов в среде моделирования Gazebo, так и натурных испытаний на подвижной робототехнической платформе с манипулятором Nexus c2-c.
В ходе работ по первому этапу проекта был разработан новый алгоритм иерархического обучения с подкреплением, включающий процедуру абстрагирования действий и абстрагирования состояний внешней среды в процессе обучения. Особое внимание было уделено автоматическому формированию иерархии действий. В качестве основы был использован метод абстрактных автоматов, который хорошо подходит для робототехнических задач. Для автоматического формирования иерархии было введено понятие внутренней среды, действия в которой приводят к изменению иерархии. Для определения подцелей была использована концепция «узких мест», которые являются состояниями среды, обязательными для посещения. Для определения таких подцелей была предложена новая метрика. В построенном алгоритме CHAMs используется идея функциональной кластеризации, которая предполагает, что каждая подцель должна соответствовать своему классу состояний. В CHAMs происходит одновременное определение кластеров и построение общего абстрактного автомата, который объединяет вспомогательные, необходимые для решения частных подзадач.
В направлении аппроксимационных подходов на приближенных к реальным робототехническим условиям средах была продемонстрирована эффективность использования аппроксиматоров на базе глубоких нейронных сетей в комбинации с иерархическим подходом. Было показано, что существует возможность дообучения, работающая за счёт того, что полученные знания о мета-действиях не зависят от конкретных условий задачи и применимы для всего класса таких задач. Было продемонстрировано, что в схожих архитектурах аппроксиматоров, используемых для обучения мета-действий, нижние слои моделей могут быть объединены. Реализация этой идеи привела к созданию прототипа единого нейросетевого аппроксиматора, который позволяет определять количество необходимых мета-действий динамически и проводить обучение всем стратегиям и подстратегиям в едином цикле.
В ходе работ по проекту были разработаны новые модельные среды, приближённые к реальным робототехническим задачам. Данные, используемые агентом в решаемых задачах, представляют собой в первую очередь набор сенсорных данных, определяющих состояние внешней среды. В первой среде манипулятор с магнитом производит действия над металлическими кубиками, а вторая предложенная среда предназначена для имитации движения беспилотного транспортного средства на перекрёстке равнозначных дорог. Были получены результаты сравнительных экспериментов разработанных методов и подходов в предложенных средах, продемонстрировавших превосходство разработанных алгоритмов по сравнению с существующими аналогами.
1. Градсков А. А., Панов А. И. Капсульные графы вычислений в задаче обучения с подкреплением // Восьмая Международная конференция «Системный анализ и информационные технологии» САИТ-2019 (8-14 июля 2019 г., Иркутск, Россия): Труды конференции (год публикации — 2019).
2. Панов А. И., Кузьмин В. Hierarchical Reinforcement Learning with Options and United Neural Network Approximation // Proceedings of the Third International Scientific Conference “Intelligent Information Technologies for Industry” (IITI’18), p. 453-462 (год публикации — 2018).
3. Шикунов М. А., Панов А. И. Hierarchical Reinforcement Learning Approach for the Road Intersection Task // Biologically Inspired Cognitive Architectures 2019 (год публикации — 2019).
Были проведены работы по расширению существующих и разработанных на первом этапе проекта иерархических методов обучения с подкреплением путём добавления биологически правдоподобных методов обучения и кортикоморфных архитектур нейронных сетей. Были предложены две реализации таких моделей, которые могут выступать универсальными аппроксиматорами параметризованных функций полезности и стратегии агента. Первая модель использует понятие капсулы, являющейся расширением модели сверточного слоя глубоких нейронных сетей, в которой признаки объектов представляются не скалярными значениями, а векторами, содержащими характеристики выделяемых объектов из входных данных. Капсульные слои позволяют динамически формировать множество значимых признаков в задачах распознавания и классификации и показывают некоторое преимущество в задачах обучения с подкреплением, но предложенная нами реализация требует существенно больше вычислительных ресурсов для достижения необходимых результатов по сравнению с классическими подходами.
Более перспективный с точки зрения производительности подход на базе иерархической временной памяти был нами реализован в задаче классификации изображения, где за передвижение фокуса внимания отвечает один из вариантов обучения с подкреплением. Иерархическая временная память предназначена для поиска и распознавания частых последовательностей во входных данных, а также для прогнозирования последующих значений входных сигналов. Способность такого аппроксиматора более эффективно обобщать пространственные признаки и выделять причинно-следственные связи показала свою эффективность, и предложенная нами модель обучения продемонстрировала возможность воспроизводить оптимальные паттерны движения. Была усовершенствована модель каузальных сетей с целью построения механизма добавления новых узлов, представляющих как обобщённые состояния среды, так и обобщённые мета-операции. Базовым элементов узлов каузальных сетей является каузальная матрица. Структура каузальной матрицы позволяет единым образом кодировать как статическую информацию и признаки объекта, так и динамические процессы. Встроенная возможность задания причин и эффектов позволяет кодировать базовое отношение, выделяемое по данным о внешней среде — причинно-следственное. Формирование иерархической структуры действий и мета-действий в результаты работы иерархических методов обучения с подкреплением позволяет автоматически формировать процедурные каузальные матрицы и таким образом пополнять узлы каузальной сети.
Существовавшая ранее модель каузальных сетей была развита с целью построения механизма модификации сетей по результатам обучения с подкреплением и получила название акторная каузальная сеть. Алгоритм пополнения сети на базе модели актор-критика состоит из двух базовых шагов: оценка действий и мета-действий (действий более высокого уровня иерархии) и улучшение стратегии. В настоящей реализации используются параметризованные функции аппроксимации, в роли которых могут выступать кортикоморфные модели.
Было проведено экспериментальное исследование алгоритмов обучения с подкреплением, способных работать с непрерывным множеством действий, с использованием одной из разработанных ранее или других симуляционных сред. Развитые в настоящем проекте иерархически идеи были применены в сложной задаче обучения поведения агента в среде Minecraft, где агенту ставится цель по сбору ресурсов и конструированию новых предметов. Данная среда считается одной из самых сложных для алгоритмов обучения с подкреплением, т. к. агенту поступает только визуальная информация, в среде много различных подцелей, а пространство действий является гибридным — в нём сочетаются как дискретные, так и непрерывные действия. Для повышения эффективности работы агента использовались экспертные демонстрации, которые могут быть неэффективными и зашумлёнными с точки зрения достижения определенных подцелей. В рамках проекта были предложены различные механизмы извлечения данных из экспертных демонстраций и организации иерархической памяти агента, соответствующей иерархии подцелей в среде. Участники проекта предложили решение на базе разработанных в проекте методов и подходов, которое на международном соревновании MineRL заняло первое место при решении агентом комплексной задачи по добыче ресурсов в среде Minecraft. Проведение данных экспериментов призвано расширить область применения методов обучения с подкреплением, в том числе иерархических, в перспективе их использования на реальных робототехнических задачах.
1. Скрынник А., Староверов А., Айтыгулов Э., Аксенов К., Давыдов В., Панов А. И. Hierarchical Deep Q-Network from Imperfect Demonstrations in Minecraft // Cognitive Systems Research, vol. 65, p. 74-78 (год публикации — 2021).
2. Скрынник А. А., Панов А. И. Hierarchical Reinforcement Learning with Clustering Abstract Machines // Artificial Intelligence. RCAI 2019. Communications in Computer and Information Science, vol.1093, pp.30-43 (год публикации — 2019).
3. Юдин Д. А., Скрынник А., Криштопик А., Белкин И., Панов А. И. Object Detection with Deep Neural Networks for Reinforcement Learning in the Task of Autonomous Vehicles Path Planning at the Intersection // Optical Memory and Neural Networks, Vol. 28, No.4, Pp. 283-295 (год публикации — 2019).
4. Юнес А., Панов А. И. Toward Faster Reinforcement Learning for Robotics: Using Gaussian Processes // RAAI Summer School 2019. Lecture Notes in Computer Science, vol. 11866, pp.160-174 (год публикации — 2019).
5. Скрынник А., Староверов А., Айтыгулов Э., Аксёнов К., Панов А. И. Hierarchical Deep Q-Network from Imperfaect Demonstrations in Minecraft // ArXiv, NeurIPS 2019 Competition Track (год публикации — 2019).