Обучение с подкреплением с использованием сетевых векторно-символьных представлений в задаче интеллектуальной навигации когнитивных агентов

Описание

Грант РНФ № 20-71-10116 https://rscf.ru/project/20-71-10116/ продлён https://rscf.ru/project/23-71-50006/

Название: Обучение с подкреплением с использованием сетевых векторно-символьных представлений в задаче интеллектуальной навигации когнитивных агентов

Руководитель проекта: Панов Александр Игоревич

Организация финансирования: Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Срок выполнения при поддержке РНФ: 07.2020 — 06.2023. Продлён: 07.2023 — 06.2025.

Аннотация

Одной из фундаментальных проблем в области искусственного интеллекта является проблема построения общих универсальных интеллектуальных систем управления поведением как программных, так и робототехнических агентов. К основным результатам в этой области можно отнести ряд когнитивных архитектур (ACT-R, Soar и др.), использующих модели когнитивной психологии при построении подсистем памяти и использования знаний; интеллектуальные динамические системы, основанные на правилах; программные пакеты по автоматизации ряда задач управления мобильными робототехническими платформами и беспилотными транспортом (ROS, Apollo и др.); архитектуры агентов, взаимодействующих с игровой средой, на основе методов обучения с подкреплением и другие; системы общего искусственного интеллекта (AGI, AIXI, OpenCog и др.), предлагающих различные варианты системной интеграции имеющихся методов представления знаний и подсистем вывода на их основе.

Однако, несмотря на большое количество предложенных концепций и методов, синтез сложного поведения в широком спектре динамических сред с учетом взаимодействия с активными участниками совместной деятельности до сих пор является нерешенной задачей. К основным фундаментальным барьерам на данном пути необходимо отнести проблему интеграции субсимвольных (в том числе нейросетевых) методов приобретения и обработки первичной информации, получаемой от среды (сенсорных данных), и символьных методов представления концептуальных знаний и вывода на их основе (моделирование рассуждений и планирование поведения). В зарубежной литературе эта проблема известна как проблема привязки символов (symbol grounding problem).

Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении этой фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента в задаче интеллектуальной навигации. Разрабатываемый подход к нейросимвольной интеграции позволит включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. Актуальность решения обозначенной проблемы заключается в том, что в конечном счете данная подсистема позволит существенно повысить степень автономности как программных, так и робототехнических агентов. При проведении научно-исследовательских и конструкторских работ на основе разрабатываемых методов и технологий возможно получение новых программных пакетов в составе робототехнических операционных систем, используемых в бытовых, промышленных роботах, беспилотных летательных аппаратах, автономном транспорте и других мобильных робототехнических системах, автономно работающих в сложных динамических условиях.

Дополнение от июля 2023 года

Данный проект, как логичное продолжение предыдущего этапа, посвящен проблеме привязки символов в робототехнике и разработке эффективных нейросимвольных методов в обучении с подкреплением для решения различных подзадач, связанных с задачей навигации внутри помещений по RGB-D камерам. Несмотря на полученные ранее результаты, проблему привязки символов считать решенной в настоящее время нельзя. Данная тематика остается актуальной и продолжает привлекать внимание исследователей. За последний год методы нейросимвольной интеграции получили развитие с появлением новых больших трансформерных моделей, показавших впечатляющие результаты в задачах анализа естественного языка. Появилось большое количество работ, которые использовали предобученные модели для планирования поведения агентов (виртуальных и робототехнических) для выполнения инструкций на естественном языке. Показало свою перспективность использование таких моделей как больших экспертных баз, хранящих знания общего назначения и позволяющих извлекать последовательности высокоуровневых действий, которые могут быть адаптированы для выполнения агентом в среде. Продолжение исследований в этом направлении в сторону применения предобученных мультимодальных архитектур даст новый толчок к исследованию проблемы привязки символов (выраженных в естественном языке) к сенсорным данным, которые получает агент из внешней среды. Также остается актуальной и важная в робототехнике задача навигации внутри помещений с использованием RGB-D камер как с использованием языковых инструкций, так и с более простыми целевыми объектными метками. Лучшие метрики длины планов и времени решения до сих остаются существенно ниже тех, которые в подобных задачах демонстрирует человек. Развиваемые в данном проекте методы позволят получить более качественные решения в данном направлении.

В ходе выполнения работ по проекту планируется получить следующие результаты. Будет разработан новый метод обучения с подкреплением на основе объектно-центричной модели среды. Будет предложен новый метод обучения распутанным представлениям, которые могут быть использованы для повышения эффективности объектно-центричных моделей мира в обучении с подкреплением. Будет разработан новый алгоритм построения трехмерной карты внешней среды интеллектуальным агентом с использованием расширенных дифференцируемых векторных представлений. Будет создан новый алгоритм точной сегментации объектов по их текстовому описанию на основе трансформерных нейросетевых архитектур, пригодный для обучения расширенных дифференцируемых векторных представлений. Будет составлен новый набор данных для тестирования алгоритмов построения трехмерных карт, основанных на расширенных дифференцируемых векторных представлениях, в задачах навигации интеллектуальных агентов и роботов внутри помещений. Будет предложен новый алгоритм использования и обновления расширенных дифференцируемых представлений сцены в реальном времени для навигации мобильных роботов и интеллектуальных агентов. Будет создан оригинальный метод обучения с подкреплением, использующий расширенные дифференцируемые представления сцены, для обучения в задаче навигации до объектов в незнакомых помещениях. Будет предложен новый метод перепланирования последовательности действий с использованием больших языковых моделей и объектно-центричного распутанного представления сенсорной ситуации.

Ожидаемые результаты, в том числе разработка более эффективных методов представления сенсорной информации, используемой в алгоритмах обучения с подкреплением и планирования поведения, позволят усовершенствовать системы управления робототехническими системами. Устойчивые к шумам и непредсказуемой динамике внешней среды системы управления помогут существенно расширить спектр применения робототехнических комплексов в различных отраслях промышленности и в социальной сфере.

Аннотация результатов, полученных в 2020 году

В рамках работ на первом этапе данного проекта были получены следующие результаты. Было предложено оригинальное решение проблемы привязки символов к семиотической точке зрения, использующее знаковую когнитивную архитектуру (SBWM) для иерархического представления сцен и векторные символьные архитектуры (VSA) в качестве вычислительного и репрезентативного инструмента. Архитектура SBWM позволяет привязать символы, участвующие в описании сцены, к сенсорному вводу агента, а VSA позволяет работать с этими символами как с числовыми векторами. Свойства предложенного подхода, в т. ч. его корректностные и ёмкостные параметры, были продемонстрированы при решении задачи ответа на вопросы по изображению (VQA). Была продемонстрирована его высокая производительность на наборе данных CLEVR.

В ходе проекта разработан оригинальный подход к пространственно-временной агрегации карт признаков на разных временных шагах вывода глубокой нейросетевой модели (названный потоком карт признаков, feature map flow, FMF). Исследовано несколько версий FMF: от общей конкатенации до слияния контекстной карты признаков и использования одометрии для предыдущего аффинного преобразования карты признаков. Разработанный метод FMFNet на основе обнаружения признаков для точек центра объектов показал лучшую производительность на наборе данных nuScenes как для 3D-обнаружения, так и для отслеживания. По направлению работ в области иерархического обучения с подкреплением был предложен новый подход, применимый в задаче навигации на основе датчиков RGB-D и одометрии. Предложенный метод LPPO использует иерархический подход для повышения качества нахождения объектов интереса в сценах с большим геодезическим расстоянием и выделения промежуточных целей, ключевых точек, из экспертных траекторий. Данный метод позволил использовать уже обученную модель с высокими показателями на сценах с малым геодезическим расстоянием и не обучать сложную глобальную стратегию выделения подцелей. Построенная модель работает с высокими показателями успеха на различных сценах Matterport, показывая наилучший результат среди аналогичных алгоритмов.

На следующем этапе проекта будут расширены возможности создаваемых методов за счёт гибридизации векторных представлений описания сцен, а разрабатываемые модули будут использоваться для построения более эффективной системы по навигации мобильных роботов в помещениях.

Публикации:

1. Давыдов В., Люсько Т., Панов А. И. Self and Other Modelling in Cooperative Resource Gathering with Multi-Agent Reinforcement Learning // Brain-Inspired Cognitive Architectures for Artificial Intelligence: BICA*AI 2020. Advances in Intelligent Systems and Computing, Vol.1310. (ссылка)

2. Скрынник А. А., Староверов А. В., Айтыгулов Э. Э., Аксёнов К. А., Давыдов В. Д., Панов А. И. Forgetful experience replay in hierarchical reinforcement learning from expert demonstrations // Knowledge-Based Systems, Vol. 218, 106844. (ссылка)

3. Староверов А., Юдин Д. А., Белкин И., Соломенцев Я. К., Панов А. И. Real-Time Object Navigation with Deep Neural Networks and Hierarchical Reinforcement Learning // IEEE Access, Vol. 8, pp. 195608-195621. (ссылка)

Аннотация результатов, полученных в 2021 году

В продолжении работы на втором этапе был подготовлен новый набор данных HISNav VQA, направленный на разработку мультимодальных моделей для визуальной навигации в средах, ориентированных на человека. На данном наборе данных была продемонстрирована работа векторно-семиотической архитектуры, он показал свою эффективность на синтетических вопросах. Это дает возможность создавать вопросы, специфичные для конкретной области, с высокой вероятностью получения правильного ответа, что имеет решающее значение для прикладных задач в области интеллектуальных воплощённых ассистентов.

Был разработан новый двухэтапный векторно-символьный подход (алгоритм TSVLoc) для построения семантического представления сцены на основе семантических карт и карт глубины. Эксперименты показали, что метод семантического поиска изображений TSVLoc значительно превосходит предыдущие методы, основанные на популярных моделях нейронных сетей HF-Net, NetVLAD и Patch-NetVLAD.

Был разработан алгоритм построения карты мобильного робота на основе объединения данных камеры и лидара мобильных роботов, в том числе результатов обнаружения и сегментации объектов среды. Для решения задачи глобальной локализации мобильного робота был предложен новый метод единого векторного представления изображения камеры и лидарного скана, сочетающий в себе достоинства мультимодального метода MinkLoc++ и нейронной сети SeqNet, формирующей единое векторное представления последовательности изображений.

В направлении развития методов обучения с подкреплением был разработан новый подход к решению задачи навигации до объекта по изображению ObjectGoal. В обновлённой формулировке задачи с использованием ориентиров была предложена новая иерархическая архитектура на базе методов обучения с подкреплением. При обучении формируются так называемые навыки, которые можно комбинировать и повторно использовать в различных навигационных ситуациях без изменений. Показатель успеха предложенного метода удваивается с 20% для современных методов до 46% с предобученным модулем сегментации объектов.

Публикации:

1. Айтыгулов Э., Панов А. И. Transfer Learning with Demonstration Forgetting for Robotic Manipulator // Procedia Computer Science, Vol. 186, p. 374-380. (ссылка)

2. Боковой А., Муравьев К. Assessment of Map Construction in vSLAM // 2021 International Siberian Conference on Control and Communications (SIBCON), pp. 1-6. (ссылка)

3. Жолус А., Панов А. И. Case-based Task Generalization in Model-based Reinforcement Learning // Artificial General Intelligence. AGI 2021. Lecture Notes in Computer Science, Vol. 13154, p. 344-354. (ссылка)

4. Ковалёв А. К., Шабан М., Осипов Е., Панов А. И. Vector Semiotic Model for Visual Question Answering // Cognitive Systems Research, Vol. 71, p. 52-63. (ссылка)

5. Угадяров Л., Скрынник А., Панов А. И. Long-Term Exploration in Persistent MDPs // Advances in Soft Computing. MICAI 2021. Part I. Lecture Notes in Computer Science, Vol.13067, p.108-120. (ссылка)

Аннотация результатов, полученных в 2022 году

На заключительном этапе выполнения проекта особое внимание уделялось доработке предложенных на первых двух этапах методов и подходов нейросимвольной интеграции и экспериментальной проверке разработанных алгоритмов с использованием симуляционных сред и реальной робототехнической системы Husky.

В соответствии с планом работ были решены следующие задачи. Разработанный на предыдущем этапа проекта фотореалистичный набор данных HPointLoc был использован для тестирования, сравнения и выявления недостатков современных методов формирования латентных представлений в важной для робототехники задаче распознавания места. На основе этого анализа была предложена архитектура PNTR, которая может быть использована в связке со структурными латентными представлениями, в том числе нейросимвольными. Было предложено развитие метода символьных высокоразмерных латентных представлений для использования в более эффективном структурированном латентном пространстве с интерпретируемыми элементами. Данный метод был протестирован в режиме слабоконтролируемого обучения на синтетических наборах типа CLEVER и показал конкурентные результаты по сравнению с слабоинтерпретируемыми моделями. В направлении интеграции была предложена оригинальная архитектура FIQA, объединяющая в себе нейросимвольные представления и навигацию с использованием обучения с подкреплением. Она была протестирована на среде Alfred, в которой предложена оригинальная задача манипуляции с объектами и навигации по языковым командам. В направлении натурных экспериментов была продолжена экспериментальная работа с мобильной платформой Husky, в результате которой была завершена отладка методов навигации с использованием обучения с подкреплением.

Публикации:

1. Кириленко Д., Ковалев А., Соломенцев Я., Мелехин А., Юдин Д. А., Панов А. И. Vector Symbolic Scene Representation for Semantic Place Recognition // 2022 International Joint Conference on Neural Networks (IJCNN), 1–8. (ссылка)

2. Корчемный А., Ковалёв А., Панов А. И. Symbolic Disentangled Representations in Hyperdimensional Latent Space // NeSy-GeMs Workshop ICLR 2023, p. 1–17. (ссылка)

3. Панов А. И. Иерархическая постановка задачи объектно-центричного обучения с подкреплением // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов XI Международной научно-практической конференции (ИММВ-2022, Коломна, 16-19 мая 2022 г.). В 2-х томах, Т. 2, с. 248–256. (ссылка)

4. Панов А. И., Ковалёв А. К., Чуганская А. А. Большие языковые модели как аппроксиматоры значения в знаковой картине мира // Всероссийская конференция «Поспеловские чтения: искусственный интеллект — проблемы и перспективы», Поспеловские чтения-2022 (Москва, 19–20 декабря 2022 г.). Труды конференции. (ссылка)

5. Староверов А., Панов А. И. Hierarchical Landmark Policy Optimization for Visual Indoor Navigation // IEEE Access, Vol. 10, pp. 70447–70455. (ссылка).

6. Юдин Д. А., Соломенцев Я., Мусаев Р., Староверов А., Панов А. И. HPointLoc: Point-based Indoor Place Recognition using Synthetic RGB-D Images Neural Information Processing // Lecture Notes in Computer Science, Vol. 13625, pp. 471–484. (ссылка).