Обучение с подкреплением с использованием сетевых векторно-символьных представлений в задаче интеллектуальной навигации когнитивных агентов

Описание

Грант РНФ № 20-71-10116 https://rscf.ru/project/20-71-10116/

Название: Обучение с подкреплением с использованием сетевых векторно-символьных представлений в задаче интеллектуальной навигации когнитивных агентов

Руководитель проекта: Панов Александр Игоревич

Организация финансирования: Федеральный исследовательский центр «Информатика и управление» Российской академии наук

Аннотация

Одной из фундаментальных проблем в области искусственного интеллекта является проблема построения общих универсальных интеллектуальных систем управления поведением как программных, так и робототехнических агентов. К основным результатам в этой области можно отнести ряд когнитивных архитектур (ACT-R, Soar и др.), использующих модели когнитивной психологии при построении подсистем памяти и использования знаний; интеллектуальные динамические системы, основанные на правилах; программные пакеты по автоматизации ряда задач управления мобильными робототехническими платформами и беспилотными транспортом (ROS, Apollo и др.); архитектуры агентов, взаимодействующих с игровой средой, на основе методов обучения с подкреплением и другие; системы общего искусственного интеллекта (AGI, AIXI, OpenCog и др.), предлагающих различные варианты системной интеграции имеющихся методов представления знаний и подсистем вывода на их основе.

Однако, несмотря на большое количество предложенных концепций и методов, синтез сложного поведения в широком спектре динамических сред с учетом взаимодействия с активными участниками совместной деятельности до сих пор является нерешенной задачей. К основным фундаментальным барьерам на данном пути необходимо отнести проблему интеграции субсимвольных (в том числе нейросетевых) методов приобретения и обработки первичной информации, получаемой от среды (сенсорных данных), и символьных методов представления концептуальных знаний и вывода на их основе (моделирование рассуждений и планирование поведения). В зарубежной литературе эта проблема известна как проблема привязки символов (symbol grounding problem).

Настоящий проект посвящен разработке новых методов и алгоритмов, позволяющих продвинутся в решении этой фундаментальной научной проблемы в контексте синтеза и управления поведением когнитивного агента в задаче интеллектуальной навигации. Разрабатываемый подход к нейросимвольной интеграции позволит включить в общую систему управления ключевую подсистему пополнения концептуальных знаний и использование результатов рассуждений и планирования в решении таких важнейших базовых поведенческих задач в робототехнике, как картирование, локализация и передвижение в сложной человеко-ориентированной среде. Актуальность решения обозначенной проблемы заключается в том, что в конечном счете данная подсистема позволит существенно повысить степень автономности как программных, так и робототехнических агентов. При проведении научно-исследовательских и конструкторских работ на основе разрабатываемых методов и технологий возможно получение новых программных пакетов в составе робототехнических операционных систем, используемых в бытовых, промышленных роботах, беспилотных летательных аппаратах, автономном транспорте и других мобильных робототехнических системах, автономно работающих в сложных динамических условиях.

Ожидаемые результаты

1. Будут разработаны новые методы и алгоритмы, направленные на решение проблемы привязки символов в контексте задачи приобретения знаний и синтеза действий по перемещению в сложной человеко-ориентированной среде. Ранее интеграция субсимвольных нейросетевых методов машинного обучения и символьных методов моделирования рассуждений и планирования применительно к задачи картирования, локализации и перемещения в сложной динамической среде не проводилась. Имеющиеся подходы для данной задачи, в том числе на основе обучения с подкреплением, не используют возможности пополнения пространственных знаний за счет рассуждений во многом в связи с тем, что имеющиеся методы нейросимвольных вычислений плохо адаптированы к робототехническми задачам. Новый подход к нейросимвольной интеграции, который предполагается развить в настоящем проекте, будет опираться на расширение разрабатываемой участниками проекта каузальной семиотической сети за счет использования высокоразмерных векторно-символьных распределенных представлений для моделирования образной компоненты знаний агента. Это позволит создать эффективный метод пополнения пространственных знаний, применимый в задаче интеллектуальной навигаци.

2. С целью применения разрабатываемых методов в реальных робототехнических системах будут созданы новые быстрые нейросетевые методы восстановления сцены и карты местности и локализации на ней с возможностью сегментации объектов и препятствий. Получаемая данным модулем компьютерного зрения информация будет использоваться для генерации распределенных представлений образной компоненты знаний агента. Будут предложены программные реализации разрабатываемых алгоритмов на энергоэффективных встраиваемых вычислительных комплексах, применяемых в робототехнике. В настоящее время методы одновременного картирования и локализации (SLAM), позволяющие с достаточной точностью поддерживают не всегда достаточную скорость работы на встраиваемых системах. В настоящем проекте предполагается повышать эффективность методов SLAM за счет использования в том числе комплексирования разных модальностей сенсорных данных на базе распределенных представлений.

3. Будут предложены новые методы рассуждения и вывода на основе пространственных знаний, представленных с помощью распределенных представлений каузальной семиотической сети. Пополнение представления о текущей карте и сцене позволит повысить эффективность методов планирования поведения агентом. Ранее пространственные рассуждения на основе распределенных представлений не развивались.

4. Будет разработан новый алгоритм иерархического обучения с подкреплением, использующий подсистему генерации подцелей, обеспечивающий эффективное исследование и перемещение к целевой области в сложной динамической среде. Возможность эффективнее исследовать ранее неизвестную среду существенно улучшит возможности агента по построению карты и локализации в ранее не наблюдаемой динамической среде. Создание данных методов с использованием машинного обучения, в том числе с подкреплением, является актуальной нерешенной задачей в области когнитивной робототехники.

5. Будет реализовано экспериментальное программное обеспечение, тестирующее все основные методы и алгоритмы, которые будут разработаны в настоящем проекте. Будет проведена экспериментальная проверка эффективности и работоспособности предложенных подходов для когнитивных агентов, работающих как в симуляционных средах (NVIDIA Isaak, V-REP, Habitat), так и на реальных робототехнических платформах (серии МПРМ Зарница, Clearpath Husky). Разрабатываемое программное обеспечение может быть использовано в качестве важной подсистемы в таких программных продуктах, как Robotic Operation System (ROS) или Apollo, которые применяются в настоящее время в качестве промышленных стандартов для построения систем управления автономными мобильными робототехническими платформами и беспилотным транспортом.