ROS Meetup 2024. Part 2: Kirill Muravyov on TopoSLAM & OpenPlaceRecognition, Aleksei Staroverov on PlanFormer, Dmitry Makarov on Isaac Sim & Husky

Продолжаем обзор апрельской конференции по робототехнике ROS Meetup 2023. В первой части мы прошлись по темам панельной дискуссии, во второй расскажем о научных трудах, в подготовке которых не последнюю скрипку сыграли сотрудники 71 отдела Института проблем искусственного интеллекта ФИЦ ИУ РАН. Больше всех наделал шуму анонс OpenPlaceRecognition: открытой библиотеки мультимодального распознавания места для роботов и беспилотных автомобилей (ссылка) объединённой команды Физтеха в составе Кирилла Муравьёва, Дмитрия Юдина, Сергея Линока и Александра Мелехина. Над проектом с 2022 года трудятся более 10 человек при поддержке Фонда содействия инновациям.

Во вводной части Дмитрий поведал о задаче визуального распознавания места (VPR) и способах её решения в зависимости от типа данных с сенсоров. Обучение происходит на датасетах — правда, довольно однообразных, авторы даже собрали свой датасет ITLP-Campus, чтобы иметь возможность наблюдать за объектом с разных сторон (т. н. viewpoint diversity). Сергей же прямо перешёл к устройству библиотеки, показав репозиторий, функции потерь, алгоритмы обучения и пайплайны. Среди её уникальных особенностей он отметил работу с ArUco маркерами, текстовые модальности, семантические особенности, внедрённые в place recognition (распознавание мест) в двух различных режимах, а также оптимизацию позы и иерархическую локализацию. Кроме того, в ближайшее время Сергей пообещал добавить собственный мультисенсорный метод распознавания мест картиночных и семантических текстов, что позволит скомбинировать из них дискрипторы.

После чего передал микрофон Кириллу для презентации топологического SLAM (TopoSLAM) — метода одновременного картирования и локализации с распознаванием места. К его преимуществам он отнёс экономию памяти и быстрое планирование пути, интуитивно понятную локализацию и устойчивость к накоплению ошибок одометрии при наличии place recognition. На вход подаётся локальное облако точек и данные одометрии, а на выходе получается граф локаций. TopoSLAM состоит из модуля оформления графа и модуля локализации, где как раз задействована библиотека OpenPlaceRecognition. Найденные ей вершины графа, близкие к роботу, дополнительно фильтруются алгоритмом сопоставления сканов (Scan Matching) с помощью 2D-проекции облаков точек.

Это позволяет отсечь ложные совпадения (например, визуально похожие коридоры в разных частях сцены) и определить позицию распознанной точки относительно робота при помощи ROS-узла TopoSLAMNode, который взаимодействует с PlaceRecognitionNode. Эксперименты проводились на симуляторе Habitat и вышеупомянутом датасете ITLP-Campus: данные для него собирал знакомый нам не понаслышке Хаски, разъезжая туда-обратно по коридорам МФТИ, после чего была построена соответствующая карта. Следующим шагом станет интеграция методов оптимизации позы и реализация алгоритмов иерархической локализации, но уже на данном этапе проект вызвал живейший интерес у зрителей, ребят ещё 10 минут не желали никуда отпускать, а ведущий Алексей Бурков уговорил их провести отдельный воркшоп.

Другой докладчик, Алексей Староверов, погрузил слушателей в «Онлайн и оффлайн обучение с подкреплением для генерации и оценки робототехнических действий на основе GPT моделей» (ссылка). Он подробно описал четыре направления применения больших (LLM) и визуально-языковых моделей (VLM) в RL: это симулятор (enviroment), расширение пространства наблюдения (state), использование GPT-подобной архитектуры в качестве стратегии (policy) и оценка вознаграждения агента (reward), когда предобученные языковые модели выступают в роли критика либо интеграции в управление с прогнозирующими моделями (MPC) в виде кода.

После чего приступил непосредственно к рассказу о PlanFormer — подходу для процедурно-генерируемой среды GenSim, над которым колдует в текущий момент (ранее в репортаже с AIJ 2023 мы уже писали о нём). В качестве офлайн-метода исследователи применили ArCHer, поделивший обучение актора и критика на два уровня, а после совместили их в единой архитектуре, чтобы одновременно предсказывать и действие, которое должна выполнить модель, и функции Q и V. В итоге на зашумлённых данных удалось не только «перебить» метод клонирования поведения, но и улучшить результаты с помощью дообучения модели в онлайне!

Наконец, Дмитрий Макаров поделился опытом применения Nvidia Isaac Sim для моделирования робототехнических систем (на примере управления мобильным манипулятором) (ссылка) на радость всем любителям технологии. Для затравки он перечислил безусловные плюсы open-source 3D симулятора: высокую детализацию и реалистичность, поддержку формата USD, различных типов представления и объектов для моделирования, редактор для создания сцен, подсистему графического программирования Action Graph и, разумеется, интерфейс для работы с узлами ROS. Из минусов он выделил большие требования к «железу» и плохую документацию.

Далее Дмитрий перешёл к управлению манипулятором, патентованному набору инструментов быстрой генерации движения и созданию плавных траекторий Riemannian Motion Policy, ну и, собственно, к установке для экспериментов в лице — кого бы вы думали? Да, старого-доброго Хаски с водружённой на него роборукой! Были продемонстрированы блоки системы управления и видео системы в действии, с примерами проезда узкого проёма, разворота и обнаружения предметов. В презентации нашли отражение результаты испытаний целого коллектива учёных, включая Кирилла Муравьёва, Александра Панова, Константина Яковлева и других, о чём Дмитрий также не забыл упомянуть под конец.

Атмосфера дружбы вообще царила на конференции, её не испортили ни проблемы с онлайн-трансляцией, ни традиционные угрозы организаторов тем, кто прогуливает встречи, чтобы не ждали записей раньше, чем через полгода. Тем более, далеко не факт, что эта ROS Meetup — последняя в 2024 году. Февральские записи, кстати, уже доступны на официальном канале. Ну и наши репортажи никуда не денутся.

Cсылки по теме:

первая часть на сайте ИПИИ

сайт конференции ROS Meetup