ROS Meetup 2024. Part 1. Aleksandr Panov arguing on Reinforcement learning in robotics

05.05.2024

 

Кажется, ещё совсем недавно писали о ROS Meetup 2024 (что переводится как «Место встречи сообщества операционной системы для роботов Robot Operating System»), но прошёл год, и... А нет, и в самом деле недавно. Всего 3 месяца назад Александр Панов с командой выезжали на 6-ю конференцию по робототехнике и обучению с подкреплением, а уже 27–28 апреля по приглашению «Сбера» и Алексея Буркова ворвались на 7-ю конференцию с тем же названием — ROS Meetup 2024. И на этом явно не остановятся. Пока же мероприятие растянули на два дня, собрали в два раза больше народу, а выступления обильно разбавили диспутами между приглашёнными гостями и аудиторией, «без запретов и табу».

 

Наши учёные тоже прибыли во всеоружии, привезя с собой три доклада (о них — в следующей части) и одного Александра Панова (далее А. П.) для участия в панельной дискуссии. Вместе с Евгением Пономарёвым («Сбер») и Александром Маношиным («Яндекс») он обсудил Reinforcement learning в робототехнике, пройдясь по основным болевым точкам, а кое-где сделав ещё больнее. Для удобства Алексей Бурков подготовил ряд вопросов, дополненных вопросами из зала. Например, с чем связан взрыв интереса к RL в шагающих роботах за последние годы? А. П. ответил, что особого взрыва не видит, просто сошлись три обстоятельства: новые возможности, новые роботы с красивой картинкой и человеческая лень. Люди ленятся развивать методы, расширять кругозор, им и кажется, что наступил ренессанс. Оппоненты было поспорили об активности в других областях RL, о росте качестве симуляторов, но Панов остался непреклонен: 5 лет мучений с Isaak Sim и Isaak Gym от NVidia убедили его в обратном.

 

Алексей также заострил внимание на плюсах и минусах обучения на симуляторе и на реальном роботе, но тут баталии не вышло. Спикеры, не сговариваясь, парировали как один: будущее за симуляторами. Отдавая должное отдельным моделям роботов, А. П. подчеркнул, что «симулятор даёт СВОБОДУ, да и сложно отмасштабироваться, если ты не Google с робофермой». Зрители развили тему, уточнив, а готовы ли симуляторы к чему-то более мудрёному, чем игры с кубиками? Например, к манипуляциям с мятой бутылкой? Александр усомнился, приведя в пример тот же Isaak Sim, чья физическая модель не учитывает свойства текучести, сминаемости, деформации или разрушения. Выход он усмотрел в синтезе с более реалистичными симуляторами из областей 3D-дизайна, проектирования, строительства. В дополнение другой зритель предложил вовсе заменить симуляторы моделями мира (World models). А. П. подтвердил, что подобный тренд в робототехнике существует, и тренд полезный, только точность предсказания пока оставляет желать лучшего.

 

Немало было сказано и про большие языковые модели (Large language models), и стремительный рост количества параметров с 10 до нескольких сотен миллионов в то время, как в RL по-прежнему учат на компьютере с небольшим размером видеопамяти. На что Панов доходчиво описал векторное наблюдение: малопараметрическое ядро при многопараметрической нейронной сети. То, что называется энкодером, со временем вырастает. В качестве примера он привёл трансформенный сегментатор с тысячами параметров из прошлогодней Habitat Navigation Challenge, трансформенные энкодеры типа SAM (Segment Anything Model) или т. н. жирный критик, вообще без трансформера. Другой вопрос касался PPO (Proximal policy optimization): почему алгоритм до сих пор в тренде, есть ли достойные аналоги? Александр противопоставил PPO бустингу в машинном обучении, где новые модели добились популярности благодаря большому и дружному сообществу, тогда как в обучении с подкреплением группы учёных действуют порознь. В пример он привёл OpenAI со Stable Baselines, Сергея Левайна из Google RL с его Soft Actor-Critic (SAC) и собственную лабораторию, чьи model-based подходы оставили PPO далеко позади.

 

Об альтернативах в лице имитационного обучения (Imitation learning), клонирования поведения (Behavioral cloning) и трансформеров Александр Машонин, вплотную занятый IL, отозвался тепло, а вот его тёзка назвался «скептиком», поскольку до сих пор не видит ни одного нормального инструмента переобучения, искусственные робототехнические данные в офлайн-RL годятся лишь для демонстраций, тогда как нужна точная надстройка алгоритма, дообучающегося во время трансфера. «Если RL-щики — это ленивые управленцы, не знающие теории (на взгляд самих управленцев), то имитационщики — это халявщики внутри RL-щиков». Что ему припомнили в первом же вопросе из зала о примерах успешного решения задач RL там, где классические методы потерпели неудачу. «Смогли ли лентяи (по Панову) обогнуть управленцев?».

 

Александр признал, что недавно возник класс задач, которые управленцам действительно не по зубам: управление с помощью языковых команд. И с языковой неопределённостью семантики, увы, ничего не поделать, если не считать иерархические подходы, сочетающие оба метода. Вопрос другого слушателя касался имитационного обучения в группе вышеупомянутого Сергея Левайна, в частности, её базисной модели для визуальной навигации NoMaD: можно ли доверять этим результатам? А. П. заверил, что хорошо знает NoMaD и результатам верит в силу знакомства с применяемой в ней диффузионной стратегией. Результаты коллег его порадовали, хотя это и не Imitation learning в классическом смысле, да и у диффузии хватает своих проблем, не говоря уже о крайне узком поле для применения данной архитектуры. Однако «в целом, это такой шажочек в сторону того, чтобы бороться с переобучением, чтобы повышать генерализацию». На просьбы же дать прогноз будущему RL Александр логично отослал к когнитивным проектам и исследованиям собственной лаборатории. В частности, к перспективному и не до конца изученному направлению model-based, наступающему на пятки офлайн-RL с имитационным обучением, а также к мультимодальной модели на случай, если потребуется выполнять сложные языковые операции, обучая мультимодальную стратегию в среде.

«Потрясающая дискуссия, — резюмировал Алексей Бурков, — делаем групповое фото!». А продолжение нашего репортажа с обзором докладов читайте во второй части.


Cсылки по теме:

сайт конференции ROS Meetup