Трансформерные модели показывают выдающиеся результаты в роботизированной манипуляции, используя для этого обучение на больших оффлайн наборах данных, но нуждаются в онлайн-дообучении для повышения надёжности стратегии. В этом исследовании сравниваются способы совместить онлайн и оффлайн методы для повышения эффективности обучения. Эксперименты показывают, что оффлайн-предобучение при помощи RL достигает целевой производительности на 32% быстрее, что подчеркивает его потенциал для снижения размера выборки при сохранении преимуществ трансформерных моделей для роботизированного управления. Исходный код доступен по адресу https://gitlab.com/cogmod_mr/isaaclab_mod.
Read the article (PDF) from the conference proceedings at the RAAI website (in Russian): https://raai.org/nextcloud/s/gTqjCaGnw6ZJ3zr?dir=undefined&openfile=8198
Read the second volume of the conference proceedings (PDF) at the RAAI website (in Russian): https://raai.org/nextcloud/s/gTqjCaGnw6ZJ3zr?dir=undefined&openfile=9299
Watch the video presentation in the RAAI archive in Russian (08102025): https://raai.org/conference/34
Поярков Д. И., Староверов А. В., Панов А. И. Переход с оффлайн на онлайн обучение с подкреплением трансформерных моделей для робототехнической манипуляции // Двадцать вторая Национальная конференция по искусственному интеллекту с международным участием, КИИ-2025 (Санкт-Петербург, 6–10 октября 2025 г.). Труды конференции. В 3-х томах. Т. 2. — СПб: Изд-во СПб ФИЦ РАН, 2025. — С. 216–227.