Трансформерные модели показывают выдающиеся результаты в роботизированной манипуляции, используя для этого обучение на больших оффлайн наборах данных, но нуждаются в онлайн-дообучении для повышения надёжности стратегии. В этом исследовании сравниваются способы совместить онлайн и оффлайн методы для повышения эффективности обучения. Эксперименты показывают, что оффлайн-предобучение при помощи RL достигает целевой производительности на 32% быстрее, что подчеркивает его потенциал для снижения размера выборки при сохранении преимуществ трансформерных моделей для роботизированного управления. Исходный код доступен по адресу https://gitlab.com/cogmod_mr/isaaclab_mod.
Читать статью в сборнике трудов конференции на сайте РАИИ (PDF): https://raai.org/nextcloud/s/gTqjCaGnw6ZJ3zr?dir=undefined&openfile=8198
Читать второй том сборника трудов конференции на сайте РАИИ (PDF): https://raai.org/nextcloud/s/gTqjCaGnw6ZJ3zr?dir=undefined&openfile=9299
Смотреть видео презентации в архиве РАИИ (08102025): https://raai.org/conference/34
Поярков Д. И., Староверов А. В., Панов А. И. Переход с оффлайн на онлайн обучение с подкреплением трансформерных моделей для робототехнической манипуляции // Двадцать вторая Национальная конференция по искусственному интеллекту с международным участием, КИИ-2025 (Санкт-Петербург, 6–10 октября 2025 г.). Труды конференции. В 3-х томах. Т. 2. — СПб: Изд-во СПб ФИЦ РАН, 2025. — С. 216–227.