Большие языковые модели (LLM) на основе GPT продемонстрировали успех в понимании естественного языка, однако они часто не справляются с простыми задачами по принятию решений в робототехнических системах из-за проблем с несогласованностью данных во время обучения и данных с сенсоров робота. Напротив, обучение с подкреплением (RL) изучает стратегии агентов с нуля методом проб и ошибок в средах, что гарантирует, что агенты RL хорошо согласованы со средой. В докладе мы разберем использование методов RL для трансформерных моделей, особенности их применения к робототехническим задачам, и представим способ обучения, используя как онлайн, так и оффлайн подходы.
Староверов А. В. Онлайн и оффлайн обучение с подкреплением для генерации и оценки робототехнических действий на основе GPT моделей // ROS Meetup 2024 (Москва, 27–28 апреля 2024 г.).