Обучение с подкреплением с использованием модели среды является гибридным подходом, объединяющим планирование и безмодельное обучение, одним из главных преимуществ которого является высокая эффективность взаимодействия интеллектуального агента со средой при поиске оптимального поведения. Подходы, использующие модель среды, применяют её либо для дополнительного обучения стратегии на сгенерированных по модели траекториях, либо для получения более точной аппроксимации функции полезности состояний, с помощью которой оценивается полезность действий вдоль многошаговых модельных траекторий. В работе предлагается новый подход интеграции модели среды в качестве критика в архитектуры семейства акторкритик для оценки полезности действий. Эксперименты с гибридными алгоритмами, использующими модель среды с упреждающим поиском по дереву в качестве критика, на средах со сложным набором подцелей показали, что предлагаемая интеграция может ускорить обучение стратегии при определенных условиях.
DOI: 10.1134/S1054661823030379
ResearchGate: https://www.researchgate.net/publication/374220221_A_World_Model_for_Actor-Critic_in_Reinforcement_Learning
Panov, A. I., Ugadiarov, L. A. A World Model for Actor–Critic in Reinforcement Learning // Pattern Recognition and Image Analysis, 33, 467–477 (2023).