Задачи планирования поведения и обучения принятию решений в динамической среде в системах управления интеллектуальными агентами обычно разделяют и рассматривают отдельно. Предложена новая объединенная иерархическая постановка задачи одновременно планирования и обучения (SLAP) в контексте предметного обучения с подкреплением и описана архитектура когнитивного агента, решающего данную задачу. Предложен новый алгоритм обучения действиям в частично наблюдаемой внешней среде с использованием подкрепляющего сигнала, предметного описания состояний внешней среды и динамически обновляемых планов действий. Рассмотрены основные свойства и преимущества предложенного алгоритма, среди которых — отсутствие фиксированного когнитивного цикла, вследствие которого ранее приходилось использовать разделение подсистем планирования и обучения, возможность строить и обновлять модель взаимодействия со средой, что повышает эффективность обучения. Предложено теоретическое обоснование некоторых положений данного подхода, предложен модельный пример и продемонстрирован принцип работы SLAP агента при управлении беспилотным автомобилем.
DOI: 10.1134/S0005117922060054
На сайте издательства «Научные журналы»: https://sciencejournals.ru/view-article/?j=auttel&y=2022&v=0&n=6&a=AutTel_2206005Panov
РИНЦ: https://elibrary.ru/item.asp?id=48437593
На Math-Net.Ru (доступно через 3 года после публикации): http://mi.mathnet.ru/at15976
Панов А. И. Одновременное планирование и обучение в иерархической системе управления когнитивным агентом // Автоматика и телемеханика, № 6, 2022. — С. 53–71.