Формирование умений агента по принципу достижимости в обучении с подкреплением

Авторы

Панов А. И.

Аннотация

В работе рассматривается способ формирования набора умений агента без использования информации о поставленной перед ним цели. В обучении с подкреплением подобные способы относят к методам внутренней мотивации. Предложенный в настоящей работе алгоритм берет за основу вычисление взаимной информации между действиями агента и его состояниями. Такой подход позволяет конструировать умения, приводящие к наиболее равномерному достижению возможных состояний. В работе представлены формируемые алгоритмом умения на примере непрерывного управления движением агента. Проанализирована применимость получаемых умений для решения задач обучения с подкреплением.

Внешние ссылки

РИНЦ: https://www.elibrary.ru/item.asp?id=56574838

Ссылка при цитировании

Латышев А. К., Панов А. И. Формирование умений агента по принципу достижимости в обучении с подкреплением // XXI Национальная конференция по искусственному интеллекту с международным участием (КИИ-2023). Труды конференции. В 2-х томах. Т.1. – Смоленск: Принт-Экспресс, 2023. – С. 264–274.