В рамках обучения с подкреплением существует множество методов, в которых агент учится выполнять различные задания. Например, такой подход может быть востребован в обучении универсального агента, способного решать широкий спектр задач, или специализированного агента, который обучается конкретному навыку. Применение расписания обучения для определения порядка изучения заданий помогает повысить производительность и эффективность процесса обучения агента. При изучении таких методов важным для обучения и тестирования является правильный выбор сред. В нашей статье представлен обзор сред, подходящих для оценки различных методов, и выделены их ключевые различия. Подробно описаны компоненты заданий и классификация существующих методов на основе расписания обучения. Мы предоставляем исследователям необходимую информацию о выборе и использовании сред для анализа и создания методов на основе расписания обучения.
DOI: 10.31857/S2686954324700619
DOI: 10.1134/S1064562424602099
Скачать статью (PDF) или читать онлайн на Springer Nature (англ.): https://link.springer.com/article/10.1134/S1064562424602099
Math-Net.Ru: https://www.mathnet.ru/rus/danma604
ResearchGate: https://www.researchgate.net/publication/390095340_Environments_for_Automatic_Curriculum_Learning_A_Short_Survey
Nesterova, M. I., Skrynnik, A. A., Panov, A. I. Environments for Automatic Curriculum Learning: A Short Survey // Doklady Mathematics, 2024, Volume 110, Issue suppl. 1, Pages S223–S229.