Постановка проблемы. Случайные леса деревьев решений с одномерными разделителями широко используются для обработки данных и текстов, однако они ограниченно применимы для анализа многомерных разреженных данных. Вместе с тем обработка подобных выборок имеет большую практическую значимость. Например, определение вегетационных индексов почв на основе изображений, полученных средствами дистанционного зондирования Земли, позволяет повысить эффективность управления сельскохозяйственными предприятиями. Одним из подходов к решению этой проблемы является построение лесов деревьев решений с многомерными линейными или нелинейными разделителями. Время обучения таких ансамблей на данных большого объема существенно превосходит время построения лесов деревьев решений с одномерными разделителями. Кроме того, для построения различных видов разделителей требуются разные вычислительные ресурсы: если линейный разделитель может быть построен с использованием центральных процессоров, то для обучения нелинейных разделителей необходимо задействование графических ускорителей. Цель. Разработать распределенную архитектуру системы построения случайных лесов деревьев решений, в которой отдельные разделители обучаются параллельно, что позволяет снизить простой аппаратных ресурсов и назначать задания на обучение различным видам вычислительных узлов в зависимости от типа разделителя, а также динамически масштабировать состав вычислительных узлов системы в зависимости от нагрузки. Результаты. Экспериментально исследована система обучения деревьев решений, основанная на предложенной архитектуре. Показано, что она позволяет значительно снизить машинное время, необходимое для обучения лесов на массивах данных большой размерности. Практическая значимость. Представленная архитектура может использоваться в качестве основы при создании прикладных систем анализа данных и изображений большой размерности, предназначенных для применения в различных отраслях экономики: сельском хозяйстве, промышленности, транспорте.
Девяткин Д. А. Система распределённого построения случайных лесов деревьев решений с линейными и нелинейными разделителями // Системы высокой доступности. 2022. Т. 18. № 3. С. 59−68. DOI: https://doi.org/10.18127/j20729472-202203-05