При анализе текстов, изображений, структурированных данных часто приходится решать задачу моделирования дискретных процессов. Наилучшая точность решения этой задачи теоретически может быть достигнута с помощью дискретных моделей. Один из самых известных способов построения этих моделей с помощью методов машинного обучения - Random Forest. Случайный лес основан на деревьях решений с одномерными штампами решений. Эти деревья можно построить с помощью алгоритмов CART, C4.5 или ID3. Случайные леса показывают высокую точность в различных задачах интеллектуального анализа данных и текста, но их применимость ограничена в случае многомерного анализа разреженных данных. Для анализа таких данных могут быть применены деревья решений с линейными (наклонными) штампами решений; однако большинство существующих подходов к обучению таких деревьев имеют низкую вычислительную эффективность или чувствительны к значениям многих гиперпараметров. Кроме того, при обучении лесов таких деревьев на небольших наборах данных негативно сказывается переобучение. Поэтому необходимо использовать различные регуляризации, позволяющие найти компромисс между сложностью получаемых моделей и их обобщающей способностью. В статье предлагается алгоритм обучения случайных лесов деревьев решений с ядерными штампами решений (линейными, полиномиальными, гауссовыми). Построение этих штампов осуществляется путем оптимизации функции потерь, подобно той, что используется в машине опорных векторов. Таким образом, вычислительно эффективные алгоритмы, реализованные в библиотеках LibSVM, Liblinear и ThunderSVM, могут быть применены к поездным штампам. Эксперименты показывают, что регуляризованные случайные леса с штампами ядер превосходят по точности и полноте классификации случайные леса деревьев решений, а также леса наклонных деревьев, обученные другими методами.
Скачать материалы конференции (PDF) на сайте Российской ассоциации искусственного интеллекта: http://www.raai.org/resurs/papers/immv/2022/imsc2022-vol1.pdf
Девяткин Д. А. Построение случайных лесов деревьев решений с применением ядерных разделителей // Интегрированные модели и мягкие вычисления в искусственном интеллекте. Сборник научных трудов XI Международной научно-практической конференции (ИММВ-2022, Коломна, 16-19 мая 2022 г.). В 2-х томах. Т.1. – М.: РАИИ, 2022. – С. 213–223.