Оценка информативности признаков на основе характеристики тематической значимости при классификации потока новостных сообщений

Авторы

Жебель В. В. Соченков И. В.

Аннотация

Статья посвящена оценке качества нескольких методов тематической классификации новостных сообщений. Реализовано несколько известных алгоритмов тематической рубрикации с использованием в качестве признаков различных численных оценок информационной значимости. Рассмотрены классический и предложенный авторами метод определения весов признаков на примере набора данных «20 новостных групп». Представлены полученные результаты экспериментальной апробации системы тематической классификации новостных сообщений, задача которой классифицировать данные на заданные тематические группы. Применение предложенного метода позволяет существенно повысить качество классификации даже с применением базовых методов (мультиномиального наивного байесовского классификатора) до уровня лучших методов в этой области (метод опорных векторов) на эталонном наборе данных.

Внешние ссылки

DOI: https://doi.org/10.14357/20718594190306

PDF на сайте журнала «Искусственный интеллект и принятие решений»: http://aidt.ru/images/documents/2019-03/52-59.pdf

Страница на сайте журнала «Искусственный интеллект и принятие решений»: http://aidt.ru/index.php?option=com_content&view=article&id=847&lang=ru

РУДН. Репозиторий: https://repository.rudn.ru/ru/records/article/record/60803/

Ссылка при цитировании

Жебель В. В., Жарикова С-Н. А., Соченков И. В. Оценка информативности признаков на основе характеристики тематической значимости при классификации потока новостных сообщений // Искусственный интеллект и принятие решений. – 2019. – Т. 1. – №. 3. – С. 52-59.