Полнотекстовый классификатор патентных документов

Авторы

Ядринцев В. В.

Аннотация

Для обработки большого количества документов, содержащих знания и результаты интеллектуальной деятельности, таких как патенты, требуется автоматическая классификация. В настоящей статье рассматривается задача классификации патентных документов на основе расширенного именными группами модели векторного представления текстовых документов. Процесс классификации начинается с извлечения ключевых слов и словосочетаний из документа с помощью автоматической обработки текста, затем выявляются значимые ключевые слова и словосочетания на основе статистической меры, далее оценивается тематическая близость документов в рамках векторно-пространственной модели. Оценки тематической близости документов используются в качестве данных для обучения классификатора. Эксперименты проведены на следующих уровнях международной патентной классификации: подклассы, группы и подгруппы.

Внешние ссылки

PDF трудов ИУСА-2018 на официальном сайте: http://2018.icsa-conf.ru/wp-content/uploads/2018/06/Труды-ИУСА-2018-электронный-сборник.pdf

РИНЦ: https://www.elibrary.ru/item.asp?id=35286767

РУДН. Репозиторий: https://repository.rudn.ru/ru/records/article/record/12349/

Ссылка при цитировании

Ядринцев В. В. Полнотекстовый классификатор патентных документов. Информатика, управление и системный анализ: Труды V Всероссийской научной конференции молодых учёных с международным участием. Ростов-на-Дону: Мини-Тайп, 2018. C. 267-274. ISBN 978-5-98615-321-6