Цель исследования: разработка методики создания и автоматического анализа специальных корпусов текстов для последующего применения их в качестве обучающих выборок и определения дифференцирующих признаков в задачах классификации текстов. Метод: применялись инструменты анализа корпусной платформы TXM, расширенной разработанными процедурами вычисления дополнительных характеристик текстов, таких как буквосочетания, псевдоосновы, именные группы, глагольные группы. Полученные результаты: показано, что разработанные средства расширения корпусной платформы TXM позволяют эффективно решать задачи анализа текстов специальной тематики, созданный корпус текстов экстремистской тематики может использоваться в качестве обучающей выборки для задач классификации текстов, делается вывод об использовании буквосочетаний как универсальных дифференцирующих признаков наряду с классическими лингвистическими характеристиками текстов.
DOI и ссылка на файл в формате PDF: https://doi.org/10.21681/2311-3456-2019-4-54-60
Содержание четвёртого выпуска журнала «Вопросы кибербезопасности» со ссылкой на PDF: https://cyberrus.com/voprosy_kiberbezopasnosti_444/
РИНЦ: https://www.elibrary.ru/item.asp?id=39164131
Публикации ВШЭ: https://publications.hse.ru/articles/301569375
КиберЛенинка: https://cyberleninka.ru/article/n/analiz-korpusov-tekstov-terroristicheskoy-i-antipravovoy-napravlennosti
Лаврентьев А. М., Смирнов И. В., Соловьев Ф. Н., Суворова М. И., Фокина А. И., Чеповский А. М. Анализ корпусов текстов террористической и антиправовой направленности // Вопросы кибербезопасности. – 2019. – №. 4. – С. 54-60.