Постановка проблемы. Для обучения инструментов выявления признаков нетерпимости в сообщениях социальных сетей необходимы размеченные наборы сообщений, сбор которых - трудоемкая задача. Подобные наборы широко представлены в открытом доступе для английского и арабского языков, однако для русского языка практически отсутствуют. Цель. Снизить трудоемкость формирования наборов сообщений на русском и английском языках для обучения методов выявления признаков религиозной нетерпимости в текстах. Результаты работы. Представлен автоматизированный подход к формированию размеченных наборов сообщений социальных сетей. В рамках этого подхода объединены методы сфокусированного сбора сообщений социальных сетей и активного обучения. Показано, что при сборе сообщений с помощью методов активного обучения осуществляется пошаговая коррекция их разметки и дообучение классификатора, применяемого для фильтрации нерелевантных текстов. Практическая значимость. Разработанный подход позволяет одновременно сформировать мультиязычный корпус сообщений, содержащих признаки религиозной нетерпимости, и обучить классификатор для выявления подобных текстов. Обученный классификатор может быть применен в составе прикладных систем анализа и мониторинга социальных сетей.
DOI: 10.18127/j20729472-202302-06
Заказать статью на сайте журнала «Системы высокой доступности»: http://radiotec.ru/ru/journal/Highly_available_systems/number/2023-2/article/23538
Волков С. С., Девяткин Д. А., Соченков И. В., Шелманов А. О. Автоматизированный подход к сбору сообщений социальных сетей, содержащих признаки религиозной нетерпимости // Системы высокой доступности. 2023. Т. 19. № 2. С. 70−80.