Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов

Авторы

Суворова (Ананьева) М. И.

Аннотация

Платформа TXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий, кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпусов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структурных единиц анализа. Она интегрирована с единственным расширением TreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, позволяющих существенно усложнить анализ, сделать его более гибким. В настоящей работе описывается разработанный нами набор утилит, позволяющий, опираясь как на наши собственные программные решения, так и на готовые средства анализа, расширить и усложнить анализ корпусов в платформе TXM. Особого внимания заслуживают выделение псевдоосновы в словах текста с использованием метода структурных схем и выявление именных групп в структуре текста. Эти расширения позволяют повысить эффективность таких используемых TXM методов, как анализ специфичности и анализ соответствий. В порядке апробации излагаются результаты эксперимента по анализу корпуса, содержащего тексты, оцененные экспертами как экстремистские, и «нейтральные» тексты схожей тематики (религия, политика, идеология). Все тесты показывают ярко выраженное противостояние нейтральных и маркированных текстов и позволяют на основе полученных результатов продолжить работу по автоматическому и полуавтоматическому выявлению потенциально противоправных текстов.

Внешние ссылки

DOI: https://doi.org/10.25205/1818-7935-2018-16-3-19-31

Скачать PDF на сайте журнала «Вестник НГУ»: https://lingngu.elpub.ru/jour/article/view/29

Скачать PDF из архива издательства НГУ: https://journals.nsu.ru/upload/iblock/f4c/Lavrentev%2018_3.pdf

РИНЦ: https://elibrary.ru/item.asp?id=35572181

Читать на КиберЛенинке: https://cyberleninka.ru/article/n/novyy-kompleks-instrumentov-avtomaticheskoy-obrabotki-teksta-dlya-platformy-txm-i-ego-aprobatsiya-na-korpuse-dlya-analiza-ekstremistskih

Ссылка при цитировании

Лаврентьев А. М., Соловьев Ф. Н., Суворова (Ананьева) М. И., Фокина А. И., Чеповский А. М. Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов. Вестник НГУ. 2018. Том 16, № 3. С. 19-31.