Платформа TXM предоставляет широкие возможности корпусного анализа, такие как анализ соответствий, кластеризация, построение лексических таблиц, поиск сложных лексических конструкций, выделение подкорпусов по различным параметрам. По умолчанию платформа работает со словоупотреблениями в качестве структурных единиц анализа. Она интегрирована с единственным расширением TreeTagger, позволяющим проводить лишь морфологический анализ и лемматизацию словоупотреблений. Однако пользователь может сопроводить каждое словоупотребление набором дополнительных характеристик, позволяющих существенно усложнить анализ, сделать его более гибким. В настоящей работе описывается разработанный нами набор утилит, позволяющий, опираясь как на наши собственные программные решения, так и на готовые средства анализа, расширить и усложнить анализ корпусов в платформе TXM. Особого внимания заслуживают выделение псевдоосновы в словах текста с использованием метода структурных схем и выявление именных групп в структуре текста. Эти расширения позволяют повысить эффективность таких используемых TXM методов, как анализ специфичности и анализ соответствий. В порядке апробации излагаются результаты эксперимента по анализу корпуса, содержащего тексты, оцененные экспертами как экстремистские, и «нейтральные» тексты схожей тематики (религия, политика, идеология). Все тесты показывают ярко выраженное противостояние нейтральных и маркированных текстов и позволяют на основе полученных результатов продолжить работу по автоматическому и полуавтоматическому выявлению потенциально противоправных текстов.
DOI: https://doi.org/10.25205/1818-7935-2018-16-3-19-31
Скачать PDF на сайте журнала «Вестник НГУ»: https://lingngu.elpub.ru/jour/article/view/29
Скачать PDF из архива издательства НГУ: https://journals.nsu.ru/upload/iblock/f4c/Lavrentev%2018_3.pdf
РИНЦ: https://elibrary.ru/item.asp?id=35572181
Читать на КиберЛенинке: https://cyberleninka.ru/article/n/novyy-kompleks-instrumentov-avtomaticheskoy-obrabotki-teksta-dlya-platformy-txm-i-ego-aprobatsiya-na-korpuse-dlya-analiza-ekstremistskih
Лаврентьев А. М., Соловьев Ф. Н., Суворова (Ананьева) М. И., Фокина А. И., Чеповский А. М. Новый комплекс инструментов автоматической обработки текста для платформы TXM и его апробация на корпусе для анализа экстремистских текстов. Вестник НГУ. 2018. Том 16, № 3. С. 19-31.