Своевременное выявление факторов риска такого социально значимого заболевания, как инсульт, важно для организации профилактики этой патологии. Выбор наиболее эффективных современных методов обработки текстов для автоматического извлечения информации о наличии факторов риска у пациентов из электронных медицинских карт может повысить качество оказания превентивной медицинской помощи. Вопросы такого рода в области обработки естественного языка (Natural Language Processing, NLP) называются задачами извлечения именованных сущностей (Named Entity Recognition, NER). Для решения данной задачи были использованы методы извлечения информации (Information Extraction, IE) о заболеваниях и состоянии здоровья, основанные на вручную созданных правилах, машинном обучении (Machine Learning, ML) и глубоком обучении (Deep Learning, DL). На собранных и размеченных экспертами данных были проведены сравнительные экспериментальные исследования перечисленных методов. В экспериментах рассматривались 6 сущностей, однако описанные подходы и методы могут быть использованы для извлечения любых сущностей. По результатам экспериментов были сделаны выводы об эффективности разработанных методов и используемых текстовых характеристик для решения задачи.
Скачать PDF на сайте журнала «Труды Института системного анализа РАН»: http://www.isa.ru/proceedings/images/documents/2021-71-4/93-101.pdf
Скачать PDF на eLibrary (требуется регистрация): https://elibrary.ru/item.asp?id=47374239
Донитова В. В., Киреев Д. А., Титова Е. В., Акимова А. А. Методы обработки естественного языка для извлечения факторов риска инсульта из медицинских текстов // Труды Института системного анализа РАН. — 2021. — Т. 71. — № 4. — С. 93–101.