Методы обработки естественного языка для извлечения факторов риска инсульта из медицинских текстов

Авторы

Донитова В. В. Киреев Д. А. Акимова А. А. Титова Е. В.

Аннотация

Своевременное выявление факторов риска такого социально значимого заболевания, как инсульт, важно для организации профилактики этой патологии. Выбор наиболее эффективных современных методов обработки текстов для автоматического извлечения информации о наличии факторов риска у пациентов из электронных медицинских карт может повысить качество оказания превентивной медицинской помощи. Вопросы такого рода в области обработки естественного языка (Natural Language Processing, NLP) называются задачами извлечения именованных сущностей (Named Entity Recognition, NER). Для решения данной задачи были использованы методы извлечения информации (Information Extraction, IE) о заболеваниях и состоянии здоровья, основанные на вручную созданных правилах, машинном обучении (Machine Learning, ML) и глубоком обучении (Deep Learning, DL). На собранных и размеченных экспертами данных были проведены сравнительные экспериментальные исследования перечисленных методов. В экспериментах рассматривались 6 сущностей, однако описанные подходы и методы могут быть использованы для извлечения любых сущностей. По результатам экспериментов были сделаны выводы об эффективности разработанных методов и используемых текстовых характеристик для решения задачи.

Внешние ссылки

DOI: 10.14357/20790279210410

Скачать PDF на сайте журнала «Труды Института системного анализа РАН»: http://www.isa.ru/proceedings/images/documents/2021-71-4/93-101.pdf

Скачать PDF на eLibrary (требуется регистрация): https://elibrary.ru/item.asp?id=47374239

Ссылка при цитировании

Донитова В. В., Киреев Д. А., Титова Е. В., Акимова А. А. Методы обработки естественного языка для извлечения факторов риска инсульта из медицинских текстов // Труды Института системного анализа РАН. — 2021. — Т. 71. — № 4. — С. 93–101.