В данной статье предложен алгоритм для решения задачи извлечения информации из биомедицинских патентов и научных публикаций. Предложенный алгоритм основан на методах машинного обучения. Были проведены эксперименты на патентах из базы USPTO. Эксперименты показали, что лучшее качество извлечения показала модель, построенная на основе BioBERT.
Скачать PDF с сайта журнала «Труды Института системного анализа Российской академии наук»: http://www.isa.ru/proceedings/images/documents/2023-73-1/159-166.pdf
Скачать PDF с сайта журнала Discrete and Continuous Models and Applied Computational Science (англ.): https://journals.rudn.ru/miph/article/view/34463
Скачать PDF из библиотеки eLibrary (требуется регистрация): https://www.elibrary.ru/item.asp?id=50740276
Выступление Николая Колпакова на конференции DAMDID 2022:
Н. А. Колпаков, А. И. Молодченков, А. В. Лукин. Методы извлечения биомедицинской информации из патентов и научных публикаций (на примере химических соединений) // Труды Института системного анализа Российской академии наук. — 2023. — Т. 73. — № 1. — С. 159–166.