Алгоритм для извлечения биомедицинской информации от Алексея Молодченкова

Сразу два журнала — «Труды Института системного анализа Российской академии наук» и Discrete and Continuous Models and Applied Computational Science — опубликовали фундаментальное исследование объединённой команды ИПИИ, МФТИ и РУДН «Методы извлечения биомедицинской информации из патентов и научных публикаций (на примере химических соединений)» (ссылка). Его презентация состоялась ранее на конференции DAMDID 2022, о чём мы уже сообщали.

Николай Колпаков, Алексей Молодченков и Антон Лукин разработали и представили четырёхступенчатый алгоритм решения поставленной задачи, основанный на методах машинного обучения. Задача актуальна, поскольку в текстах патентов и публикаций зачастую отсутствуют описательные метаданные, что мешает быстрому и правильному извлечению информации (в данном случае рассматривались описания химических соединений). Для обучения были использованы модели SVM, CRF, Stanford NER, BERT и BioBERT, а эксперименты проводились на патентах из базы USPTO. Результаты этих экспериментов также представлены в статье.

Полученная структурированная информация, по мнению экспертов, может быть использована для обучения сложных нейросетевых моделей, которые позволят корректно извлекать информацию из большего числа текстов. В планах — преобразовать данные в формат InChI кодов и написать фингерпринты, которые бы соответствовали структурам Маркуша, заявленным авторами патентов, а также ещё одна серия экспериментов. Удачи и терпения команде! Текущий вариант исследования на русском и английском языках выложен в открытый доступ.

Cсылки по теме:

сайт «Трудов ИСА РАН»

сайт DCM & ACS