Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы

Авторы

Соченков И. В. Зубарев Д. В.

Аннотация

Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. Рост объёмов данных повышает важность эффективного извлечения описательных сведений о документах (метаданные – заголовки, имена авторов, даты публикации и так далее) с научных и образовательных сайтов (веб-ресурсов). Традиционные методы сбора и извлечения информации на основе статических шаблонов малоэффективны при обработке веб-страниц с динамически формируемым содержанием. В работе предложена архитектура адаптивной системы сбора и извлечения информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую подсистемы управления заданиями, мониторинга и журналирования, краулинга (робота сбора информации), управления ссылками, извлечения метаданных. Подсистема краулинга обрабатывает как статически, так и динамически формируемое содержание через имитацию работы прикладного программного обеспечения для просмотра веб-страниц. Для извлечения метаданных применяется комбинированный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамически формируемым содержанием и сложными структурами. Система обладает высокой точностью и устойчивостью к изменениям форматов данных, при этом строго соблюдаются этические нормы сбора данных, включая обязательное выполнение инструкций и применение разумных интервалов между запросами.

Внешние ссылки

DOI: 10.15514/ISPRAS-2025-37(2)-20

Скачать статю (PDF) или читать онлайн на сайте журнала: https://ispranproceedings.elpub.ru/jour/article/view/1922

Скачать статью (PDF) с сайта ИСП РАН: https://www.ispras.ru/proceedings/docs/2025/37/2/isp_37_2025_2_263.pdf

Скачать выпуск № 2 целиком (PDF) или читать онлайн на сайте журнала: https://ispranproceedings.elpub.ru/jour/issue/viewIssue/123/174

Скачать статью на eLibrary (требуется регистрация): https://www.elibrary.ru/item.asp?id=80645858

Math-Net.Ru: https://www.mathnet.ru/rus/tisp981

Ссылка при цитировании

Серенко Д. С., Терентьев Е. Д., Зубарев Д. В., Соченков И. В. Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы. Труды ИСП РАН, том 37, вып. 2, 2025 г., стр. 263–280.