Данные из интернета служат основой для решения широкого круга задач, от информационного поиска до аналитической обработки. Рост объёмов данных повышает важность эффективного извлечения описательных сведений о документах (метаданные – заголовки, имена авторов, даты публикации и так далее) с научных и образовательных сайтов (веб-ресурсов). Традиционные методы сбора и извлечения информации на основе статических шаблонов малоэффективны при обработке веб-страниц с динамически формируемым содержанием. В работе предложена архитектура адаптивной системы сбора и извлечения информации, сочетающая стандартные методы извлечения данных с технологиями машинного обучения. Система имеет модульную структуру, включающую подсистемы управления заданиями, мониторинга и журналирования, краулинга (робота сбора информации), управления ссылками, извлечения метаданных. Подсистема краулинга обрабатывает как статически, так и динамически формируемое содержание через имитацию работы прикладного программного обеспечения для просмотра веб-страниц. Для извлечения метаданных применяется комбинированный подход, совмещающий структурированные правила и машинное обучение. Эксперименты показали успешное извлечение метаданных из различных веб-ресурсов, включая страницы с динамически формируемым содержанием и сложными структурами. Система обладает высокой точностью и устойчивостью к изменениям форматов данных, при этом строго соблюдаются этические нормы сбора данных, включая обязательное выполнение инструкций и применение разумных интервалов между запросами.
DOI: 10.15514/ISPRAS-2025-37(2)-20
Скачать статю (PDF) или читать онлайн на сайте журнала: https://ispranproceedings.elpub.ru/jour/article/view/1922
Скачать статью (PDF) с сайта ИСП РАН: https://www.ispras.ru/proceedings/docs/2025/37/2/isp_37_2025_2_263.pdf
Скачать выпуск № 2 целиком (PDF) или читать онлайн на сайте журнала: https://ispranproceedings.elpub.ru/jour/issue/viewIssue/123/174
Скачать статью на eLibrary (требуется регистрация): https://www.elibrary.ru/item.asp?id=80645858
Math-Net.Ru: https://www.mathnet.ru/rus/tisp981
Серенко Д. С., Терентьев Е. Д., Зубарев Д. В., Соченков И. В. Архитектура системы сбора и извлечения информации для интеллектуальной поисково-аналитической системы. Труды ИСП РАН, том 37, вып. 2, 2025 г., стр. 263–280.