Информационные системы нуждаются в данных, важным источником которых является Интернет. Поэтому на семинаре ведется разработка автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Решаются задачи оптимизации обхода веб-сайтов и автоматического выделения релевантных данных с собранных веб-страниц.
Любая задача анализа данных начинается со сбора данных. Для каждой из этих задач необходимы свои веб-краулеры, которые собирают именно те данные, которые необходимы для этой задачи.
Одним из направлений наших работ являются задачи, связанные с оптимизацией сбора данных. Разрабатываются различные алгоритмы, которые позволяют как эффективно использовать ресурсы, так и оптимизировать сбор данных социальных графов. Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов.
Темы исследовательских работ для студентов на 2023-2024 уч. г.:
- Исследование методов использования информации на уровне веб-сайта для улучшения точности извлечения данных; (python, neural networks) [3 студента проходят тестовое задание]
- Методы сбора данных с веб-сайтов СМИ; (python, scrapy, web scraping) [2 студента проходят тестовое задание]
- Crawler Frontier для веб-скрапинга данных из социальных сетей / Высоконагруженный прокси-шлюз для задачи извлечения веб-данных. (scala, db, graphql) [3 студента проходят тестовое задание]
Правила набора на 2023-2024:
Можно выбрать только 1 тему и получить по ней тестовое задание, но в итоге на каждую тему может быть набран только 1 студент. Если хотите получить задание пишите в tg:@yatskov_alex (актуально до 10 марта). Для 3 и 4 тем тестовое задание общее.
Научные интересы:
- Сбор данных из веба (web crawling, web data extraction);
- Автоматизация процесса сбора данных;
- Фокусированный сбор данных (focused crawling);
- Извлечение информации (information extraction);
- Машинное обучение (machine learning).