Информационные системы нуждаются в данных, важным источником которых является Интернет. Поэтому на семинаре ведется разработка автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Решаются задачи оптимизации обхода веб-сайтов и автоматического выделения релевантных данных с собранных веб-страниц.

Любая задача анализа данных начинается со сбора данных. Для каждой из этих задач необходимы свои веб-краулеры, которые собирают именно те данные, которые необходимы для этой задачи.

Одним из направлений наших работ являются задачи, связанные с оптимизацией сбора данных. Разрабатываются различные алгоритмы, которые позволяют как эффективно использовать ресурсы,  так и оптимизировать сбор данных социальных графов. Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов.

Научные интересы:

  • Сбор данных из веба (web crawling, web data extraction);
  • Автоматизация процесса сбора данных;
  • Фокусированный сбор данных (focused crawling);
  • Извлечение информации (information extraction);
  • Машинное обучение (machine learning).