
Образование и ученая степень:
- Бакалавриат — ВМК МГУ (2012 — 2016 г.);
- Магистратура — ВМК МГУ (2016 — 2018 г.);
- Аспирантура — ИСП РАН (2018 г. — 2022 г.).
Область научных интересов: сбор данных из веба (web crawling, web data extraction); автоматизация процесса сбора данных; фокусированный сбор данных (focused crawling); извлечение информации (information extraction); машинное обучение (machine learning).
Преподавание учебных курсов:
- «Практикум по Базам Данных» (http://sp.cs.msu.ru/prak3/) (ВМК МГУ).
Мои научные интересы лежат в области разработки автоматических и автоматизированных алгоритмов сбора и извлечения данных из HTML-страниц и специализированных API. Информационные системы в в современном мире нуждаются в данных, важным источником которых является Интернет.
Любая задача анализа данных начинается со сбора данных. Для каждой из этих задач необходимы свои веб-краулеры, которые собирают именно те данные, которые необходимы для этой задачи.
Одним из направлений наших работ являются задачи, связанные с оптимизацией сбора данных. Разрабатываются различные алгоритмы, которые позволяют как эффективно использовать ресурсы, так и оптимизировать сбор данных социальных графов. Для формального обоснования предложенных алгоритмов используется теория сложных сетей (complex networks) и модели случайных графов.
Кроме этого ряд исследований посвящён автоматическому распознаванию страниц и извлечению релевантных данных с собранных веб-страниц. Примером данных, которые можно получать такими методами могут считаться тексты новостей или посты на форумах.
Сеть интернет является беспрецедентным не только по объему, но и по темпам роста хранилищем информации. С увеличением числа постоянно собираемых данных появляются задачи эффективного хранения и распространения собираемых данных. В дополнение к этом с увеличением числа одновременно работающих краулеров необходимо постоянно проверять и качество собираемых данных.
Поучаствовав в наших проектах вы сможете попробовать себя в современном программировании на таких яхыках как Python, Javascript, Java. Также вы научитесь понимать современный язык разметок в Интернете HTML и CSS. И познакомитесь с современными технологиями такими как Docker, MongoDB, PostgreSQL, Kafka и многими другими.
Руководство по дипломным и курсовым работам за последние два года:
- «Разработка мультиязычной модели для извлечения данных из новостных веб-страниц», 2024
- «Автоматическое построение правил обхода и извлечения информации для новостных веб сайтов», 2024
- «Исследование и разработка методов извлечения информации из веб-страниц товаров», 2024
- «Исследование методик преодоления тестов CAPTCHA, основанных на перемещении ползунка», 2024
- «Исследование и разработка методов извлечения информации из веб-страниц, содержащих множество записей», 2024
- «Исследование и разработка методов удаления шаблонов на сайтах»,2024
- «Исследование и разработка методов извлечения новостей из веб-страниц», 2023
- «Исследование и разработка модели сбора данных для средств визуальной разметки веб-сайтов», 2023
- «Исследование и разработка методов планирования для задач сбора данных», 2023
Последние публикации:
- M. Varlamov, D. Galanin, P. Bedrin, S. Duda, V. Lazarev and A. Yatskov, «A Dataset for Information Extraction from News Web Pages,» 2022 Ivannikov Ispras Open Conference (ISPRAS), Moscow, Russian Federation, 2022, pp. 100-106, doi: 10.1109/ISPRAS57371.2022.10076872.
- Lazarev V. A., Varlamov M. I., Yatskov A. K. Job management system for automated data collection from the Internet //Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). – 2022. – Т. 34. – №. 2. – С. 111-122.
- Shaikhelislamov D. et al. Three-step algorithms for detection of high degree nodes in online social networks //2020 Ivannikov Memorial Workshop (IVMEM). – IEEE, 2020. – С. 43-48.
- Kushchuk D. O. et al. Using domain adversarial learning for text captchas recognition //Proc. Inst. Syst. Program. RAS. – 2020. – Т. 32. – №. 4. – С. 203-216.
- Drobyshevskiy M. et al. Collecting influencers: A comparative study of online network crawlers //2019 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2019. – С. 42-48.
- Yatskov A. K., Varlamov M. I., Turdakov D. Y. Extraction of data from mass media web sites //Programming and Computer Software. – 2018. – Т. 44. – С. 344-352.