🚀 Привет, студент!
Интернет — главный источник данных в мире. Хочешь научиться добывать их, обходить блокировки и работать с миллионами страниц? В нашей команде ты сможешь попробовать себя в реальных задачах индустрии и науки.

🎓 Образование и научные интересы
Образование и ученая степень:
- Бакалавриат — ВМК МГУ (2012–2016)
- Магистратура — ВМК МГУ (2016–2018)
- Аспирантура — ИСП РАН (2018–2022)
Область научных интересов: сбор данных из веба (web crawling, web data extraction); автоматизация процесса сбора данных; фокусированный сбор данных (focused crawling); извлечение информации (information extraction); машинное обучение (machine learning); большие языковые модели (LLM) для веб-парсинга.
Преподавание учебных курсов:
- «Практикум по Базам Данных» (http://sp.cs.msu.ru/prak3/) (ВМК МГУ).
⚙️ Чем мы реально занимаемся?
Умные краулеры
Разрабатываем пауков на Python и Java, которые обходят защиту, парсят SPA-сайты и выдерживают огромные нагрузки.
ML и LLM для извлечения
Учим модели (включая большие языковые модели) автоматически находить новости, товары и посты на страницах без правил.
Инфраструктура
Строим распределенные системы на Docker для сбора терабайтов данных.
Анти-блокировки и CAPTCHA
Изучаем методы обхода CAPTCHA с помощью LLM и классического ML, борьбы с ботами и детекта шаблонов.
⚡ Современный стек, с которым мы работаем:
☕ Java
🟨 JavaScript
🐘 PostgreSQL
🍃 MongoDB
🐳 Docker
📊 Kafka
🤖 ML (PyTorch)
🧠 LLM (GPT, LLaMA)
✅ Что ты получишь, работая в наших проектах?
- ✅ Опыт современной разработки на Python, Java, JavaScript.
- ✅ Понимание устройства веба: HTML, CSS, браузеры, API.
- ✅ Навыки работы с базами данных (PostgreSQL, MongoDB) и очередями задач (Kafka).
- ✅ Возможность глубоко разобраться в ML и больших языковых моделях на реальных данных.
- ✅ Актуальную тему для курсовой или диплома, которая решает настоящие инженерные задачи.
📌 Руководство по дипломным и курсовым работам
🔥 2025 год (новые темы):
- «Исследование методов применения больших языковых моделей в задачах сбора данных из Интернета», 2025
- «Автоматическое извлечение информации из веб-страницы с помощью расширенных структурных признаков», 2025
- «Исследование методов решения автоматизированных тестов Тьюринга по различению компьютеров и людей с помощью больших языковых моделей», 2025
📌 2024 год:
- 📌 «Разработка мультиязычной модели для извлечения данных из новостных веб-страниц», 2024
- 📌 «Автоматическое построение правил обхода и извлечения информации для новостных веб сайтов», 2024
- 📌 «Исследование и разработка методов извлечения информации из веб-страниц товаров», 2024
- 📌 «Исследование методик преодоления тестов CAPTCHA, основанных на перемещении ползунка», 2024
- 📌 «Исследование и разработка методов извлечения информации из веб-страниц, содержащих множество записей», 2024
- 📌 «Исследование и разработка методов удаления шаблонов на сайтах», 2024
📌 2023 год:
- 📌 «Исследование и разработка методов извлечения новостей из веб-страниц», 2023
- 📌 «Исследование и разработка модели сбора данных для средств визуальной разметки веб-сайтов», 2023
- 📌 «Исследование и разработка методов планирования для задач сбора данных», 2023
👥 Кого мы ищем в команду?
Пытливые новички
Знаете основы Python? Приходите применять их в реальном проекте.
Инженеры
Готовы копаться в сетях, браузерах и базах данных.
Исследователи
Хотите пощупать теорию графов и ML на реальных данных.
📄 Последние публикации (2018–2025)
- Александр Кустенков, Максим Варламов, Александр Яцков, «Multi-Record Web Page Information Extraction From News Websites», ISPRAS OPEN 2025.
- Павел Бедрин, Максим Варламов, Александр Яцков, «NewsXLM: A Multilingual Dataset and Model for Information Extraction from News Web Pages», ISPRAS OPEN 2025.
- M. Varlamov, D. Galanin, P. Bedrin, S. Duda, V. Lazarev and A. Yatskov, «A Dataset for Information Extraction from News Web Pages,» 2022 Ivannikov Ispras Open Conference (ISPRAS), Moscow, Russian Federation, 2022, pp. 100-106, doi: 10.1109/ISPRAS57371.2022.10076872.
- Lazarev V. A., Varlamov M. I., Yatskov A. K. Job management system for automated data collection from the Internet //Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). – 2022. – Т. 34. – №. 2. – С. 111-122.
- Shaikhelislamov D. et al. Three-step algorithms for detection of high degree nodes in online social networks //2020 Ivannikov Memorial Workshop (IVMEM). – IEEE, 2020. – С. 43-48.
- Kushchuk D. O. et al. Using domain adversarial learning for text captchas recognition //Proc. Inst. Syst. Program. RAS. – 2020. – Т. 32. – №. 4. – С. 203-216.
- Drobyshevskiy M. et al. Collecting influencers: A comparative study of online network crawlers //2019 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2019. – С. 42-48.
- Yatskov A. K., Varlamov M. I., Turdakov D. Y. Extraction of data from mass media web sites //Programming and Computer Software. – 2018. – Т. 44. – С. 344-352.
🔥 Если хочешь заниматься настоящими задачами сбора данных — пиши, приходи, будем делать науку и инженерию вместе!
