Яцков Александр Константинович

🚀 Привет, студент!

Интернет — главный источник данных в мире. Хочешь научиться добывать их, обходить блокировки и работать с миллионами страниц? В нашей команде ты сможешь попробовать себя в реальных задачах индустрии и науки.

🎓 Образование и научные интересы

Образование и ученая степень:

Бакалавриат — ВМК МГУ (2012–2016)
Магистратура — ВМК МГУ (2016–2018)
Аспирантура — ИСП РАН (2018–2022)

Область научных интересов: сбор данных из веба (web crawling, web data extraction); автоматизация процесса сбора данных; фокусированный сбор данных (focused crawling); извлечение информации (information extraction); машинное обучение (machine learning); большие языковые модели (LLM) для веб-парсинга.

Преподавание учебных курсов:

«Практикум по Базам Данных» (http://sp.cs.msu.ru/prak3/) (ВМК МГУ).

⚙️ Чем мы реально занимаемся?

🕷️

Умные краулеры

Разрабатываем пауков на Python и Java, которые обходят защиту, парсят SPA-сайты и выдерживают огромные нагрузки.

🧠

ML и LLM для извлечения

Учим модели (включая большие языковые модели) автоматически находить новости, товары и посты на страницах без правил.

☁️

Инфраструктура

Строим распределенные системы на Docker для сбора терабайтов данных.

🛡️

Анти-блокировки и CAPTCHA

Изучаем методы обхода CAPTCHA с помощью LLM и классического ML, борьбы с ботами и детекта шаблонов.

⚡ Современный стек, с которым мы работаем:

🐍 Python
☕ Java
🟨 JavaScript
🐘 PostgreSQL
🍃 MongoDB
🐳 Docker
📊 Kafka
🤖 ML (PyTorch)
🧠 LLM (GPT, LLaMA)

✅ Что ты получишь, работая в наших проектах?

✅ Опыт современной разработки на Python, Java, JavaScript.
✅ Понимание устройства веба: HTML, CSS, браузеры, API.
✅ Навыки работы с базами данных (PostgreSQL, MongoDB) и очередями задач (Kafka).
✅ Возможность глубоко разобраться в ML и больших языковых моделях на реальных данных.
✅ Актуальную тему для курсовой или диплома, которая решает настоящие инженерные задачи.

📌 Руководство по дипломным и курсовым работам

🔥 2025 год (новые темы):

«Исследование методов применения больших языковых моделей в задачах сбора данных из Интернета», 2025
«Автоматическое извлечение информации из веб-страницы с помощью расширенных структурных признаков», 2025
«Исследование методов решения автоматизированных тестов Тьюринга по различению компьютеров и людей с помощью больших языковых моделей», 2025

📌 2024 год:

📌 «Разработка мультиязычной модели для извлечения данных из новостных веб-страниц», 2024
📌 «Автоматическое построение правил обхода и извлечения информации для новостных веб сайтов», 2024
📌 «Исследование и разработка методов извлечения информации из веб-страниц товаров», 2024
📌 «Исследование методик преодоления тестов CAPTCHA, основанных на перемещении ползунка», 2024
📌 «Исследование и разработка методов извлечения информации из веб-страниц, содержащих множество записей», 2024
📌 «Исследование и разработка методов удаления шаблонов на сайтах», 2024

📌 2023 год:

📌 «Исследование и разработка методов извлечения новостей из веб-страниц», 2023
📌 «Исследование и разработка модели сбора данных для средств визуальной разметки веб-сайтов», 2023
📌 «Исследование и разработка методов планирования для задач сбора данных», 2023

👥 Кого мы ищем в команду?

🔍

Пытливые новички

Знаете основы Python? Приходите применять их в реальном проекте.

⚙️

Инженеры

Готовы копаться в сетях, браузерах и базах данных.

📈

Исследователи

Хотите пощупать теорию графов и ML на реальных данных.

📄 Последние публикации (2018–2025)

Александр Кустенков, Максим Варламов, Александр Яцков, «Multi-Record Web Page Information Extraction From News Websites», ISPRAS OPEN 2025.
Павел Бедрин, Максим Варламов, Александр Яцков, «NewsXLM: A Multilingual Dataset and Model for Information Extraction from News Web Pages», ISPRAS OPEN 2025.
M. Varlamov, D. Galanin, P. Bedrin, S. Duda, V. Lazarev and A. Yatskov, «A Dataset for Information Extraction from News Web Pages,» 2022 Ivannikov Ispras Open Conference (ISPRAS), Moscow, Russian Federation, 2022, pp. 100-106, doi: 10.1109/ISPRAS57371.2022.10076872.
Lazarev V. A., Varlamov M. I., Yatskov A. K. Job management system for automated data collection from the Internet //Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). – 2022. – Т. 34. – №. 2. – С. 111-122.
Shaikhelislamov D. et al. Three-step algorithms for detection of high degree nodes in online social networks //2020 Ivannikov Memorial Workshop (IVMEM). – IEEE, 2020. – С. 43-48.
Kushchuk D. O. et al. Using domain adversarial learning for text captchas recognition //Proc. Inst. Syst. Program. RAS. – 2020. – Т. 32. – №. 4. – С. 203-216.
Drobyshevskiy M. et al. Collecting influencers: A comparative study of online network crawlers //2019 Ivannikov Ispras Open Conference (ISPRAS). – IEEE, 2019. – С. 42-48.
Yatskov A. K., Varlamov M. I., Turdakov D. Y. Extraction of data from mass media web sites //Programming and Computer Software. – 2018. – Т. 44. – С. 344-352.

🔥 Если хочешь заниматься настоящими задачами сбора данных — пиши, приходи, будем делать науку и инженерию вместе!