Веб-краулинг и извлечение данных

Научно-образовательный семинар: от сбора данных до готовых решений

🕷️ Добро пожаловать на семинар!

Мы разрабатываем алгоритмы и системы для автоматического сбора и извлечения данных из интернета. Если тебе интересно, как работают поисковики, как парсить сайты с умом и применять ML к веб-данным — тебе к нам.

⚙️ Чем мы занимаемся?

🕸️

Веб-краулеры

Создаём пауков для сбора данных с миллионов страниц — от простых HTML до сложных SPA-сайтов на JavaScript.

🎯

Фокусированный краулинг

Учим алгоритмы находить только нужные данные (новости, товары, посты), не собирая лишнего.

🤖

ML для извлечения

Применяем машинное обучение, включая большие языковые модели, для автоматического выделения данных.

📊

Оптимизация

Используем теорию сложных сетей и случайных графов, чтобы сбор данных был быстрым и эффективным.

🔬 Наши исследования

📈 Оптимизация сбора данных

Разрабатываем алгоритмы эффективного использования ресурсов при сборе данных. Особое внимание уделяем сбору социальных графов — для формального обоснования используем теорию сложных сетей и модели случайных графов. Это позволяет собирать данные быстрее и с меньшими затратами.

🧠 Автоматическое извлечение

Исследуем методы автоматического распознавания релевантных данных на веб-страницах — от новостных статей до постов на форумах. Используем как классические подходы, так и современные большие языковые модели.

💾 Масштабирование и хранение

Решаем задачи эффективного хранения и распространения собираемых данных. С ростом числа краулеров мы также разрабатываем методы постоянной проверки качества собираемых данных.

🛡️ Преодоление защиты

Изучаем методы обхода анти-бот систем и распознавания CAPTCHA. В последних работах активно применяем большие языковые модели для решения тестов Тьюринга.

📚 Научные интересы

🕷️ Сбор данных из веба (web crawling)
⚙️ Автоматизация сбора данных
🎯 Фокусированный сбор данных
📄 Извлечение информации (information extraction)
🤖 Машинное обучение
🧠 Большие языковые модели (LLM)

🎓 Студентам

Участвуя в семинаре, вы сможете:

✅ Научиться разрабатывать веб-краулеры на Python и Java
✅ Понять устройство современных веб-технологий (HTML, CSS, JavaScript, API)
✅ Освоить инструменты Big Data — Docker, Kafka, PostgreSQL, MongoDB
✅ Применить ML и LLM к реальным задачам извлечения данных

🔍 Присоединяйтесь к семинару!

Пишите Александру Яцкову, если хотите заниматься настоящими задачами сбора и анализа веб-данных.

👉 Страница руководителя