Веб-краулинг и извлечение данных

Научно-образовательный семинар: от сбора данных до готовых решений

🕷️ Добро пожаловать на семинар!

Мы разрабатываем алгоритмы и системы для автоматического сбора и извлечения данных из интернета. Если тебе интересно, как работают поисковики, как парсить сайты с умом и применять ML к веб-данным — тебе к нам.

⚙️ Чем мы занимаемся?

🕸️

Веб-краулеры

Создаём пауков для сбора данных с миллионов страниц — от простых HTML до сложных SPA-сайтов на JavaScript.

🎯

Фокусированный краулинг

Учим алгоритмы находить только нужные данные (новости, товары, посты), не собирая лишнего.

🤖

ML для извлечения

Применяем машинное обучение, включая большие языковые модели, для автоматического выделения данных.

📊

Оптимизация

Используем теорию сложных сетей и случайных графов, чтобы сбор данных был быстрым и эффективным.

🔬 Наши исследования

📈 Оптимизация сбора данных

Разрабатываем алгоритмы эффективного использования ресурсов при сборе данных. Особое внимание уделяем сбору социальных графов — для формального обоснования используем теорию сложных сетей и модели случайных графов. Это позволяет собирать данные быстрее и с меньшими затратами.

🧠 Автоматическое извлечение

Исследуем методы автоматического распознавания релевантных данных на веб-страницах — от новостных статей до постов на форумах. Используем как классические подходы, так и современные большие языковые модели.

💾 Масштабирование и хранение

Решаем задачи эффективного хранения и распространения собираемых данных. С ростом числа краулеров мы также разрабатываем методы постоянной проверки качества собираемых данных.

🛡️ Преодоление защиты

Изучаем методы обхода анти-бот систем и распознавания CAPTCHA. В последних работах активно применяем большие языковые модели для решения тестов Тьюринга.

📚 Научные интересы

  • 🕷️ Сбор данных из веба (web crawling)
  • ⚙️ Автоматизация сбора данных
  • 🎯 Фокусированный сбор данных
  • 📄 Извлечение информации (information extraction)
  • 🤖 Машинное обучение
  • 🧠 Большие языковые модели (LLM)

🎓 Студентам

Участвуя в семинаре, вы сможете:

  • Научиться разрабатывать веб-краулеры на Python и Java
  • Понять устройство современных веб-технологий (HTML, CSS, JavaScript, API)
  • Освоить инструменты Big Data — Docker, Kafka, PostgreSQL, MongoDB
  • Применить ML и LLM к реальным задачам извлечения данных

🔍 Присоединяйтесь к семинару!

Пишите Александру Яцкову, если хотите заниматься настоящими задачами сбора и анализа веб-данных.

👉 Страница руководителя