Веб-краулинг и извлечение данных
Научно-образовательный семинар: от сбора данных до готовых решений
🕷️ Добро пожаловать на семинар!
Мы разрабатываем алгоритмы и системы для автоматического сбора и извлечения данных из интернета. Если тебе интересно, как работают поисковики, как парсить сайты с умом и применять ML к веб-данным — тебе к нам.
⚙️ Чем мы занимаемся?
Веб-краулеры
Создаём пауков для сбора данных с миллионов страниц — от простых HTML до сложных SPA-сайтов на JavaScript.
Фокусированный краулинг
Учим алгоритмы находить только нужные данные (новости, товары, посты), не собирая лишнего.
ML для извлечения
Применяем машинное обучение, включая большие языковые модели, для автоматического выделения данных.
Оптимизация
Используем теорию сложных сетей и случайных графов, чтобы сбор данных был быстрым и эффективным.
🔬 Наши исследования
📈 Оптимизация сбора данных
Разрабатываем алгоритмы эффективного использования ресурсов при сборе данных. Особое внимание уделяем сбору социальных графов — для формального обоснования используем теорию сложных сетей и модели случайных графов. Это позволяет собирать данные быстрее и с меньшими затратами.
🧠 Автоматическое извлечение
Исследуем методы автоматического распознавания релевантных данных на веб-страницах — от новостных статей до постов на форумах. Используем как классические подходы, так и современные большие языковые модели.
💾 Масштабирование и хранение
Решаем задачи эффективного хранения и распространения собираемых данных. С ростом числа краулеров мы также разрабатываем методы постоянной проверки качества собираемых данных.
🛡️ Преодоление защиты
Изучаем методы обхода анти-бот систем и распознавания CAPTCHA. В последних работах активно применяем большие языковые модели для решения тестов Тьюринга.
📚 Научные интересы
- 🕷️ Сбор данных из веба (web crawling)
- ⚙️ Автоматизация сбора данных
- 🎯 Фокусированный сбор данных
- 📄 Извлечение информации (information extraction)
- 🤖 Машинное обучение
- 🧠 Большие языковые модели (LLM)
🎓 Студентам
Участвуя в семинаре, вы сможете:
- ✅ Научиться разрабатывать веб-краулеры на Python и Java
- ✅ Понять устройство современных веб-технологий (HTML, CSS, JavaScript, API)
- ✅ Освоить инструменты Big Data — Docker, Kafka, PostgreSQL, MongoDB
- ✅ Применить ML и LLM к реальным задачам извлечения данных
🔍 Присоединяйтесь к семинару!
Пишите Александру Яцкову, если хотите заниматься настоящими задачами сбора и анализа веб-данных.
