Анализ сетевого трафика

Исследовательская группа занимается интеллектуальной обработкой и анализом сетевого трафика, сочетая методы машинного обучения, сигнатурные алгоритмы и высокопроизводительные решения. Мы объединяем теоретические разработки и практические эксперименты, чтобы создавать современные инструменты для эффективного и безопасного функционирования сетевых систем.

Актуальность:

Стремительный рост объёмов передаваемых данных, усложнение сетевых инфраструктур и появление новых типов устройств — от IoT до виртуализированных сред — делают задачу анализа и защиты сетевого трафика особенно важной. Для современных сетей нужны методы, которые одновременно устойчивы к атакам, адаптивны к изменениям и способны работать в условиях больших нагрузок.

Чем мы занимаемся:

Особый фокус в группе сделан на разработке методов машинного обучения и федеративного обучения, которые позволяют адаптировать классификаторы под изменяющийся характер сетевого трафика, обеспечивать приватность данных и повышать устойчивость систем к атакам. При этом группа не ограничивается только современными подходами: также исследуются классические сигнатурные методы классификации на основе алгоритмов, которые по-прежнему актуальны для ряда практических задач и позволяют создавать гибридные системы анализа. Важное внимание уделяется вопросам высокопроизводительного исполнения, что делает возможным применение разработанных решений в условиях больших сетевых нагрузок и реального времени.

Помимо алгоритмических решений, внимание уделяется практическим аспектам: оптимизации сетевого стека Linux, созданию инструментов для публикации и разметки датасетов, а также разработке удобных web-интерфейсов для управления системами анализа. Такой комплексный подход обеспечивает значимый вклад как в развитие теоретических основ анализа сетевого трафика, так и в практическую реализацию технологий, необходимых для обеспечения безопасности и эффективности современных сетей.

Для кого:

увлекается глубоким обучением и хочет изучить, как они применяются к сетевым данным;
хочет понять, как работают классические сигнатурные алгоритмы классификации, и сравнить их с современными ML-подходами;
интересуется высокопроизводительными системами и оптимизацией сетевого стека для работы в условиях больших нагрузок;
хочет развить навыки в области федеративного обучения и защиты приватности при совместной обработке данных;
задумывается о том, как использовать LLM и интерпретируемые модели для анализа сложных сетевых потоков;
стремится научиться работать с реальными датасетами и получать практический опыт в разметке и публикации данных;

Темы исследований:

1. Автоматическая адаптация систем классификации сетевого трафика

Online/Incremental learning: исследование различных подходов и методов работы моделей в условиях изменяющегося характеристик сети или появления новых атак

Transfer learning: использовании предобученных моделей в различных сетевых условиях без необходимости заново собирать и размечать большие датасеты

Разработка ансамбля моделей подходящего для адаптации

2. Оптимизация сетевого стека ОС Linux

Исследование направлено на изучение и оптимизацию работы сетевого стека Linux под разные условия эксплуатации. Актуальность определяется двумя сценариями:

высокоскоростный трафик (10–40 Гбит/с и выше) на конечных серверах и промежуточных устройствах;
мобильный трафик с низкой пропускной способностью и высокими потерями.

В рамках работы планируется создание экспериментальных стендов, анализ архитектуры сетевого стека Linux, изучение инструментов профилирования и статистики, а также исследование методов тюнинга сетевой подсистемы и протокола TCP.

3. Анализ и оптимизация системы высокоскоростного анализа трафика

Исследование посвящено оценке и минимизации задержек при анализе сетевого трафика в режиме «в разрыв» в рамках высокоскоростной системы анализа трафика .

Планируется:

развернуть экспериментальный стенд (источник–приемник), добиться его работоспособности
замерить дополнительную латентность внутренними и внешними средствами
сравнить режимы с парсингом и без
исследовать влияние добавления модулей на производительность системы.

4. Генерация реализуемых атак на модели классификации

Требуются уточнения.

5. Представление и публикация датасетов сетевого трафика

Проблема недостатка и разноформатности доступных датасетов сетевого трафика остаётся актуальной. Предлагается подход к представлению трафика в виде CSV/TSV-файлов (по аналогии с ML IDS Kitsune), что облегчает анализ с помощью Python-инструментов и публикацию в удобном виде. При этом чувствительные данные (IP, MAC) могут быть обезличены с помощью утилит вроде tcprewrite.

Основная цель — разработка инструмента, который позволит не только сохранять трафик в удобочитаемом формате, но и восстанавливать из него «обрезанный» (без payload) корректный pcap/pcapng-файл для совместимости с существующими анализаторами. В работе используются Wireshark-инструменты (tshark, editcap, mergecap) и библиотеки Scapy (Python) или PcapPlusPlus (C++).

Подзадачи включают:

генерацию CSV с достаточным набором полей
написание парсера и разработку конвертера CSV → pcap
тестирование корректности результата.

6. Разметка сетевого трафика локальной сети

Для обучения моделей машинного обучения требуется размеченный набор данных, но в сетевом домене исходные данные обычно представлены лишь в виде pcap/pcapng дампов. Чтобы такие данные превратить в полноценные датасеты, необходимо автоматически собирать и уточнять знания о сети:

пользователях
сервисах
приложениях
используемых адресах/портах.

Цель работы — провести обзор и оценку инструментов, которые можно адаптировать для автоматической разметки сетевого трафика, и на их основе разработать прототип системы автоматической или полуавтоматической разметки.

7. Федеративное обучение для классификации сетевого трафика

Федеративное обучение позволяет обучать модели на распределённых данных без передачи чувствительной информации, что особенно актуально для настройки классификаторов сетевого трафика под конкретных пользователей и организации.

В рамках работы предлагается изучить принципы построения таких систем и разработать прототип совместного обучения классификатора сетевого трафика.

8. Применение LLM для анализа сетевого трафика

В качестве отправного набора датасетов для исследований можно взять найденные нами датасеты мобильных приложений для задачи классификации мобильного трафика.

Для начала их можно единообразно и поподробнее описать:

Используемые признаки и их количество
Общее количество сетевых потоков в датасете и количество потоков на приложение
Структура датасета (какие файлы и их содержимое и взаимосвязь между данными в файлах)
объём датасета в байтах.

9. Эффективная передача сетевого трафика в виртуальные среды

Необходимо реализовать и протестировать на пропускную способность на разных размерах пакетов различные способы проброса трафика в виртуальную машину с целью его последующего анализа в рамках виртуальной машины.

Ранее были проведён ряд подробно описанных экспериментов, но они были проведены на достаточно низкой скорости 1 Гбит/с. Необходимо повторить эти эксперименты на скорости 40 Гбит/сек (и потенциально более) предварительно собрав стенд.

В рамках работы предлагается:

Сборка стенда с использованием высокопроизводительных сетевых карт.
Настроить генератор трафика.
Оценить пропускную способность генерации в режиме воспроизведения ранее записанного pcap файла.
Также необходимо реализовать и протестировать подход проброса с использованием SR-IOV и сетевых функций.

10. Увеличение пропускной способности моделей машинного обучения

Сегодня существует множество способов хранить и запускать ML-модели — от простого pickle в Python до универсальных форматов вроде ONNX и высокопроизводительных решений на C++ Runtime.

Цель работы — провести обзор форматов и инструментов трансляции, исследовать их совместимость с популярными фреймворками (TensorFlow, PyTorch и др.), протестировать производительность на разных платформах (от мобильных устройств до ЦОД) и реализовать прототип, демонстрирующий, как ускорить модели в реальных сценариях.

11. Web-интерфейс для системы анализа трафика

Проект направлен на создание нового удобного веб-интерфейса для системы «Конвеер». Планируется обновить дизайн и повысить удобство работы:

Реализовать вкладки с графом тракта и статистикой
Управление включением/выключением модулей
Редактирование конфигураций прямо из интерфейса, а также настройку просмотра логов.

Итогом станет современный и интуитивный инструмент, облегчающий работу с системой анализа трафика.

12. Получение и анализ трафика IoT устройств

Интернет вещей (IoT) охватывает миллиарды устройств, работающих на разнообразных протоколах и часто уязвимых к атакам.

Цель работы — провести обзор типов IoT-устройств, их сетевых стеков и инструментов анализа (например, Wireshark), а затем построить экспериментальный стенд для сбора и разметки реального IoT-трафика.

В рамках проекта предлагается:

Протестировать разные устройства и протоколы
Создать сценарии их использования и проанализировать угрозы, специфичные для IoT
Сформировать собственный уникальный датасет.