Для решения прикладных задач на семинаре активно применяются методы машинного обучения, в том числе с использованием глубоких нейронных сетей. Ведутся и собственные исследования по этой теме – в основном, направленные на решение проблемы нехватки обучающих данных. Исследуются и разрабатываются алгоритмы активного и проактивного обучения, использования краудсорсинга, адаптации к домену и др. Другое направление – построение систем, устойчивых к изменениям в данных, которые неизменно происходят при длительном эксплуатации системы.
Научные интересы:
- методы атак на нейронные сети и методы защиты от атак;
- робастные и интерпретируемые нейросетевые архитектуры.
Направления работы: | |
---|---|
Регуляризация состязательного обучения | Состязательное обучение (англ. adversarial training) — основной метод защиты от атак на нейронные сети на этапе инференса. К таким атакам относятся градиентная максимизация ошибки модели по входным данных (атаки PGD, C&W), максимизация ошибки при помощи аппроксимации градиента на границе решающего правила (атака HopSkipJump и др.). Состязательное обучение само по себе не обеспечивает удовлетворительной защиты от атак и подвержено оверфиттингу на возмущениях, поэтому нужны и требуют исследований дополнительные техники: регуляризация, сглаживающая функцию потерь, интеграция дополнительных датасетов в процесс обучения (в том числе неразмеченных/синтетических). |
Новые виды атакующих возмущений в состязательных атаках | Наиболее исследованный способ возмущения входных данных в атаках — это возмущения, ограниченные по lp-норме. В некоторых приложениях этот способ неактуален; пример — детекция объектов после съемки камерой, где эффективность атаки снижается из-за зашумления сцены камерой. Даже там, где атаки с lp-нормой имеют смысл — в распознавании изображений, опубликованных в Интернете — простая предобработка картинки может значительно снизить успешность атаки. Поэтому интересное новое направление — атакующие модификации картинок генеративными моделями, где модификации не ограничены по норме, но не должны ухудшать реалистичность изображения. |
Защита от бэкдоров в нейронных сетях | Бэкдор — это свойство модели, заключающееся в заведомо некорректной работе модели (например, предсказании конкретного заведомо некорректного класса моделью) на входных данных с триггером. Триггер — особенность признакового описания объекта, определяемая атакующим таким образом, чтобы она не встречалась в обычных данных и чтобы она выучивалась моделью без существенного снижения точности на обычных данных. Сейчас существуют атаки с бэкдорами как на компьютерное зрение, так и на NLP. Открытые вопросы — как сделать триггер незаметным для жертвы в этих прикладных задачах и как защититься от таких триггеров. |
Интерпретируемые нейросетевые архитектуры | Попытки объяснения результатов работы нейронных сетей ведутся с ~2013 года, но основная группа методов объяснения — градиентная оценка вклада признаков в предсказание (англ. feature attributions) — не снискала большого доверия у разработчиков и пользователей прикладных систем на основе нейронных сетей. Причина этому — разные методы генерируют слишком разные объяснения, а сами объяснения неустойчивы к изменениям входных признаков, в том числе к атакам. Поэтому в научных статьях начали внедрять механизмы объяснения в архитектуру, т.е. в процесс принятия решения моделью. Первая такая архитектура — ProtoPNet, но ее требуется дорабатывать, чтобы она могла соперничать со стандартными state-of-the-art нейронными сетями. |
Защита от кражи моделей | Кражей модели называют восстановление ее решающего правила при помощи многократных запросов предсказаний в режиме черного ящика. Атакующий таким образом строит свою собственную модель, применяя для обучения на предсказаниях модели-жертвы такие методы, как активное обучение (англ. active learning) и дистилляцию (англ. knowledge distillation). Открытое направление — защита от кражи с выявлением подозрительных цепочек запросов к модели. |
Автоматический поиск нейросетевых архитектур, устойчивых к атакам | В научных статьях набирают популярность нестандартные архитектуры сетей для улучшения устойчивости к атакам; примеры — Wide ResNet, RobustResNet (Huang et al. 2022). Уже есть и несколько работ по автоматическому поиску (англ. neural architecture search) таких архитектур, но открытым и требующим исследований вопросом является выбор пространства поиска. |