Современные большие нейросетевые модели, кажется, умеют почти всё: от ведения диалога в режиме чат-бота и генерации изображений по текстовому описанию до анализа визуального контента (изображений и видео). Такие широкие возможности появились примерно с 2021 года благодаря успешной интеграции различных модальностей — в первую очередь текстовой и визуальной — в единую архитектуру.

Ключевым фактором, обеспечившим такой прорыв, стало обучение моделей на экстремально больших объёмах данных, автоматически собранных из интернета. Такой подход позволил моделям приобрести своего рода «базовую интуицию» о структуре и закономерностях реального мира — то есть выучить статистические зависимости между понятиями, объектами и явлениями.

Однако масштабное использование веб-данных привело к снижению их среднего качества и включению в обучающие выборки нежелательного или потенциально опасного контента. В частности, модели могут неявно усваивать и воспроизводить информацию, которую разработчики стремятся исключить из их поведения — например, инструкции по изготовлению взрывных устройств или синтезу запрещенных веществ. При этом критически важно, чтобы модель не только не генерировала подобный контент, но и осознавала его неприемлемость с точки зрения этики и безопасности.

Дополнительные риски возникают в контексте целенаправленных атак: злоумышленники могут пытаться обойти защитные механизмы модели с целью извлечения конфиденциальной информации, генерации вредоносного контента или нарушения корректной работы системы.

Наша исследовательская группа занимается анализом современных мультимодальных языковых моделей (Vision-Language Models, VLM), включая генеративные диффузионные модели, такие как Stable Diffusion. Мы изучаем как прикладные аспекты их использования, так и фундаментальные вопросы, связанные с безопасностью, надёжностью и этичностью их эксплуатации.

Фокус научных интересов и возможные работы:
  • атаки-защиты на VLM/диффузионные модели (под атаками подразумевается провоцирование модели на выдачу плохого ответа);
  • применение диффузионных моделей для аугментации (пополнение набора данных) синтетическими данными;
  • применение VLM для оценки качества и чистки датасетов с изображениями (проверка корректности разметки/аннотации);
  • применение VLM для сегментации OOD объектов (распознавание сущностей, которых не было в процессе обучения).