Направление посвящено исследованию способов одновременного обеспечения нескольких аспектов доверия к ИИ-системам: безопасности, защищённости, приватности, интерпретируемости, этичности и других. Основная сложность заключается в том, что эти аспектов взаимосвязаны: они могут как усиливать друг друга, так и вступать в противоречие. Например, повышение интерпретируемости модели иногда снижает её устойчивость к атакам.
Исследования направлены на поиск баланса между различными аспектами доверия, анализ достижимых комбинаций и разработку практических ИИ-систем, способных безопасно работать в критически важных областях: в промышленности, медицине, финансах и беспилотных системах.
Кому подойдет:
- Тем, кого интересуют междисциплинарные исследования и кто хочет получить опыт на стыке теории и практики ИИ;
- Тем, кто хочет решать фундаментальные задачи, необходимые для внедрения ИИ в критическую инфраструктуру (медицину, финансы, промышленность и др.);
- Тем, кто ищет баланс между теоретической и прикладной составляющими исследований.
Стек технологий/библиотек: PyTorch, надстройки над PyTorch (Torchvision, PyTorch Geometric, etc), Scikit-learn, Matplotlib, NumPy, ONNX, ART, фреймворки Центра доверенного искусственного интеллекта ИСП РАН..
Актуальность:
Доверенный искусственный интеллект (ДИИ) — это концепция и совокупность подходов к созданию и использованию ИИ-систем, которые обладают характеристиками, обеспечивающими их надежность, безопасность, прозрачность, соответствие этическим нормам и так далее, наличие которых принципиально необходимо для внедрения в критическую инфраструктуру (медицина, финансы, сложные производственные процессы, беспилотники и так далее). Основными свойствами доверия к ИИ-системам, выделяемыми в литературе, являются:
- Безопасность — свойство ИИ-системы характеризующее ее устойчивость к неумышленным проблемам в данных, среде или условиях эксплуатации, которые могут повлиять на корректность работы системы.
- Защищенность — устойчивость к атакам, которые представляют собой умышленные зловредные воздействия вызывающие нарушение приватности или приводящей к некорректному поведению ИИ-системы (иногда выделяют как составляющую безопасности, а безопасность расширяют до устойчивости к любым проблемам, которые могут привести к нештатной работе системы).
- Интерпретируемость — способность объяснять свои решения и действия, обеспечивая возможность проверки специалистами прикладной области, которые не являются специалистами ИИ (например, врачами в медицинском приложении ИИ-систем).
- Этичность — соответствие морально-этическим принципам, включая справедливость обеспечивая отсутствие предвзятости и дискриминации в обработке данных и принятии решений.
- Приватность — обеспечение анонимности при работе с персональными данными и конфиденциальной информации, предотвращение их несанкционированного использования или утечки.
На данный момент есть множество исследований, которые пытаются обеспечить один из аспектов доверия (если он слишком комплексный, то его часть. Например, обеспечить защиту от одной угрозы из множества угроз при обеспечении защищенности).
Однако, как показали некоторые последние исследования центра доверенного искусственного интеллекта ИСП РАН, а также ряд работ других исследователей, при обеспечении одного аспектов доверия могут возникать новые типы уязвимостей. Обеспечение нескольких аспектов доверия одновременно является значительно более сложной задачей, которая требует дополнительных исследований.
Основные векторы работ направления:
| № | Вектор работ | Цель | Варианты тем дипломных работ | Варианты тем кандидатских работ |
|---|---|---|---|---|
| 1. | Экспериментальное изучение синергии и дисинергии аспектов доверия | Понять, как различные методы обеспечения доверия влияют друг на друга на практике. ● Создание бенчмарков, где разные комбинации методов проверяются в стандартных сценариях (например, приватность + интерпретируемость). ● Выявление скрытых уязвимостей, возникающих при комбинировании методов обеспечения доверия. | ● Экспериментальная оценка устойчивости моделей с обучаемой интерпретацией к состязательным атакам; ● Разработка и исследование методов улучшения устойчивости к атакам уклонения в рамках обучения с дифференциальной приватностью на малых выборках данных. | ● Аудит приватности обученных моделей машинного обучения без знания параметров ε и δ дифференциальной приватности; ● Одновременное противодействие атакам отравления и уклонения; ● Разработка методов обучения интерпретируемых моделей не приводящая к повышению уязвимости модели к атакам уклонения. |
| 2. | Математическое исследование конфликтов и достижимых комбинаций доверия | Построить строгие формальные модели, описывающие, какие комбинации аспектов доверия можно обеспечить одновременно, а какие взаимно исключают друг друга. ● Разработка теоретических основ многопараметрической оптимизации доверия; ● Моделирование «границ достижимости» для ИИ-систем. | ● Математическая модель компромисса между точностью и приватностью в методах дифференциальной приватности; ● Разработка функции потерь, позволяющая обучить модель со свойством выявления данных вне обучающей выборки; ● Анализ достижимости одновременного выполнения более двух различных аспектов доверия в простых нейронных сетях (при использовании только линейных слоёв на малых размерностях). | ● Математическая теория конфликтов аспектов доверия в ИИ-системах; ● Многопараметрической оптимизация нейронных сетей при многокомпонентной функции потери; ● Модели и методы количественной оценки совместимости аспектов доверия. |
| 3. | Инженерная и прикладная составляющая доверенного ИИ | Сделать методы доверенного ИИ практически применимыми в реальных системах, а также решения инженерных вопросов работы с большими объемами данных, оптимизацией планирования и использования вычислительных ресурсов. ● Адаптация существующих методов для масштабных приложений (работа в дата-центрах, распределенные среды, асинхронные вычисления); ● Встраивание аспектов доверия в промышленные пайплайны обучения и эксплуатации моделей. | ● Адаптация методов защиты от атак уклонения при обучении на кластере; ● Определение направления движения сельскохозяйственного дрона без данных GPS; ● Исследование влияния кэширования градиентов на приватность при дифференциальном обучении. | ● Разработка фреймворка для мониторинга аспектов доверия в работающей ИИ-системе; ● Автоматическая корректировка курса сельскохозяйственных дронов без данных GPS; ● Методы интеллектуального кеширования вычислений в доверенных ИИ-системах. |
Замечание относительно тем курсовых, дипломных и кандидатских работ:
Мультиаспектное доверие – это чрезвычайно обширная область, в рамках которой можно сформулировать множество интересных исследовательских задач. Поэтому, если вы, обучаясь на 3–4 курсе или поступая в аспирантуру, сможете предложить собственную тему, связанную с пересечением нескольких аспектов доверия к ИИ-системам, мы обязательно обсудим её на собеседовании и рассмотрим возможность включения в план вашей работы.
