Направление сосредоточено на исследовании одновременного обеспечения нескольких критериев доверия к ИИ-системам, таких как безопасность, приватность, интерпретируемость и этичность. В рамках данного направления рассматриваются сложные проблемы, возникающие при попытке интеграции этих критериев, их взаимного влияния и новым проблемам, которые могут возникать при их взаимодействии. Например, обеспечение безопасности системы может привести к новым угрозам для приватности данных, а повышение интерпретируемости может повлиять на эффективность защиты от атак.

Кому подойдет:

  • Тем, кого всегда интересовали междисциплинарные исследования и хочется получить такой опыт при изучении и построении ИИ-систем;
  • Тем, кого интересуют вопросы, решение которых необходимо для внедрения в критическую инфраструктуру (медицине, финансах, процессах производства и так далее);
  • Тем, кто хочет иметь баланс между теоретической и прикладной составляющих в исследованиях.

Стек технологий/библиотек: PyTorch, надстройки над PyTorch (Torchvision, PyTorch Geometric, etc), Scikit-learn, Matplotlib, NumPy, ONNX, ART, фреймворки центра ДИИ ИСП РАН.

Актуальность:

Доверенный искусственный интеллект (ДИИ) — это концепция и совокупность подходов к созданию и использованию ИИ-систем, которые обладают характеристиками, обеспечивающими их надежность, безопасность, прозрачность, соответствие этическим нормам и так далее, наличие которых принципиально необходимо для внедрения в критическую инфраструктуру (медицина, финансы, сложные производственные процессы, беспилотники и так далее). Основными свойствами доверия к ИИ-системам, которые выделяются в литературе:

  • Безопасность — свойство ИИ-системы характеризующее ее устойчивость к неумышленным проблемам в данных, среде или условиях эксплуатации, которые могут повлиять на корректность работы системы.
  • Защищенность —  устойчивость к атакам, которые представляют собой умышленные зловредные воздействия вызывающие нарушение приватности или приводящей к некорректному поведению ИИ-системы (иногда выделяют как составляющую безопасности, а безопасность расширяют до устойчивости к любым проблемам, которые могут привести к нештатной работе системы).
  • Интерпретируемость — способность объяснять свои решения и действия, обеспечивая возможность проверки специалистами прикладной области, которые не являются специалистами ИИ (например, врачами в медицинском приложении ИИ-систем).
  • Этичность — соответствие морально-этическим принципам, включая справедливость обеспечивая отсутствие предвзятости и дискриминации в обработке данных и принятии решений.
  • Приватность — обеспечение анонимности при работе с персональными данными и конфиденциальной информации, предотвращение их несанкционированного использования или утечки.

На данный момент есть множество исследований, которые пытаются обеспечить один из критериев доверия (если он слишком комплексный, то его часть. Например, обеспечить защиту от одной угрозы из множества угроз при обеспечении защищенности). Однако, как показали некоторые последние исследования центра доверенного искусственного интеллекта ИСП РАН, а также ряд работ других исследователей, при обеспечении одного критерия доверия могут возникать новые типы уязвимостей. Также, обеспечить выполнение нескольких критериев одновременно является более сложной задачей, которая требует дополнительных исследований.

Основные темы исследований запланированные на ближайшие годы:

Атаки уклонения и backdoor-атаки: исследование взаимных влияний и методов защитыАтаки уклонения направлены на то, чтобы манипулировать входными данными таким образом, чтобы обмануть модель и заставить ее делать неправильные выводы. В свою очередь, backdoor-атаки представляют собой угрозу, при которой злоумышленник внедряет скрытую уязвимость в модель, которая активируется при определённых условиях, например, при наличии заранее заданной метки или шаблона на входных данных.
Целью исследования является изучение взаимных влияний между атаками уклонения и backdoor-атаками, с акцентом на то, как одна угроза может усиливать или ослаблять другую. Важной частью исследования будет разработка методов защиты, направленных на нейтрализацию этих угроз одновременно.
Атаки уклонения и угрозы приватности: взаимосвязь и подходы к защитеАтаки на приватность, включают угрозы, направленные на извлечение конфиденциальной информации о данных, используемых для обучения модели. Например, одной из наиболее значимых угроз в этой области являются MI атаки (membership inference attacks), которые направлены на вывод о членстве конкретного элемента в тренировочном наборе данных. Такие атаки позволяют злоумышленникам определить, принадлежит ли определенный объект к данным, использованным для обучения модели.
Основная задача исследования заключается в изучении взаимосвязи между атаками уклонения и угрозами приватности, с акцентом на то, как уязвимости эксплуатируемые одним типом угроз могут использоваться атакующим для проведения второй атаки. Рассматривая эти угрозы в совокупности, исследования направлены на разработку комплексных методов защиты, которые будут учитывать взаимное влияние атак уклонения и атак на приватность.
Атаки на системы федеративного обучения: уязвимости и методы защитыТема исследований посвящена изучению ключевых уязвимостей, с которыми сталкиваются системы федеративного обучения, а также анализу методов защиты от умышленных атак. Федеративное обучение, как подход к распределенному обучению моделей машинного обучения без необходимости централизованного сбора данных, становится все более популярным в различных областях. Однако его децентрализованный характер открывает новые возможности для злоумышленников, стремящихся воздействовать на модели, нарушить их работу или украсть конфиденциальную информацию.
Основная цель исследований заключается в выявлении и анализе уязвимостей, которые могут быть использованы при атаках на системы федеративного обучения. Такие атаки могут варьироваться от манипулирования моделями путем внедрения вредоносных данных до целенаправленных атак на процесс обновления модели, что может привести к потере точности, искажению результатов или даже компрометации конфиденциальности участников обучения.