Разработка инструментов и оптимизация проверок моделей ИИ; Мультиаспектное доверие в ИИ-системах

Машинное обучение является мощным инструментом. Однако, статистические подходы, которые заложены в его основу по умолчанию приводят к наличию различных уязвимостей и дефектов, которые могут приводить к некорректному функционированию системы в реальных условиях. Решениям подобных проблем занимается направление доверенного машинного обучения. Важно не только изучать дефекты, уязвимости и устранять их в лабораторных условиях, но и уметь автоматизировать этот процесс в реальных крупных проектах разработки. Большие продуктовые команды разработчиков ML/ИИ систем имеют сжатые сроки разработки, проводят разработку с задействованием MLOps и DevOps решений, необходимо предоставлять удобные инструменты для автоматического тестирования разрабатываемых моделей и систем на безопасность специфичную для ML.

Данное направление посвящено разработке инструментов для практического обеспечения доверия в ИИ/ML системах. Задачи направления включают задачи реализации и поддержке методов доверенного ИИ, оптимизация процессов тестирования, обеспечение совместимости продукта с различными MLOps решениями, разработка модулей аналитики и мониторинга поверх автоматизированных CI/CD тестов безопасности при разработке ML/ИИ систем.

Кому подойдет:

2–3 курс: для тех, кто хочет познакомиться с инженерными аспектами разработки доверенных моделей ИИ, модернизируя научные наработки из уровня единичного лабораторного эксперимента в большую работающую систему;
6 курс/аспирантура: для тех, кто имеет опыт работы с ИИ, доверенным ИИ и заинтересован в разработке инструментов для сертификации моделей, интеграции защитных механизмов и расширяя принципы разработки безопасного ПО спецификой разработки ML/ИИ систем.

Основные направления работы:

Реализация, тестирование и встраивание новых методов доверенного ИИ в систему автоматизированных проверок;
Разработка архитектуры и инструментов для автоматизированного тестирования и сертификации моделей;
Оптимизация процессов проверки и вычислений в распределенных и масштабируемых средах;
Разработка модулей аналитики и мониторинга поверх автоматизированных CI/CD тестов безопасности при разработке ML/ИИ систем.

Темы для дипломных работ:

Автоматизация проверки устойчивости моделей ИИ в распределённых пайплайнах MLOps;
Снижение вычислительной нагрузки проверок приватности через интеллектуальное прогнозирование утечек;
Автоматическая идентификация критических точек уязвимости модели к отравлению данных.

Темы для кандидатских работ:

Прогнозирование деградации метрик доверия моделей при непрерывном обновлении данных посредством дообучения;
Оптимизация проверки моделей на устойчивость с использованием повторно обучаемых критических сценариев;
Автоматизированная генерация рекомендаций по улучшению доверия модели на основе анализа ошибок и градиентов.

Используемые в работе технологий/библиотек:
PyTorch, Jax, TensorFlow, MLFlow, ClearML, Hydra, CI/CD инструменты, распределенные среды обучения, фреймворки Центра доверенного ИИ ИСП РАН.

Актуальность и более подробное введение в тематику направления:
Машинное обучение стало стандартным инструментом при решении задач в финансах, промышленности, медицине, логистике и государственном управлении. При этом большинство моделей строятся на статистических предпосылках и эмпирической оптимизации, что приводит к системным ограничениям. Модели уязвимы к атакам уклонения и отравлению данных, могут допускать утечки приватной информации, демонстрируют нестабильность при сдвиге распределений и не обладают формальными гарантиями корректного поведения вне обучающей выборки.

В академических исследованиях эти проблемы активно изучаются. Однако в промышленной практике возникает дополнительный уровень сложности: модели разрабатываются в рамках MLOps/DevOps-процессов, проходят через CI/CD-пайплайны, обучаются в распределённых средах и регулярно обновляются. В этих условиях проверки устойчивости, приватности и других аспектов доверия должны быть автоматизированы, масштабируемы и воспроизводимы. Существующие методы доверенного ИИ в большинстве случаев не интегрированы в такие процессы и применяются как разовые эксперименты, а не как системный элемент инфраструктуры разработки.

Ключевая задача направления устранение разрыва между методами доверенного ИИ из статей и требованиями индустриальной разработки. Речь идет не только об анализе уязвимостей, но о создании архитектур и инструментов, которые обеспечивают регулярную и автоматизированную проверку моделей на всех этапах жизненного цикла: от обучения до эксплуатации.

Работа группы сосредоточена на нескольких взаимосвязанных векторах. Во-первых, это интеграция методов доверенного ИИ в автоматизированные пайплайны. Требуется формализация проверок устойчивости и приватности таким образом, чтобы они могли выполняться при каждом обновлении модели и корректно встраиваться в существующие MLOps-стеки. Во-вторых, разрабатываются архитектуры масштабируемого тестирования и сертификации моделей, поддерживающие распределенные вычислительные среды и кластерное обучение. Это включает проектирование интерфейсов, унификацию сценариев проверки и разработку рекомендаций безопасной, доверенной разработки.

Отдельный вектор работ связан с уменьшением стоимости проверок. Методы устойчивого обучения, дифференциальной приватности, комплексные проверки на безопасность могут требовать множество повторных обучений, что существенно увеличивают вычислительную нагрузку и стоимость таких проверок. В рамках исследований изучаются подходы интеллектуального кэширования вычислений, повторного использования промежуточных результатов и адаптации защитных алгоритмов для алгоритмического ускорения проверок.

Еще один вектор работы это системы аналитики. При выявлении несоответствия разработанной модели требованиям доверия и безопасности требуется не только сообщить о наличии проблемы, но и предоставить расширенный аналитический отчет о выявленных проблемах, а также сформировать перечень рекомендаций для их устранения.

Для того, чтобы все это было возможным важен научный фундамент, который позволяет непротиворечиво сочетать различные методы обеспечения всестороннего доверия, этим занимается направление “Синергия и математическое моделирование доверия”.