Машинное обучение опирается на предположение, что распределение данных, на которых будет работать модель, похоже на то, что использовалось при обучении. Даже если получится соблюсти это предположение изначально, нет гарантий, что ваша модель прослужит долго. Данные динамичны, их распределения постоянно меняются, особенно если говорить о данных из интернет-медиа. Поэтому встают задачи, связанные с развитием методов детекции изменений и предсказания деградации моделей (особенно интересны постановки задач с существенным запозданием получения меток или существенным ограничением бюджета разметки), поддержания моделей в актуальном состоянии, а также разработки инфраструктуры, автоматизирующей процессы мониторинга и обновления моделей.
Командой ведутся исследования по:
- непрерывному обучению (lifelong/continuous learning);
- обнаружению аномалий и изменений в распределениях данных (out of distribution detection);
- выбору примеров для тестирования (test set volume optimization).
Также ведется разработка своего MLOps решения, поддерживающего все эпаты жизненного цикла и описанные сценарии функционирования моделей в нестационарной среде.