Методы подготовки наборов данных

Современные алгоритмы искусственного интеллекта поражают воображение: пишут тексты, рисуют картины, сдают экзамены. Можно подумать, что скоро половина офисов опустеют, потому что целые отрасли окажутся не нужны. Может и так! Но как на смену ручному переписыванию книг пришел печатный станок, а работы сильно меньше не стало (но стало больше книг), так и завтра могут возникнуть новые профессии, связанные с включением новых, более эффективных инструментов в работу людей.

Несмотря на то, что большие языковые модели могут успешно решать задачи, решению которых их не обучали специально, они не могут решать любые такие задачи, а кроме того, требуют для работы целый вычислительный кластер. Поэтому для специальных задач, требующих экспертных знаний, не теряют актуальности задачи дообучения больших моделей или обучения более простых специализированных моделей. И чтобы обучать алгоритмы (как, собственно, и студентов) все еще нужны размеченные данные: «задачи» и «ответы». Что там будет, то модель и выучит, поэтому репрезентативность задач и правильность ответов очень важны. Иначе получится «забудьте всё, чему вас учили в университете, на заводе всё иначе».

Мы следим за приватностью, поэтому текст «заключения» не настоящий, но похож, и поди разберись в таком, если сам не онколог.

Находить пожарные гидранты на фотографиях улиц умеют более-менее все, а вот со сложными экспертными задачами иногда оказывается, что даже профессионалам трудно прийти к общему мнению. Когда пару лет назад мы начали заниматься цифровой медициной, врачи рассказали нам анекдот, что «где два врача, там три мнения». Что получится в таких условиях, если просто раздавать клинические случаи и без проверок сохранять ответы? Понятно, что ничего хорошего. И хотя, конечно, не любые медицинские задачи такие, но как узнать заранее?

Поэтому в нашей научной группе мы как раз и занимаемся вопросами эффективной организации получения качественных наборов данных: как раздавать задачи? Как оценивать степень согласия экспертов? Как отфильтровывать некачественные ответы? Нельзя ли часть рутины свалить на роботов? Не обленятся ли эксперты?

По дашборду видно, что к счастью, в основном осложнений нет. Но уровень согласия невысокий (и увы, конкретные значения трудно интерпретировать)

Все свои разработки включаем в нашу технологию ИСП РАН: Колба. Код пишем в основном на Python и Typescript. Публичного демо у нас пока нет, но вот выше скриншотики как раз из неё.

Направления работы
Модель процесса аннотирования	Как можно организовывать аннотирование? Тестирование экспертов? Парная работа? Как вообще устроены эксперты, от чего зависит вероятность ошибки? Как выстроить их взаимодействие с системой, чтобы её минимизировать?
Оптимизация выбора очередной задачи	Как дешевле всего получить максимально качественные аннотации для данных задачи и экспертов?
«Мониторинг» качества набора данных	Как по полученным аннотациям возможно заранее понять, получится ли обучить на этом какую-то модель (тут рядом и AutoML)?
Фильтрация аннотаций	Где шум, а где сигнал?