Обработка полуструктурированных данных. Огромное количество информации хранится в виде полуструктурированных документов (тексты законов, технические задания, инструкции и многое другое). Такие документы могут содержать таблицы, явные и неявные разбиения на пункты и подпункты, определения и другую информацию. Для эффективного применения методов анализа текстов на естественном языке может быть полезно выявление структуры в таких документах и представление их в структурированном виде.
Направления исследований:
- Основное из направлений исследований является Автоматическая обработка электронных документов различных форматов (PDF, сканированных документов, DOCX, HTML, TXT и т.д.) с целью извлечения их содержимого и логической структуры в едином унифицированном формате «Dedoc«[1]. Большинство электронных документов не обладают внутренней структурой (является неструктурированными или слабо-струкутрированными), такими документами являются PDF, сканированные документы (представленные изображениями). По этой причине последующий интеллектуальный анализ содержимого данных документов практически невозможен без предварительной обработки, извлечения содержимого и восстановления логической структуры данных документов. Благодаря этому появляется возможность автоматически обрабатывать электронные документы различных форматов привлечения без помощи человека:
— полно-структурированных (с использованием существующих библиотек, например для анализа распространенных типов HTML, так и написания собственных для анализа DOCX, PDF с текстовым слоем);
— слабо-структурированных, таких как PDF без текстового слоя, изображения сканированных документов. Данное направление актуально и активно развиваются в ИСП РАН, результаты разработки используются в разрабатываемых в ИСП РАН продуктах платформе сбора и поиска информации «Talisman» и системе анализа исчезающих языков «Lingvodoc«. Разработанный алгоритм по извлечение логической структуры выигрывал международное соревнование «FinTOC 2022«. - Направление извлечения информации из изображений юридических и финансовых документов. Заключается в предварительной обработке изображений документов: очистка фона, выравнивание, локализация документов, локализация и распознавание текстов на документе.
- Дополнительные направления по распознаванию и отождествлению лиц в применения к разным задачам.
- Исследование интепретируемости нейросетевого метода для решения задачи исправления ориентации изображения сканированного документа.
Набор студентов: набора нет в 2024
Возможные будущие направления исследований:
- Извлечение ключевых полей из изображений документов с использованием методов подготовки тренировочных данных с помощью «soft labeling» и генерации данных;
- Генерация синтетических данных с разметкой для задач извлечения ключевых полей;
- Распознавание табличной информации из изображений;
Научные интересы:
- Искуственный интеллект — сети области Computer Vision
- Интеллектуальная обработка изображений документов — Document Image Understanding, Document Image Analysis, Table Understanding;
- Сегментация изображений — Document Image Analysis, Object Detection;
- Машинное обучение;
- Создание синтетических наборов данных.
Публикации:
- Описание технологии «Dedoc: система извлечения содержимого и структуры текстовых документов».
- ISPRAS@FinTOC-2021 Shared Task: Two-stage TOC generation model(https://aclanthology.org/2021.fnp-1.15) (Kozlov et al., FNP 2021) (https://aclanthology.org/2021.fnp-1.15/)
- Bogatenkova A. et al. ISPRAS@ FinTOC-2022 Shared Task: Two-stage TOC Generation Model //Proceedings of the 4th Financial Narrative Processing Workshop@ LREC2022. – 2022. – С. 89-94.
- BELYAEVA O.V., PERMINOV A.I., KOZLOV I.S. Synthetic data usage for document segmentation models fine-tuning. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2020;32(4):189-202. (In Russ.) https://doi.org/10.15514/ISPRAS-2020-32(4)-14
- A. O. Bogatenkova, I. S. Kozlov, O. V. Belyaeva, A. I. Perminov, “Logical structure extraction from scanned documents”, Proceedings of ISP RAS, 32:4 (2020), 175–188 (Презентация)
- Akopyan M. S. et al. Text recognition on images from social media //2019 Ivannikov Memorial Workshop (IVMEM). – IEEE, 2019. – С. 3-6. (Презентация)
- PERMINOV A.I., TURDAKOV D.Yu., BELYAEVA O.V. Loss functions for train document image segmentation models. Proceedings of the Institute for System Programming of the RAS (Proceedings of ISP RAS). 2022;34(2):89-110. (In Russ.) https://doi.org/10.15514/ISPRAS-2022-34(2)-8