Talisman – это комплекс взаимосвязанных программных инструментов для автоматизации типовых задач обработки данных, включая их сбор, интеграцию, анализ, хранение и визуализацию. Обеспечивает быструю разработку специализированных многопользовательских аналитических систем, объединяющих информацию из внутренних баз данных и открытых источников сети Интернет (в том числе из социальных сетей). Разработан в Отделе информационных систем ИСП РАН.
Особенности и преимущества
Talisman объединяет компоненты для работы с большими данными. В качестве базовых сервисов использует такие технологии ИСП РАН, как Dedoc (система извлечения структуры документов) и Texterra (платформа для извлечения семантики из текста). Сопоставим с лучшими мировыми аналогами (Palantir Gotham и IBM Watson Content Analytics). Преимущество – автоматизация рутинных процессов с помощью последних научных достижений (сокращает затраты на аналитиков).
Talisman – это:
- Широкий набор переиспользуемых компонентов, каждый из которых обладает программным интерфейсом для удобного управления и взаимной интеграции:
- компоненты для получения исходных данных. В частности, это программный комплекс сбора данных из сети Интернет: из соцсетей (Вконтакте, Facebook, Twitter, Instagram, Одноклассники, Youtube, LinkedIn и др.), блогов, СМИ, сайтов mediawiki, порталов разработчиков ПО и др. Кроме того, есть система импорта данных из файловых хранилищ и СУБД.
- компоненты автоматического анализа данных. Инструменты анализа представляют собой Docker-контейнеры с программным интерфейсом под управлением системы «Talisman.Поток» (№6045 в Едином реестре российского ПО). На выходе данные сохраняются в файлы на жёстких дисках или в СУБД (PostgreSQL, ElasticSearch, Cassandra и др.). В качестве базовых сервисов используются система распознавания текста на изображениях Tesseract и собственные разработки ИСП РАН.
- компоненты хранения и индексации. Это группа СУБД и информационно-поисковых систем, где хранятся исходные данные, результаты автоматической обработки, а также результаты работы пользователей.
- Удобный веб-интерфейс, который объединяет все компоненты, предполагающие взаимодействие с пользователями.
- Гибкая модульная архитектура, позволяющая добавлять новые функции в отдельные компоненты без изменения большинства остальных.
- Горизонтально масштабируемая архитектура, позволяющая увеличивать объёмы обрабатываемых и хранимых данных без изменения программной части за счёт добавления аппаратных ресурсов.
- Специализированные подсистемы, которые отвечают за мониторинг состояния компонентов, управление журналом событий, развёртывание, аутентификацию и авторизацию, разграничение прав доступа, а также однонаправленную передачу данных.
- Инструменты и методики обучения моделей машинного обучения, а также переноса имеющихся моделей и алгоритмов на новую предметную область;
- Настраиваемая схема предметной области с возможностью внесения изменений оператором в процессе эксплуатации системы.
- Полная отчуждаемость разрабатываемых систем. Каждая из них может быть развёрнута на площадке заказчика − как на существующем оборудовании, так и в составе программно-аппаратного комплекса.
- Интеграция с внутренними системами потребителя благодаря наличию программного интерфейса для управления всеми компонентами.
- Лицензионная чистота благодаря базированию на собственных разработках ИСП РАН и свободном ПО.
Области применения
- Автоматизация построения базы знаний по интересующей предметной области и обеспечение постоянного мониторинга новой информации об объектах интереса.
- Проведение конкурентной разведки по открытым данным (OSINT).
- Выявление информационных кампаний, манипулирующих мнением целевой аудитории, а также определение целевой аудитории, на которую направлена кампания.
- Выявление и анализ особенностей инфраструктуры распространения информации (ресурсы, пользователи, боты), а также анализ типичных ролей членов сообществ в коммуникации (первоисточник, лидер мнения, распространитель, модератор, бот, комментатор).
- Управление деловой репутацией людей и организаций: мониторинг релевантных сообщений, выявление проблем, вызывающих недовольство, мониторинг утечек и разглашения внутренней информации.
- Оптимизация управления персоналом (эффективный подбор сотрудников, верификация анкетных данных, выявление скрытой деятельности, помощь в разработке систем мотивации).
- Объективная оценка эффективности деятельности, а также тестирование стратегий на целевой аудитории в целях получения обратной связи.
- Выявление и управление точками социального напряжения; обнаружение и своевременное предупреждение эскалации конфликтов.
Используемые языки
В настоящее время Talisman использует языки, распознаваемые анализатором Texterra (русский и английский).
Схема работы
