Talisman – это комплекс взаимосвязанных программных инструментов для автоматизации типовых задач обработки данных, включая их сбор, интеграцию, анализ, хранение и визуализацию. Обеспечивает быструю разработку специализированных многопользовательских аналитических систем, объединяющих информацию из внутренних баз данных и открытых источников сети Интернет (в том числе из социальных сетей). Разработан в Отделе информационных систем ИСП РАН.

Особенности и преимущества

Talisman объединяет компоненты для работы с большими данными. В качестве базовых сервисов использует такие технологии ИСП РАН, как Dedoc (система извлечения структуры документов) и Texterra (платформа для извлечения семантики из текста). Сопоставим с лучшими мировыми аналогами (Palantir Gotham и IBM Watson Content Analytics). Преимущество – автоматизация рутинных процессов с помощью последних научных достижений (сокращает затраты на аналитиков).

Talisman – это:

  • Широкий набор переиспользуемых компонентов, каждый из которых обладает программным интерфейсом для удобного управления и взаимной интеграции:
  • компоненты для получения исходных данных. В частности, это программный комплекс сбора данных из сети Интернет: из соцсетей (Вконтакте, Facebook, Twitter, Instagram, Одноклассники, Youtube, LinkedIn и др.), блогов, СМИ, сайтов mediawiki, порталов разработчиков ПО и др. Кроме того, есть система импорта данных из файловых хранилищ и СУБД.
  • компоненты автоматического анализа данных. Инструменты анализа представляют собой Docker-контейнеры с программным интерфейсом под управлением системы «Talisman.Поток» (№6045 в Едином реестре российского ПО). На выходе данные сохраняются в файлы на жёстких дисках или в СУБД (PostgreSQL, ElasticSearch, Cassandra и др.). В качестве базовых сервисов используются система распознавания текста на изображениях Tesseract и собственные разработки ИСП РАН.
  • компоненты хранения и индексации. Это группа СУБД и информационно-поисковых систем, где хранятся исходные данные, результаты автоматической обработки, а также результаты работы пользователей. 
  • Удобный веб-интерфейс, который объединяет все компоненты, предполагающие взаимодействие с пользователями.
  • Гибкая модульная архитектура, позволяющая добавлять новые функции в отдельные компоненты без изменения большинства остальных.
  • Горизонтально масштабируемая архитектура, позволяющая увеличивать объёмы обрабатываемых и хранимых данных без изменения программной части за счёт добавления аппаратных ресурсов.
  • Специализированные подсистемы, которые отвечают за мониторинг состояния компонентов, управление журналом событий, развёртывание, аутентификацию и авторизацию, разграничение прав доступа, а также однонаправленную передачу данных.
  • Инструменты и методики обучения моделей машинного обучения, а также переноса имеющихся моделей и алгоритмов на новую предметную область;
  • Настраиваемая схема предметной области с возможностью внесения изменений оператором в процессе эксплуатации системы.
  • Полная отчуждаемость разрабатываемых систем. Каждая из них может быть развёрнута на площадке заказчика −­ как на существующем оборудовании, так и в составе программно-аппаратного комплекса. 
  • Интеграция с внутренними системами потребителя благодаря наличию программного интерфейса для управления всеми компонентами.
  • Лицензионная чистота благодаря базированию на собственных разработках ИСП РАН и свободном ПО.

Области применения

  • Автоматизация построения базы знаний по интересующей предметной области и обеспечение постоянного мониторинга новой информации об объектах интереса.
  • Проведение конкурентной разведки по открытым данным (OSINT).
  • Выявление информационных кампаний, манипулирующих мнением целевой аудитории, а также определение целевой аудитории, на которую направлена кампания.
  • Выявление и анализ особенностей инфраструктуры распространения информации (ресурсы, пользователи, боты), а также анализ типичных ролей членов сообществ в коммуникации (первоисточник, лидер мнения, распространитель, модератор, бот, комментатор).
  • Управление деловой репутацией людей и организаций: мониторинг релевантных сообщений, выявление проблем, вызывающих недовольство, мониторинг утечек и разглашения внутренней информации.
  • Оптимизация управления персоналом (эффективный подбор сотрудников, верификация анкетных данных, выявление скрытой деятельности, помощь в разработке систем мотивации).
  • Объективная оценка эффективности деятельности, а также тестирование стратегий на целевой аудитории в целях получения обратной связи. 
  • Выявление и управление точками социального напряжения; обнаружение и своевременное предупреждение эскалации конфликтов.

Используемые языки

В настоящее время Talisman использует языки, распознаваемые анализатором Texterra (русский и английский).

Схема работы