Направление подготовки

Система управления базой знаний Talisman

Мы разрабатываем платформу, позволяющую пользователю из данных произвольного уровня структурированности пополнять граф знаний и впоследствии проводить глубокую аналитическую работу.

Архитектура поиска

Платформа объединяет три парадигмы (гибридный поиск) для обеспечения максимальной точности.

Метод 01

Полнотекстовый

Поиск по точному совпадению в неструктурированных данных. Идеально для работы с документами, где важно найти конкретные термины, артикулы или цитаты.

Метод 02

Графовый

Поиск по сложным связям в графе знаний. Позволяет выполнять топологические запросы, например: «покажи друзей моих друзей с высшим образованием».

Метод 03

Векторный

Семантический поиск по смыслу с помощью нейросетевых эмбеддингов. Позволяет находить информацию, даже если используются синонимы.

Язык запросов TQL

Talisman Query Language — собственный синтаксис для выражения сложных поисковых намерений.

«квантовый компьютер»~2 && (Документ(.год=2024), Связь>(Концепт(.назв=»*алгоритм Шора*»)))
Интерпретация:

Поиск документов строго за 2024 год, в тексте которых слова «квантовый» и «компьютер» стоят рядом. В графе документ должен иметь прямую связь с концептом «алгоритм Шора».

Внутренняя механика:

Несмотря на жесткую структуру (Текст + Граф), ядро преобразует этот паттерн в единый векторный запрос для глубокого смыслового поиска.

Технический стек

Ядро бэкенда строится на Scala 3 и ZIO 2 — абсолютная отказоустойчивость, строгая типизация и асинхронность.

Библиотека парсинга TQL разрабатывается на Rust + WebAssembly для выполнения сложных операций прямо в браузере клиента.

Гибридный поиск опирается на мощную триаду баз данных: PostgreSQL (связи), Elasticsearch (индексы) и Qdrant (векторы).

Rust + Wasm
Scala 3
ZIO 2
Python
PyTorch
PostgreSQL
Elasticsearch
Qdrant
Docker
Не знаете чего-то из списка? Обучение предусмотрено процессом работы.

Актуальные темы

Выберите задачу для академического исследования: от разработки собственного языка запросов до архитектуры распределенных систем.

TQL
Инструментарий

Разработка языкового сервера (LSP) для TQL

Полноценный LSP-сервер для языка TQL. Интеграция автокомплита, валидации синтаксиса и подсветки ошибок.

TQL
ML

Smart-подсказки TQL по истории и данным

ML-модель автодополнения, анализирующая исторический контекст запросов и свежие данные в графе в реальном времени.

TQL
Алгоритмы

Переформулирование запросов (Query Expansion)

Ввод одного запроса генерирует под капотом множество вариаций (синонимы, топология), которые выполняются параллельно.

Архитектура
СУБД

Универсальный транслятор для распределенных систем

Единый интерфейс, переводящий запрос на языки конкретных баз (SQL, Cypher, API векторов). Парсинг и оптимизация.

HighLoad
Routing

Интеллектуальная маршрутизация (Query Routing)

«Умный» роутер: анализ намерений запроса и перенаправление в оптимальную БД. Алгоритмы классификации и высокие нагрузки.

Search
Ranking

Слияние результатов (Late Fusion) в гибридной среде

Алгоритмы справедливого объединения выдачи из векторного, текстового и графового поиска в единый топ (нормализация скоров).

Databases
Benchmarking

Графовые СУБД против реляционных: битва на плотных графах

Развертывание и сравнительный анализ производительности реляционных и графовых БД на терабайтных массивах связей.

HighLoad
Sharding

Партицирование гигантских графов знаний

Алгоритмы разрезания огромного графа на фрагменты для распределенного хранения с целью минимизации сетевых задержек.

Архитектура
Кэш

Интеллектуальное кэширование в графовых системах

Механизм кэширования тяжелых подграфов и алгоритмы инвалидации кэша при обновлении данных.

Графы
Безопасность

Безопасный поиск: маскирование и RBAC на лету

Внедрение политик безопасности прямо в процесс обхода графа без ущерба для скорости (отсечение невидимых веток).

RAG
Адаптивность

Адаптивный гибридный поиск (Текст vs Смысл)

Алгоритм, динамически подбирающий оптимальную пропорцию весов классического и векторного поиска в зависимости от запроса.

ML
Ранжирование

Переранжирование (Reranking) через графовые метрики

Повышение позиции документа в выдаче за счет анализа его связей и положения в важных кластерах графа.

Вектор
HNSW

Оптимизация векторного поиска при фильтрации

Решение проблемы «разрыва» внутреннего графа HNSW при применении жестких фильтров (например, строго по дате).

Вектор
Сжатие

Экстремальное сжатие данных (квантование) векторов

Поиск оптимального баланса между сжатием векторных баз (экономией RAM) и потерей качества (Recall).