Направление подготовки
Система управления
базой знаний Talisman
Мы разрабатываем платформу, позволяющую пользователю из данных произвольного уровня структурированности пополнять граф знаний и впоследствии проводить глубокую аналитическую работу.
Архитектура поиска
Платформа объединяет три парадигмы (гибридный поиск) для обеспечения максимальной точности.
Полнотекстовый
Поиск по точному совпадению в неструктурированных данных. Идеально для работы с документами, где важно найти конкретные термины, артикулы или цитаты.
Графовый
Поиск по сложным связям в графе знаний. Позволяет выполнять топологические запросы, например: «покажи друзей моих друзей с высшим образованием».
Векторный
Семантический поиск по смыслу с помощью нейросетевых эмбеддингов. Позволяет находить информацию, даже если используются синонимы.
Язык запросов TQL
Talisman Query Language — собственный синтаксис для выражения сложных поисковых намерений.
Поиск документов строго за 2024 год, в тексте которых слова «квантовый» и «компьютер» стоят рядом. В графе документ должен иметь прямую связь с концептом «алгоритм Шора».
Несмотря на жесткую структуру (Текст + Граф), ядро преобразует этот паттерн в единый векторный запрос для глубокого смыслового поиска.
Технический стек
Ядро бэкенда строится на Scala 3 и ZIO 2 — абсолютная отказоустойчивость, строгая типизация и асинхронность.
Библиотека парсинга TQL разрабатывается на Rust + WebAssembly для выполнения сложных операций прямо в браузере клиента.
Гибридный поиск опирается на мощную триаду баз данных: PostgreSQL (связи), Elasticsearch (индексы) и Qdrant (векторы).
Scala 3
ZIO 2
Python
PyTorch
PostgreSQL
Elasticsearch
Qdrant
Docker
Актуальные темы
Выберите задачу для академического исследования: от разработки собственного языка запросов до архитектуры распределенных систем.
Инструментарий
Разработка языкового сервера (LSP) для TQL
Полноценный LSP-сервер для языка TQL. Интеграция автокомплита, валидации синтаксиса и подсветки ошибок.
ML
Smart-подсказки TQL по истории и данным
ML-модель автодополнения, анализирующая исторический контекст запросов и свежие данные в графе в реальном времени.
Алгоритмы
Переформулирование запросов (Query Expansion)
Ввод одного запроса генерирует под капотом множество вариаций (синонимы, топология), которые выполняются параллельно.
СУБД
Универсальный транслятор для распределенных систем
Единый интерфейс, переводящий запрос на языки конкретных баз (SQL, Cypher, API векторов). Парсинг и оптимизация.
Routing
Интеллектуальная маршрутизация (Query Routing)
«Умный» роутер: анализ намерений запроса и перенаправление в оптимальную БД. Алгоритмы классификации и высокие нагрузки.
Ranking
Слияние результатов (Late Fusion) в гибридной среде
Алгоритмы справедливого объединения выдачи из векторного, текстового и графового поиска в единый топ (нормализация скоров).
Benchmarking
Графовые СУБД против реляционных: битва на плотных графах
Развертывание и сравнительный анализ производительности реляционных и графовых БД на терабайтных массивах связей.
Sharding
Партицирование гигантских графов знаний
Алгоритмы разрезания огромного графа на фрагменты для распределенного хранения с целью минимизации сетевых задержек.
Кэш
Интеллектуальное кэширование в графовых системах
Механизм кэширования тяжелых подграфов и алгоритмы инвалидации кэша при обновлении данных.
Безопасность
Безопасный поиск: маскирование и RBAC на лету
Внедрение политик безопасности прямо в процесс обхода графа без ущерба для скорости (отсечение невидимых веток).
Адаптивность
Адаптивный гибридный поиск (Текст vs Смысл)
Алгоритм, динамически подбирающий оптимальную пропорцию весов классического и векторного поиска в зависимости от запроса.
Ранжирование
Переранжирование (Reranking) через графовые метрики
Повышение позиции документа в выдаче за счет анализа его связей и положения в важных кластерах графа.
HNSW
Оптимизация векторного поиска при фильтрации
Решение проблемы «разрыва» внутреннего графа HNSW при применении жестких фильтров (например, строго по дате).
Сжатие
Экстремальное сжатие данных (квантование) векторов
Поиск оптимального баланса между сжатием векторных баз (экономией RAM) и потерей качества (Recall).
