Сбербанк: доменные знания для генеративного ИИ

Cбер реализовал технологическое решение предоставления поиска по доменным знаниям о внешнем мире для корпоративного искусственного интеллекта GigaChat. Благодаря данной разработке каждый клиент GigaChat получает доступ к полным, актуальным и достоверным знаниям для ответов на самые насущные вопросы, в том числе и в сложных областях – естественных, инженерных и общественных науках. Платформа держит уверенное лидерство в релевантности поиска на внешних данных для русского языка с глобальными конкурентами, таким образом, обеспечивая национальный ИИ непрерывным потоком актуальных внешних знаний. О создании платформы рассказывает Андрей Евтихов, управляющий директор GigaData в Сбербанке, и Кирилл Буданаев, CPO поверхностей GigaChat, – номинанты на премию Data Award.

- Почему развитие собственных поисковых возможностей важно для Сбербанка?

Андрей Евтихов: На данный момент происходит принципиальная трансформация пользовательского опыта взаимодействия с внешней информацией. Пользователи чаще склонны использовать генеративные быстрые ответы или специализированных агентов на базе глубокого ИИ для поиска и проведения исследований в доменных областях знаний. Основные предпосылки этой трансформации лежат в трех ключевых направлениях улучшения пользовательского опыта по сравнению со стандартными поисковыми системами. Первое и главное – экономия времени на получение знаний. ИИ избавляет от необходимости открывать десятки вкладок и вручную сравнивать, и аккумулировать информацию из разнородных источников.

Второе направление – снижение затрат на восприятие информации. Вместо того, чтобы просматривать страницы результатов поиска, пользователь получает готовую выжимку. Технология становится «незаметной, но неотъемлемой» частью привычного опыта.

Третье направление – адаптивность представления знаний. Менее экспертные пользователи могут кратно быстрее получать агрегированные знания без погружения в предметную область. В связи с этим формируются новые поведенческие паттерны и доверие к инструментам генеративного ИИ как к основному источнику достоверной информации.

Сберу, как национальному технологическому лидеру, крайне важно обеспечить страну доверенными передовыми возможностями в сфере ИИ, не уступающих по качеству зарубежным решениям.

- Какова расстановка сил? И что нужно сделать для ее изменения?

Кирилл Буданаев: Согласно данным ВЦИОМ, на 2025 год среди наиболее узнаваемых нейросетей у россиян первое место с отрывом занимала ChatGPT, затем с небольшой разницей следовали GigaChat, DeepSeek и «Алиса AI». Стоит отметить, что более 50% россиян, согласно данной статистике, ссылаются именно на зарубежные сервисы. Таким образом, создание ИИ, использующего собственные доверенные доменные поисковые возможности, в условиях постоянного сравнения с зарубежными сервисами, критически важно для реализации стратегии развития национального ИИ.

Наша цель – дать возможность ИИ в приоритете использовать полный набор экспертных знаний научных сообществ, национальных исследовательских и авторитетных центров, гарантируя точность. Развитие актуальности, полноты и доверенности данных, поставляемых через доменные поисковые возможности, способствуют продвижению нашего собственного корпоративного интеллекта – GigaChat.

- Как подошли к решению задачи?

А.Е.: В рамках ее реализации нам предстояло проанализировать, в каких доменах мы можем создать наибольшую ценность для пользователя. Для этого несколько кросс-функциональных команд регулярно проводит аналитику пользовательских запросов с продуктовых систем для выявления точек улучшения пользовательского опыта и выделения доменов знаний, где поиск и доступ к данным дадут наибольший эффект.

В результате перед аналитическими и инженерными командами встал ряд сложных технических задач. Предстояло построить пайплайны оценки качества текущего клиентского опыта на запросах с поверхностей с GigaChat, провести аналитику десятков миллионов пользовательских запросов для сегментации их по типам и определения классов, для которых критично обеспечить доступ к актуальным и полным массивам данных через поисковые механизмы. Следовало спроектировать ETL-процессы обработки десятков миллионов сырых документов в сутки разных модальностей в рамках реализации одного доменного поиска: от загрузки и нормализации до подготовки к индексации. Было важно разработать алгоритмы извлечения релевантных знаний из неструктурированных мультимодальных данных – текстов, изображений, видео. Далее – спроектировать алгоритм построения гибридного индекса на сверхбольших объемах данных с учетом требований к актуальности данных. Наконец, построить процессы дообучения и обучения моделей ранжирования для обеспечения высокого качества поиска на миллионах разнообразных вопросов от наших клиентов.

- Каковы возможности вашего сервиса?

А.Е.: В рамках сервиса реализован полный цикл создания, обновления и предоставления сервиса доменных поисковых индексов. Он включает несколько направлений. Осуществляется автоматический сбор и загрузка данных из разных типов источников: тексты, таблицы и базы знаний, изображения и видео, а также метаданные. Для каждого источника настраиваются отдельная логика обработки и очистки, чтобы данные поступали регулярно и с нужной частотой обновления. Происходит системный отбор и регулярную актуализацию базы экспертных данных с жесткой фильтрацией информационного шума и недоверенных источников. Реализована масштабируемая индексация – постоянно обновляемые поисковые индексы, способные обрабатывать сверхбольшие объемы мультимодальных данных и обеспечивать ИИ доступ к сложноструктурированной информации. Кроме того, проводится интеллектуальное ранжирование. Собственные модели ранжирования обучаются под специфику конкретных доменов и их работу в промышленном контуре. Это отказоустойчивая инфраструктура, выдерживающая высокие нагрузки и обеспечивающая стабильное время отклика для пользовательских запросов в GigaChat.

Наша система превосходит по качеству ответов зарубежные поисковые решения для ИИ более чем на 20 процентных пунктов на русском языке (Tavily, Exa, Brave). Важной функциональностью является возможность конфигурирования списка доменных знаний и источников внутри поисковых возможностей. Это позволяет продуктам с ИИ самостоятельно управлять тем, на какие массивы данных опирается модель при формировании ответов, оперативно сужать или расширять контекст поиска под конкретные сценарии использования, а также гибко реагировать на изменения в регуляторике и качестве источников.

- Какие данные используются в вашем решении?

А.Е.: Решение опирается на несколько ключевых категорий данных. Каждая из них отбирается и обрабатывается с учетом своих требований к качеству и актуальности.

Наиболее разнородный и критичный к достоверности слой, требующий оперативного обновления, – фактологические данные. В него входят законодательство и нормативные акты РФ, официальные онлайн ресурсы органов государственной власти, официальные онлайн-ресурсы крупных компаний, онлайн-ресурсы координационных и отраслевых центров.

Другая категория, для которой приоритетны авторитетность источника, точность и глубина проработки материала, – инженерные и научные знания. Здесь используются академические публикации и рецензируемые научные журналы, техническая документация и корпоративные базы знаний, а также мультимодальные данные – таблицы, графики и схемы, извлекаемые в том числе через OCR-обработку научных публикаций.

И, конечно, онлайн медиа. Этот слой покрывает широкий спектр публичного контента и обеспечивает контекст и актуальность. В него входят новостные и аналитические сайты, медийные ресурсы и площадки с мультимодальным контентом, веб сайты, блоги и другие форматы авторского онлайн контента.

- Если вкратце, каковы принципы системы?

А.Е.: Во-первых, доменно‑ориентированный поиск, в котором каждому домену знаний ассоциированы свои собственные ETL-пайплайны, индексы и модели. Во-вторых, конфигурируемые источники и политики. Список доменов и источников – часть конфигурации каждого доменного поиска: их можно включать или отключать, настраивать приоритеты и фильтры без переобучения моделей. В-третьих, масштабируемость и актуальность данных. Весь процесс – ETL, индексация, поиск, ранжирование – спроектирован так, чтобы обрабатывать десятки миллионов документов в сутки с инкрементальными обновлениями. Обеспечиваем надежность и SLA для продуктов. Платформа обеспечивает критичный сервис: поддерживает отказоустойчивость, стабильное качество выдачи и время задержки для продуктовых команд. И проводится цикл регулярного дообучения. Логи запросов, клики и фидбэк пользователей системно используются для дообучения моделей ранжирования и улучшения качества поиска в приоритетных доменах.

- В чем ваш проект уникален?

А.Е.: Впервые в России создано специализированное решение, ориентированное для ИИ, а не для конечных пользователей, которое предоставляет релевантный поиск на русском языке, по качеству превосходящих глобальных конкурентов, обеспечивает контролируемое управление данными для ИИ, а также повышает и демократизирует доступность доменных знаний для конечных пользователей ИИ-сервисов.

Мы предлагаем промышленный сервис для «бесшовного» соединения ИИ с экспертными базами знаний, в том числе национальными – научными архивами, патентными бюро и т.д. в реальном времени, решая проблему «галлюцинаций» там, где цена ошибки максимальна. В результате мы превращаем любой запрос пользователя в ответ, основанный не на усредненном мнении из «желтой прессы», а на верифицированных данных уровня экспертных центров, делая глубокие профессиональные знания мгновенно доступными каждому прямо в смартфоне.

- Какие результаты достигнуты, помимо паритета с глобальными поисковыми сервисами для ИИ?

К.Б.: Достижение паритета создало необходимое условие для роста показателей использования GigaChat – более 19 млн активных пользователей в месяц. Количество запросов в месяц к доменным поисковым индексам для формирования генеративных ответов – более 20 млн в месяц.

- Каково значение созданного решения для бизнеса Сбера?

К.Б.: Нами создано уникальное, полностью собственное российское решение по предоставлению доменных поисковых возможностей для ИИ. Система внедрена в «Сбере» и используется для формирования генеративных ответов на поверхностях c GigaChat, ответов ассистента в Сбербанк Онлайн, в голосовом ассистенте на умных устройствах, а также для внутренних решений на базе ИИ, в том числе ИИ-агентов.

Наши клиенты, пользуясь возможностями GigaChat на различных поверхностях, получают доступ к полным, актуальным и достоверным знаниям о внешнем мире для ответов на самые сложные и насущные вопросы. Вследствие этого отмечается охват принципиально нового сегмента пользователей, совершающих переход от браузерного поиска к инструментам генеративного ИИ, а также происходит снижение рисков утечки и компрометации данных за счет отказа от зарубежных поисковых сервисов.

- Что ваша система поисковых возможностей для ИИ дает рынку?

К.Б.: Совместная задача всех участников национального рынка ИИ России – обеспечить уверенное движение в глобальной ИИ-гонке. Важнейший фактор достижения такого конкурентного преимущества – доступность данных, один из краеугольных камней развития рынка генеративного ИИ в России. Качественные актуальные доменные и экспертные знания, доступные для быстрого поиска, являются одним из необходимых условий для квантового скачка в развитии и повышении используемости национальных сервисов с ИИ.

- Каковы направления развития планируются в ближайшее время?

А.Е.: Будем увеличивать охват по доступным доменам знаний в рамках платформы. Работаем над улучшением качества гибридного поиска и ранжирования в разрезе доменов. Проводим оптимизацию производительности: снижение задержек, стоимости запросов и масштабирования.

Сбербанк: доменные знания для генеративного ИИ

От кликов до миллионов: как повседневные операции влияют на маржу компании