LLM в инструментах Data Governance и их практическое применение

Одной из ключевых проблем стало увеличение числа утечек информации. Отчеты аналитических агентств показывают, что каждый год компрометируются миллиарды записей, значительная часть которых содержит персональные данные. Для организаций такие инциденты несут репутационные риски и финансовые последствия: законодательство предусматривает большие штрафы за нарушения при обработке персональных данных.

Антон Зубарев, аналитик в команде разработки продукта RT.DataGovernance, компания TData

Эффективным способом защиты от утечек является маскирование данных. Маскирование данных — процесс замены реальных значений на искусственные (зашифрованные). Это делает утечку менее опасной и ограничивает доступ сотрудников к чувствительной информации.

В системе RT.DataGovernance определение данных, требующих маскирования, выполняется не только вручную, но и с использованием алгоритмов машинного обучения. Такой подход позволил автоматизировать процесс классификации данных и существенно сократить трудозатраты дата-стюардов.

Условия, ограничивающие использование Больших языковых моделей

Несмотря на потенциал больших языковых моделей, их использование в критически важных процессах управления данными долгое время оставалось ограниченным.

Выход модели GPT-4 в 2023 году и его последующее развитие продемонстрировало широкие возможности генеративного ИИ. С этого времени началась активная конкуренция между создателями «фронтирных» моделей (Gemini, Claude) и опенсорс-решений (Llama, Qwen и Mistral). Это привело к большему осмыслению возможностей работы моделей в бизнес-процессах.

Параллельно формировалась инфраструктура вокруг LLM. Они стали более управляемы: появлялись фреймворки оркестрации, такие как LangChain (позволяет настраивать этапы в процессе работы ), развивались векторные базы данных (для хранения данных в типах, которые LLM интерпретирует быстрее) и методы интеграции моделей в бизнес-процессы.

Однако на практике корпоративное внедрение LLM сталкивалось с рядом ограничений:

стабильность работы сервисов, необходимая для автоматизированных процессов;
требования информационной безопасности, ограничивающие передачу данных во внешние сервисы;
стоимость обработки токенов, влияющая на экономику решения;
галлюцинации моделей, приводящие к появлению недостоверной информации;
инфраструктурные затраты на развертывание локальных моделей.

По совокупности этих факторов для задач классификации и маскирования данных на раннем этапе было выбрано классическое машинное обучение.

Новый сценарий использования LLM

По мере развития технологий стало возможным использовать LLM для других задач управления данными. В 2025 году в системе RT.DataGovernance был реализован сценарий автоматической генерации бизнес-описаний объектов хранилищ данных.

В крупных хранилищах могут находиться десятки или сотни тысяч объектов — таблиц, витрин и представлений. Их технические названия и атрибуты часто не позволяют быстро понять их бизнес-назначение. В результате, пользователи тратят значительное время на поиск нужных данных.

LLM позволяет автоматизировать создание таких описаний. Модель получает на вход метаданные объектов: названия атрибутов и комментарии к ним. На основе этого контекста она формирует понятное бизнес-описание объекта.

Оценка внедрения LLM

В ходе оценки интеграции LLM в процесс описания таблиц были выделены критерии, по которым происходила оценка эффективности.

1. Решение прикладной задачи. Использование LLM должно устранять реальную операционную проблему, а не выступать демонстрацией новой технологии. Описание объектов хранилища данных традиционно выполняется вручную и требует значительных трудозатрат. В крупных хранилищах, содержащих большое количество легаси-объектов, полный охват метаданных вручную практически невозможен. При этом риск ошибки в автоматически сгенерированном описании относительно невелик: неточности могут быть исправлены дата-стюардами.

2. Ускорение процессов работы с метаданными. Корпоративные хранилища могут содержать десятки или сотни тысяч объектов. Например, в рассматриваемом сценарии количество таблиц и представлений превышает 140 тыс. Автоматическая генерация описаний позволяет ускорить обработку уже существующих объектов и обеспечить их документирование по мере появления новых.

3. Использование контекста метаданных. Для получения релевантных результатов модель должна опираться на контекст, а не только на собственные знания. В рассматриваемом сценарии в качестве контекста используются названия атрибутов объектов и комментарии, извлеченные из метаданных хранилища.

4. Требования информационной безопасности. Используемая языковая модель развёрнута в корпоративном контуре. Это исключает передачу чувствительной информации во внешние сервисы и обеспечивает соблюдение требований по защите персональных данных и коммерческой информации.

5. Возможность настройки и соответствие комплаенсу. Качество генерируемых описаний может варьироваться, поэтому система должна предусматривать возможность корректировки поведения модели. Администраторы должны иметь инструменты для настройки промптов и параметров генерации, что позволяет повышать точность ответов и обеспечивать соответствие внутренним требованиям.

6. Экономическая эффективность. Использование LLM должно быть экономически оправданным. Стоимость генерации описаний должна оставаться ниже затрат на выполнение аналогичной работы вручную.

Архитектура решения

Для реализации этого сценария используется модель Qwen2.5-72B-Instruct, развернутая внутри корпоративной инфраструктуры. Это позволяет сохранить контроль над данными и исключить их передачу во внешние сервисы.

Доступ к модели осуществляется через внутренний сервис-агрегатор, предоставляющий API для взаимодействия с различными моделями искусственного интеллекта. В системе RT.DataGovernance реализован специализированный коннектор, позволяющий настраивать параметры работы модели: системные промпты, шаблоны сообщений и гиперпараметры генерации текста.

Гибкая настройка параметров генерации позволяет повышать точность описаний и адаптировать поведение модели под требования организации.

Перспективы применения LLM в Data Governance

Развитие больших языковых моделей меняет подход к созданию инструментов управления данными. Если ранее ИИ использовался преимущественно для автоматизации отдельных операций, то сегодня он может выступать полноценным элементом процессов работы с данными.

Практический опыт внедрения LLM в RT.DataGovernance показывает, что такие решения способны значительно сократить трудозатраты на работу с метаданными и повысить доступность данных для бизнес-пользователей. По мере роста зрелости технологий можно ожидать расширения сценариев применения генеративного ИИ в системах Data Governance — от каталогизации данных до интеллектуального поиска и автоматизации документации.