В построении больших языковых моделей (LLM) намечается новая тенденция — вместо использования моделей общего назначения наподобие ChatGPT компании пытаются обучать доступные модели на своих собственных данных. Более совершенные архитектуры дают моделям прямой доступ к базам данных компании, что позволяет вести с чат-ботами, основанными на таких моделях, диалоги со ссылками на конкретные файлы и документы. Однако, указывают специалисты компании Dig Security, если модель обучается на конфиденциальных данных, то эти данные становятся частью модели и никакого способа убрать их оттуда не остается.
Специалисты предлагает использовать разработанные ими инструменты защиты корпоративных данных для защиты их от попадания в большие языковые модели. Инструменты Dig позволяют просканировать все базы и хранилища данных, классифицировать размещенные в них данные и показать, кто имеет к ним доступ — в том числе через программные интерфейсы для LLM. Кроме того, они позволяют отслеживать перемещения конфиденциальных данных и обнаруживать попадание их в неконтролируемые базы данных, в том числе работающие на виртуальных машинах.