Технологии больших данных приобрели сегодня существенную ценность для бизнеса. В течение нескольких последних лет компании наперегонки запускают проекты, осваивают новые методы выявления наиболее ценной информации из доступных им массивов данных. Увеличение продаж, сокращение издержек, уменьшение рисков, повышение операционной эффективности — вот лишь некоторые успехи, полученные благодаря обработке больших данных при решении бизнес-задач. Технологии обработки больших данных применяются в самых разных отраслях: телекоммуникационной, финансовой, в розничной торговле, здравоохранении, информационных технологиях и многих других. Вместе с тем одним из самых существенных ограничений проектов в области больших данных аналитики называют риски информационной безопасности.
Безопасность для проектов больших данных — это не только вопрос обеспечения доступности информации. Данные, которые служат источником для анализа, как правило, содержат чувствительную для бизнеса информацию: коммерческую тайну, персональные данные. Нарушение конфиденциальности работы с такими данными может обернуться серьезными проблемами, среди которых штрафы со стороны регуляторов, отток клиентов, потеря рыночной капитализации.
Другой существенный вызов проектов больших данных — обеспечение целостности как анализируемых данных, так и полученных при их обработке результатов, представляющих коммерческую ценность.
Поводов для беспокойства немало. Сообщения об утечках поражают воображение: в первом полугодии 2017 года во всем мире, по версии Gemalto, произошла утечка более 1,9 млрд записей, по версии InfoWatch — до 7,78 млрд записей, что в разы превышает показатели прошлого года. Если не уделять должного внимания вопросам безопасности, то проекты в области больших данных способны увеличить объемы утечек на порядок.
Текущие подходы к обеспечению защиты технологий больших данных, как правило, основаны на использовании разрозненных мер при отсутствии единой концепции защиты. Сегодня нет четко сформулированных методов, описывающих систематизированные этапы и действия по защите больших данных, структурированных и неструктурированных, для которых характерны свои технологические особенности сбора, агрегирования, хранения и анализа. Требуются подходы, ориентированные на защиту критичных данных на всех этапах их обработки — от сбора и передачи до анализа и размещения в хранилищах.
В работу по стандартизации действий по защите больших данных вовлечен целый ряд ведущих институтов стандартизации: Международная организация по стандартизации и Международная электротехническая комиссия (ISO/IEC), Международный союз электросвязи (ITU), Британский институт стандартов (BSI), Национальный институт стандартов и технологий США (NIST). Вопросам защиты больших данных уделено особое внимание и в разделе «Информационная безопасность» госпрограммы «Цифровая экономика Российской Федерации»: соответствующие проекты национальных стандартов должны быть разработаны уже к концу 2018 года.
Дальше всех продвинулся NIST, предложивший спецификацию Interoperability Framework V1.0 [1], которая включает документы с описанием всех аспектов работы с большими данными: «Definitions»; «Taxonomies»; «Use Cases and Requirements»; «Security and Privacy»; «Architecture White Paper Survey»; «Reference Architecture»; «Standards Roadmap». Этот набор содержит методологию, которая затрагивает также вопросы информационной безопасности, вводя концептуальную модель архитектуры больших данных, нейтральной по отношению к поставщикам, технологиям и инфраструктурным особенностям проектов. Концептуальная модель NBDRA (NIST Big Data Reference Architecture) представляет собой систему больших данных, состоящую из пяти логических функциональных компонентов, связанных интерфейсами функциональной совместимости (рис. 1).
![]() |
Рис. 1. Концептуальная модель архитектуры больших данных по версии NIST |
В разделе «Security and Privacy» рассматриваются различные аспекты информационной безопасности, приводятся примеры реализации проектов в различных отраслях с перечнем их недостатков, дается классификация основных направлений защиты, описываются роли и операции. За вопросы безопасности и конфиденциальности отвечает среда NBDRA Security and Privacy Fabric, охватывающая все основные компоненты архитектуры. NIST изначально рекомендует сфокусироваться на обеспечении безопасности и конфиденциальности данных на всех технологических уровнях их обработки, охватывая пять основных интерфейсов взаимодействия с данными.
Интерфейс взаимодействия между провайдерами данных и провайдерами приложений. Одна из особенностей систем больших данных — импорт и использование разнообразных данных из различных внутренних и внешних источников, поэтому все поступающие данные в режиме реального времени должны проверяться на целостность и отсутствие вредоносных признаков.
Интерфейс взаимодействия провайдера приложений и потребителей данных. Потребители в системах больших данных — это конечные пользователи или другие системы, выполняющие поиск, анализ, визуализацию и другие операции на основе этих данных. Все интерфейсы доступа потребителей к информации должны быть защищены и обеспечивать конфиденциальность в соответствии с положениями законодательства, в том числе предусматривать доступ к чувствительным данным со стороны органов власти.
Интерфейс взаимодействия провайдера приложений и платформы работы с большими данными. Платформы больших данных обычно имеют сложную многоуровневую структуру и часто предусматривают использование различных технологических подходов к хранению и обработке данных. Очень важно реализовать контроль доступа при взаимодействии с платформой больших данных, чтобы гарантировать доступ к данным в соответствии с правилами разграничения доступа. Данные могут храниться и извлекаться с применением шифрования.
Защита данных при внутреннем взаимодействии различных технологий и платформ больших данных. Платформа больших данных, как правило, состоит из инфраструктурной платформы, платформы хранения структурированных и неструктурированных данных и платформы обработки данных. Поэтому обеспечение защиты платформы больших данных — весьма трудоемкий процесс: необходимо обеспечить безопасность обработки в распределенных программных системах, защиту информации в базах средствами различных СУБД; должны быть защищены данные и журналы транзакций; для контроля доступа и отслеживания ключей нужно предусмотреть управление ключами. Кроме того, для обеспечения надлежащего контекста безопасности и функционирования данных на каждом этапе важно гарантировать легитимность происхождения данных, а для обеспечения их доступности требуется предусмотреть меры противодействия DoS-атакам.
Защита средств управления системой больших данных. Средства управления системой больших данных предоставляют широкие возможности для внедрения механизмов безопасности, позволяющих осуществлять мониторинг в режиме реального времени состояния компонентов, управление правилами разграничения доступа, идентификацию источников данных и др. Однако требуются дополнительные меры по защите самих средств управления такой системой — именно они представляют особую ценность для нарушителей.
В качестве примера практической реализация требований Interoperability Framework специалисты NIST указывают на разработки альянса Cloud Security Alliance (CSA) [2] и рекомендуют сосредоточиться на четырех направлениях защиты (рис. 2): безопасности инфраструктуры; конфиденциальности данных; управлении данными; целостности и процедурах реагирования.
![]() |
Рис. 2. Классификация направлений защиты системы работы с большими данными |
Безопасность инфраструктуры. Использование технологий и платформ обеспечения производительности, масштабируемости и доступности баз данных. Реализация высокой доступности ресурсов. Защита платформ взаимодействия разработчиков и информационно-технологического обслуживания (DevOps).
Конфиденциальность данных. Анализ влияния социальных данных на безопасность и конфиденциальность при реализации проектов больших данных. Защита данных независимо от того, где они хранятся или используются. Обеспечение конфиденциальности и управляемости больших данных (инвентаризация и классификация данных, использование технологий маскирования данных, формирование политик управления и правил доступа к данным).
Управление данными. Защита хранилищ данных (списки контроля доступа, защита интерфейсов программирования приложений, защита механизмов доступа к базам данных). Управление ключами и реализация прозрачности процесса жизненного цикла данных.
Целостность и процедуры реагирования. Аналитика больших данных для выявления вредоносной деятельности и понимания состояния систем обработки больших данных. Детектирование событий безопасности и реагирование на обнаруженные угрозы. Выявление, анализ и расследование инцидентов. Безопасность результатов аналитики.
Основой для реализации проектов по защите систем больших данных должен быть подход Data-Centric Security, предусматривающий комплексное решение соответствующих вопросов. Современные методы реализации бизнес-процессов уже выходят за пределы инфраструктурных границ компании или организации: использование мобильных устройств в рамках подхода BYOD, облачных и гибридных сервисов, а также передача корпоративных данных подрядчикам и клиентам размывают границы предприятия. Подход, ориентированный на защиту данных, предписывает строить систему обеспечения безопасности с учетом ценности данных. Ключевые этапы такого подхода приведены на рис. 3.
![]() |
Рис. 3. Основные этапы подхода Data-Centric Security |
При реализации проектов по защите систем обработки больших данных предприятия нередко сталкиваются с нехваткой специализированных решений. Конечно, миллиардный рынок не может не притягивать внимание — здесь присутствуют такие компании и организации, как Apache Software Foundation, Informatica, HPE, Gemalto, Imperva и др., которые предлагают универсальные платформы или инструменты, ориентированные на решение конкретных вопросов защиты данных. Однако проекты в области анализа больших данных всегда носят комплексный характер, и стек используемых технологий, определяемый целями, задачами и бюджетом проекта, весьма вариативен. Это означает, что не стоит надеяться на быструю проработку вопросов, связанных с проектированием системы защиты, а также набором мер, необходимых для обеспечения приемлемого уровня безопасности.
Некоторые сложности при выборе соответствующих решений могут возникнуть в связи с необходимостью соблюдать требования регуляторов — например, в части защиты персональных данных или данных государственных информационных систем. Представленные на рынке сертифицированные решения могут оказать заметное влияние на дизайн и бюджет конкретного проекта, обеспечивающего выполнение этих требований.
При проектировании систем защиты следует обратить внимание еще на ряд документов, которые могут помочь проектной команде в достижении качественного результата. CSA выпустил документ с лучшими практиками обеспечения безопасности систем больших данных [3], в котором собраны сведения и опыт проектирования и развертывания средств защиты таких систем. Агентство ЕС по сетевой и информационной безопасности (European Union Agency for Network and Information Security, ENISA) разработало документ, содержащий перечень угроз и рекомендации по их предотвращению, — Big Data Threat Landscape and Good Practice Guide [4].
Определенным препятствием может стать отсутствие у команды, вовлеченной в реализацию проекта, экспертизы в области информационной безопасности. Кроме того, не стоит забывать, что спроектированная система потребует дальнейшего сопровождения, мониторинга средств и мер защиты, а значит, соответствующих операционных затрат.
***
Вопросам безопасности систем работы с большими данными пока уделяется недостаточно внимания — подавляющее большинство проектов проектируются и реализуются без оглядки на информационную безопасность, что рано или поздно приведет к значительному увеличению сроков и стоимости реализации систем защиты, а иногда и к более печальным для бизнеса последствиям. При реализации проектов больших данных изначально должны учитываться вопросы обеспечения безопасности, в противном случае из бизнес-возможностей проекты могут превратиться в новые бизнес-риски.
Литература
- NIST Special Publication 1500-1. NIST Big Data Interoperability Framework. URL: https://bigdatawg.nist.gov/_uploadfiles/NIST.SP.1500-1.pdf (дата обращения 5.12.2017).
- Big Data Taxonomy, Cloud Security Alliance. URL: https://downloads.cloudsecurityalliance.org/initiatives/bdwg/Big_Data_Taxonomy.pdf (дата обращения 5.12.2017).
- Big Data Security and Privacy Handbook: 100 Best Practices in Big Data Security and Privacy. Cloud Security Alliance (Безопасность и конфиденциальность больших данных: 100 лучших практик для обеспечения безопасности и конфиденциальности). URL: https://downloads.cloudsecurityalliance.org/assets/research/big-data/BigData_Security_and_Privacy_Handbook.pdf (дата обращения 5.12.2017).
- Big Data Threat Landscape and Good Practice Guide. URL: https://www.enisa.europa.eu/publications/bigdata-threat-landscape/at_download/fullReport (дата обращения 5.12.2017).
Дмитрий Пудов (pudov@angaratech.ru) — технический директор, «Ангара Технолоджиз Груп» (Москва). Статья подготовлена на основе материалов выступления автора на конференции «Технологии баз данных-2017».