Интеллект для данных

О том, какие задачи призвана решать платформа IDP ( Intelligent Data Platform ), из каких технологических компонентов она состоит и каким тенденциям на рынке корпоративных данных соответствует, рассказывает технический директор компании Informatica в странах Европы, Ближнего Востока и Африки Грег Хансон.

Каковы основные предпосылки появления платформы IDP?

Ключевыми факторами, влияющими сегодня на деятельность инфраструктур ИТ, являются разнообразие и большие объемы неструктурированных данных, генерируемых людьми; эта проблема будет только усугубляться. Появление Интернета вещей приведет к тому, что к миллионам людей, формирующим информацию в различных социальных медиа, добавятся миллиарды устройств. Не только объемы, но и разнообразие данных возрастут в разы, что еще более усложнит среду работы с данными. Однако этот рост сложности не будет сопровождаться адекватным увеличением ИТ-бюджетов в компаниях — по данным аналитиков, в 2014 году они выросли лишь на 0,2%, а значит, нужно искать новые решения. Один из способов — предоставление бизнес-пользователям возможности самостоятельно работать с данными. Параллельно с этим должны создаваться специальные приложения, открывающие пути использования данных для получения новых источников доходов.

Кроме того, инфраструктура работы с данными в компаниях должна обладать гибкостью, которая позволяет оперативно реагировать на изменения среды, — возможно, через пять лет уже не будет Facebook, а появятся другие каналы обратной связи от потребителей, и компании должны уметь быстро адаптироваться к подобным переменам.

В ответ на необходимость решения этих задач и была создана интеллектуальная платформа данных — мы стремимся помочь организациям адаптироваться к новой цифровой эпохе, про которую говорят, что данные — это «нефть» современности. Если компании не научатся зарабатывать на источниках этой новой «нефти», то будут сметены с рынка. Три основные цели IDP — предоставлять чистые (clean), безопасные (safe) и связанные (connected) данные. Чистые данные — это точные и непротиворечивые данные. Механизмы обеспечения безопасности направлены на защиту данных не от внешних, а от внутренних угроз — в источниках данных и в приложениях. А под связанностью данных мы понимаем их доступность в нужном объеме и в нужный момент для различных категорий пользователей.

Использует ли новая платформа технологию виртуализации данных?

Платформа включает в себя уровень виртуализации данных, который представляет собой интерфейс между данными и их потребителями, скрывающий от последних, откуда именно приходят данные. Для того чтобы раскрыть потенциал всего многообразия данных, накопленных в организации и собираемых извне, необходимо иметь возможность агрегировать источники актуальных неструктурированных данных, которые аккумулируются, например, в Hadoop, с источниками исторических данных. Промежуточной слой виртуализации позволяет решить эту задачу.

В чем проявляется интеллект платформы?

Речь идет о разработанной в компании технологии машинного обучения — система наблюдает за взаимодействием данных, изучает их потоки в организации и в процессе этого накапливает знания о том, как используются данные, какое у них должно быть качество, надо ли их улучшать и т. д. Решения Informatica всегда работали с метаданными, описывающими, что происходит с данными, а теперь у нас есть механизм машинного обучения, который интерпретирует эти метаданные и предоставляет полезные сведения бизнес-пользователям. Например, если сотруднику нужно выявить 10 самых прибыльных клиентов компании, то для начала ему необходимо понять, откуда взять данные для такого анализа. Благодаря технологии машинного обучения, IDP предоставит правильные источники данных, и в результате будет получен заслуживающий доверия рейтинг клиентов.

Требуется ли для работы с IDP привлекать специалистов по анализу данных?

Важнейшая задача, над решением которой в Informatica работали последние пять лет, состояла в переходе от ориентации наших продуктов на ИТ-персонал к ориентации на бизнес-пользователей. Результатом этого перехода стала реализация инструментов получения чистых данных как составного элемента платформы IDP. Пониманием, какие данные являются качественными, обладают именно бизнес-пользователи, а не ИТ-специалисты. И мы должны были адаптировать интерфейсы под них таким образом, чтобы можно было простыми средствами получать результаты сложных преобразований для обеспечения качества данных.

IDP включает в себя так называемое управляемое озеро данных (managed data lake) и инструмент гармонизации данных Springbok. Интерфейсы этих систем построены на знакомых бизнес-пользователям принципах: управляемое озеро данных похоже на Amazon, а Springbok выглядит, как таблица Excel. Благодаря этому бизнес-пользователи осваивают работу с ними практически мгновенно.

Какой смысл вы вкладываете в термин «озеро данных»?

Это хранилище, в которое в своем исходном виде помещаются все данные, имеющие отношение к компании. Но здесь возникают две проблемы. Первая — каким образом сформировать этот разнообразный набор данных во всей его полноте, поскольку неполный набор будет представлять меньшую ценность. Платформа IDP позволяет загружать данные в озеро в реальном времени, что особенно важно для эпохи Интернета вещей, когда множество различных устройств будут практически непрерывно генерировать информацию. Вторая проблема — качество данных в озере. Здесь уместна аналогия с реальным озером. Где вы предпочтете плавать — в озере с кристально чистой водой или в грязном пруду? Возможно, для выявления тенденций на ближайшее десятилетие очистка данных не столь важна, но для принятия актуальных решений необходимо опираться на качественные данные о ваших клиентах.

Озеро данных должно агрегировать все источники данных в компании?

Пока нет однозначного ответа на вопрос, является ли озеро заменой или дополнением существующего набора корпоративных источников. По моему мнению, оно должно быть дополнением — зачем разрушать выстроенную инфраструктуру, если поверх нее можно добавить возможности озера данных. Вот почему здесь так важна технология виртуализации данных, позволяющая сформировать озеро на основе существующих источников. В этом же русле сейчас развивается тенденция оптимизации хранилищ данных. Если два-три года назад казалось, что Hadoop полностью заменит существующие хранилища, то теперь все чаще Hadoop используется в качестве дополнения к традиционным хранилищам. В Hadoop размещаются данные, которые используются не очень часто, при этом сохраняются все преимущества технологий аналитических хранилищ структурированных данных.

Насколько у ваших заказчиков получили распространение облачные хранилища и какие проблемы возникают при интеграции данных?

Число пользователей таких хранилищ постоянно растет. Первоначально практиковалось в основном применение облачных приложений типа Salesforce.com, но теперь все чаще появляются реализации корпоративного ЦОД в облаке. Ключевая проблема при использовании облака состоит в том, что увеличивается фрагментация данных, кроме того, компании беспокоятся об их безопасности, поскольку эти данные уже не защищены сетевым экраном. Поэтому компаниям важно сформировать гибкую стратегию интеграции и защиты облачных данных. Платформа IDP реализует связь с известными облачными приложениями и предоставляет механизмы интеграции и защиты данных в облаке. Если организация хочет разместить новые приложения данных в облачном ЦОД, например, на базе Amazon Web Services, то с помощью решений Informatica она сможет сделать это, не оказывая серьезного влияния на существующую инфраструктуру, поскольку наш механизм обработки метаданных может быть без изменений переведен с локального выполнения на облачное. Например, правила очистки данных о клиенте можно задать один раз и использовать их в локальной и в облачной инфраструктурах. Таким образом мы поддерживаем реальную гибридную инфраструктуру данных.

Флагманский продукт Informatica — система PowerCenter. Есть ли ей место в IDP?

PowerCenter — это ETL-система, которая является одним из сервисов, составляющих уровень инфраструктуры данных в IDP. На этом уровне также находятся инструменты обеспечения качества данных, управления мастер-данными, безопасности, в частности маскирования данных. Над ним расположен уровень искусственного интеллекта, где реализованы средства машинного обучения на базе метаданных. А ниже уровня инфраструктуры находится технология виртуализации данных Vibe. Это новое решение, в создании которого использованы многие технологии PowerCenter. Именно Vibe обеспечивает возможность использовать платформу в любых сценариях, реализуя технологию повторного применения маппингов данных, благодаря которой однажды созданный маппинг полностью переносим между различными источниками данных, включая облачные.

Какие тенденции стоит выделить в сфере работы с корпоративными данными?

Интернет вещей — важнейшая тенденция, которая приведет к значительному увеличению объемов и разнообразия данных. И если раньше основной вопрос состоял в том, как мы потребляем данные, то теперь на первое место выходит то, как мы продвигаем данные. Множество устройств будут постоянно передавать данные, и необходимы будут системы, способные в реальном времени их принимать и вводить в продуктивное использование. Кроме того, мы должны уметь быстро адаптироваться к изменениям источников социальных данных — пять лет назад Twitter был новым социальным сервисом, а сейчас растет популярность Instagram. Компании не должны тратить годы на то, чтобы научиться интегрировать данные из нового социального источника, в противном случае они рискуют столкнуться с ситуацией, что он уже потерял актуальность. Технология Vibe позволяет свободно подключаться и работать с всевозможными источниками данных.

Важной тенденцией остается использование мобильных устройств, особенно на развивающихся рынках в Азии и Африке, где практически отсутствовала традиционная инфраструктура и поэтому они сразу переходят на мобильную. Наша задача — учесть особенности этого перехода и быстро к ним адаптироваться.

Наталья Дубова (osmag@osp.ru) — научный редактор, «Открытые системы.СУБД» (Москва).