Чтобы извлечь из корпоративных данных максимум полезной информации, аналитики должны иметь к ним универсальный доступ, понятный их инструментам. Но разобщенный характер репозитариев и семантических уровней данных, которые приходится адаптировать к конкретным инструментам бизнес-аналитики, мешают достижению этой цели. Построив универсальный семантический уровень данных, вы придадите новый импульс всей вашей стратегии бизнес-анализа применительно к озерам данных.
Что такое универсальный семантический уровень данных
Универсальный семантический уровень данных – это единое представление всех корпоративных данных с точки зрения бизнеса. Он помогает тем, кто работает с данными, получать доступ ко всем корпоративным данным на общих условиях с использованием инструментов бизнес-анализа и аналитических средств по своему выбору.
Концепция семантического уровня, лежащая в основе платформ бизнес-аналитики, известна давно. Компания Business Objects в 1991 году запатентовала соответствующую идею, а в 2003-м MicroStrategy сумела оспорить этот патент. Как бы то ни было, семантические уровни для конкретных инструментов бизнес-аналитики создавались на предприятиях всегда и всегда использовались.
В последнее десятилетие появившиеся озера данных – единый репозитарий для всех корпоративных данных, хранимых в их исходном формате – породили надежду на то, что организации смогут наконец, не перемещая данные, получать к ним доступ с помощью инструментов бизнес-аналитики или аналитических средств по своему выбору.
«Однако надеждам этим так и не суждено было сбыться», – указал основатель и генеральный директор стартапа AtScale Дэйв Мариани, бывший вице-президент Yahoo по вопросам разработки, пользовательских данных и аналитики. Причиной такого положения дел стало отсутствие универсального семантического уровня данных.
Преимущества универсального семантического уровня данных
«Озера данных – просто-напросто сборные зоны для файлов, – отметил Мариани. – Без находящегося поверх них семантического уровня никакой ценности они не представляют. Я рассматриваю его в качестве уровня абстракции. Мы абстрагируемся от того, как и где хранятся данные. Берутся, по сути, необработанные данные, и им придается определенное семантическое значение с точки зрения бизнеса».
«Рассмотрим, к примеру, концепцию чистых продаж, – добавил технический директор компании AtScale Мэтью Бейрд. – Что здесь важнее: стоимость товаров в чеке или скидки? Если вы хотите реализовать даже небольшой пользовательский сценарий, вам придется выполнить десятки вычислений, а в отраслевой модели таких расчетов уже сотни. Без уровня абстракции бизнес вынужден генерировать и выводить массу отчетов. Возникают риски серьезных, дорогостоящих и, что хуже всего, незаметных ошибок. Можете ли вы позволить себе такую организацию труда, при которой каждый сотрудник независимо от всех остальных пытается правильно воспроизвести декларированную логику в своих электронных таблицах и отчетах? Сумеете ли распознать малозаметные, но весьма ощутимые ошибки?»
В прошлом семантические уровни представляли собой точечные решения, сглаживающие общую проблему для отдельных инструментов бизнес-аналитики. Идея, положенная в основу универсального семантического уровня данных, заключается в том, чтобы провести инвентаризацию всех ключевых бизнес-параметров, собрать определения, уже присутствующие в инструментах бизнес-аналитики, и разместить их в едином слое абстракции, с тем чтобы осуществлять управление и вносить изменения в одном месте.
«Вы получаете единый пульт управления всеми параметрами, – пояснил Мариани. – При этом сохраняются различные формы визуализации и работы с ними – вы помещаете все компоненты в одном место, но оставляете возможность их потреблять в различных формах».
Возврат управления данными ИТ-подразделению с сохранением самообслуживания в бизнес-анализе
Для ИТ-директора здесь есть свои плюсы: универсальный семантический уровень данных вновь делает управление потоками данных прерогативой ИТ-службы, оставляя бизнесу быстрое и гибкое самообслуживание в бизнес-анализе.
«Всю работу по перемещению и передаче данных, распределенную ранее между бизнес-подразделениями, вы возвращаете под контроль обученных специалистов, – подчеркнул Мариани. – А поскольку у этих специалистов имеется представление обо всех данных, а не только о данных какого-то одного бизнес-подразделения, все операции выполняются в нужном объеме, и отреагировать на появление новых источников данных можно очень быстро. Люди, занимающиеся этой работой, имеют целостное представление обо всем, а не взирают на мир через узкую смотровую щель».
Благодаря минимизации перемещений данных и созданию на предприятии нескольких их копий универсальный семантический уровень данных позволяет упростить имеющуюся инфраструктуру и повысить ее безопасность.
«Безопасность озера данных в Hadoop можно определять с помощью Kerberos, Sentry или Ranger, – указал Мариани. – Любой, кто подключается к системе и выполняет запросы в озере данных, будет защищен на уровне битов данных, а не приложения, которое их использует. Теперь данные защищаются в процессе их записи, а не в процессе использования. Если же данные будут извлекаться в бизнес-подразделениях по их собственному усмотрению, то нужной защиты добиться вам не удастся».