Большие Данные как сервис — анализ без рутины | Компьютерный мир

В стремлении представить Большие Данные как доступную и понятную аналитику организациям все чаще приходится задумываться о переносе соответствующих функций в облако. Отдавая предпочтение Большим Данным, предлагаемым в качестве сервиса, когда поставщик берет на себя требующее серьезных затрат времени и ресурсов управление технологиями Больших Данных (Hadoop, Spark, Hive и пр.), предприятия получают возможность избавиться от черновой работы и переключить внимание на преимущества Больших Данных.

В эпоху Больших Данных перед организациями встают фундаментальные вопросы использования их потенциала, расширения сферы применения и интеграции в уже существующие корпоративные хранилища и киоски данных.

Доминирующей и коммерчески применяемой сегодня технологией Больших Данных является Apache Hadoop. Она используется вместе с другими компонентами в составе расширяющейся экосистемы Hadoop: средствами обработки данных в оперативной памяти Apache Spark, инфраструктурой хранилищ данных Apache Hive и системой хранения Apache HBase NoSQL.

Рэйми Стата, генеральный директор компании Altiscale

Чтобы интегрировать Большие Данные в базовую корпоративную архитектуру, нужна соответствующая адаптация и инвестиции в технологии Больших Данных, предоставляемые в качестве сервиса. Архитектура, отвечающая потребностям сегодняшнего дня, должна включать в себя следующие компоненты.

• Высокопроизводительное, готовое к поддержке аналитических средств хранилище данных на базе Hadoop. Как ускорить обработку Больших Данных и обеспечить поддержку аналитики? Лучший способ построить дружественную к аналитическим функциям среду Больших Данных — создать аналитическое хранилище, куда будут загружаться часто используемые наборы данных из озера данных Hadoop, и структуризировать многомерные модели. Имея в своем распоряжении готовый к применению аналитических средств набор данных поверх Hadoop, организации смогут быстро получать ответы на свои запросы. Такие модели понятны для бизнес-пользователей и упрощают исследование изменения контекста бизнеса с течением времени.

Аналитический набор данных должен не только поддерживать отчеты для известных сценариев, но и проводить исследовательский анализ незапланированных ситуаций. Пользователю не нужно задумываться, обращаться ли ему с запросом к аналитическому набору данных или к Hadoop напрямую.

• Семантический уровень, упрощающий «бизнес-язык» анализа данных. Как обеспечить доступ к Большим Данным самому широкому кругу бизнес-пользователей? Чтобы скрыть сложность необработанных данных и представить их бизнес-пользователям в понятных бизнес-терминах, нужен семантический уровень. На таком уровне обеспечивается логическое представление данных, к которому применимы бизнес-правила.

К примеру, «ценными клиентами» на семантическом уровне можно считать тех, кто поддерживает с компанией отношения на протяжении трех и более лет и совершает покупки на регулярной основе. Прежде чем попасть на семантический уровень, данные «ценных клиентов» собираются из разных таблиц и подвергаются многоступенчатой обработке и преобразованиям. Причем все это остается невидимым для бизнес-пользователя.

Прежде бизнес-пользователям приходилось обращаться с запросами к Hadoop напрямую, это было неудобно и требовало дополнительной информации от ИТ-службы. В результате формировалась очередь запросов. Семантический уровень позволяет бизнес-пользователям анализировать и изучать данные в привычных для себя бизнес-терминах, без ожидания ответов от ИТ-службы и назначения запросам приоритетов. Допускается повторное использование данных, отчетов и результатов анализа различными пользователями, тем самым обеспечивается необходимая синхронизация и согласованность, а ИТ-службе не нужно отвечать на каждый отдельно взятый вопрос.

• Среда Больших Данных с множественной арендой. Как обращаться к Большим Данным без привязки к конкретному местоположению пользователя? В условиях повсеместного спроса на аналитику организациям необходим гибридный централизованно-децентрализованный подход к данным. Это позволит различным командам использовать локальные наборы данных и семантические определения, сохраняя доступ к ресурсам корпоративных данных, создаваемых ИТ-службой.

Такой гибридный подход реализуется посредством множественной аренды данных. При этом на ИТ-службу возлагается сбор и очищение данных из озер Hadoop, а также подготовка к созданию централизованного семантического уровня и проведению анализа сохраняемых данных.

Затем создаются виртуальные копии централизованной среды данных для различных бизнес-групп: финансовой, группы продаж, маркетинга и поддержки клиентов. Таким образом ИТ-служба сохраняет за собой управление данными и семантическими правилами, а бизнес-группы и подразделения получают возможность увидеть результаты своей повседневной деятельности путем анализа исторических или корпоративных данных, хранящихся в Hadoop.

• Удобные способы использования аналитики. Как сделать анализ Больших Данных удобным для пользователя? На последнем этапе процесса доставки Больших Данных конечным пользователям необходимо рассмотреть форму их представления. Интерфейсы данных должны отвечать индивидуальным потребностям всех пользователей. Это предусматривает создание интерактивных инструментальных панелей для бизнес-пользователей, интуитивно понятных визуальных инструментов анализа и точных, заранее спланированных отчетов для потребителей информации.

Хотя каждый стиль уникален, лучшие практики предусматривают отказ от реализации любого интерфейса в виде отдельного инструмента. В процессе создания, совместного использования и публикации информации необходима точность и согласованность. Достигается это с помощью семантического уровня, гарантирующего неизменность сути данных, определяющей их ценность, в то время как способы представления могут варьироваться в зависимости от интерфейса.

Большие Данные играют для предприятий все более важную роль, составляя основу корпоративной архитектуры данных. Чтобы использовать их потенциал в полной мере, предприятиям необходимо ускорить инвестиции в технологии, помогающие эффективно хранить и анализировать данные. Благодаря облачным решениям для Больших Данных предприятия укрепляют свои позиции и совершенствуют непрерывно развивающуюся экосистему Больших Данных.

Большие Данные как сервис — анализ без рутины

Как «приготовить» Data Quality