1. Концепция совершенно новая. Термин «озеро данных», предложенный техническим директором компании Pentaho Джеймсом Диксоном, обсуждается уже несколько лет. Но, по словам аналитика IDC Ашиша Надкарни, идея использования озер данных в качестве ресурсов корпоративного уровня все еще находится в зачаточном состоянии. Озеро данных определяется как большое – и относительно дешевое – хранилище данных, построенное по образу Hadoop, в котором размещаются все типы необработанных данных. Впоследствии они могут понадобиться для бизнес-анализа или добычи данных. В озере данных все элементы хранятся в своей первоначальной форме, необработанной и неуправляемой.
2. Купить готовое к использованию озеро данных невозможно. В своей рекламе поставщики утверждают, что озера данных станут для проектов Больших Данных панацеей, но это не так. «Как и в случае с хранилищами данных, озера данных – это концепция, а не технология, – указал аналитик Gartner Ник Хойдекер. – Для создания озера данных вы можете использовать различные технологии. По сути, озеро данных – это стратегия хранения».
3. Озера придуманы для накопления Большие Данных. Озера предназначены для приема данных – процедуры, которая включает в себя сбор, импорт и обработку данных для хранения и последующего их использования. «Там, где организация хранилища данных оказывается слишком громоздкой для масштабного приема, вступают в действие озера данных, – пояснил Хойдекер. – Озеро данных не требует предварительного создания схемы. Данные просто заносятся туда, а схема создается и применяется уже в процессе их извлечения».
4. В проектировании должны участвовать самые разные специалисты. Озера данных представляют собой ресурсы для всей организации, а не только для ИТ-службы. Поэтому к планированию проектов озер данных следует привлекать все заинтересованные стороны. «Речь идет о центральном компоненте архитектуры Больших Данных всего предприятия, который невозможно реализовать в отрыве от всего остального, – отметил Надкарни. – Помимо ИТ-менеджеров в проект озера данных необходимо вовлекать руководителей бизнеса и пользователей. И ключевую роль здесь должны сыграть эксперты по системам хранения. В конечном итоге дело сводится к построению платформы хранения, а ее проектирование и реализация невозможны без участия специалистов по хранению».
5. Основные выгоды определяются не технологией. «Ценность озер данных для бизнеса мало зависит от выбранной технологии, – утверждает Хойдекер. – Ценность для бизнеса определяется накопленным опытом управления данными, который можно применить к озеру. Озера данных не являются заменой существующим аналитическим платформам или инфраструктуре. Они дополняют собой ваши усилия и помогают поднимать новые вопросы. После того как эти вопросы сформулированы, они 'оптимизируются' для получения ответов. Оптимизация может заключаться в том числе и в отходе от озера в сторону киосков или хранилищ данных».