Аналитики Gartner отмечают, что растущая шумиха вокруг «озер данных» (data lakes), неупорядоченных хранилищ информации, поступающей из различных источников и содержащейся в исходном формате, создает путаницу: ряд поставщиков рекламируют озера данных как важнейший элемент инфраструктур обработки Больших Данных, но на сегодня нет ни универсального определения озер данных, ни единого представления о том, какую пользу они приносят.
В Gartner поясняют, что обычно «озеро» преподносится как возможность исключить затраты на трансформацию данных перед помещением в хранилище и предоставить доступ к ним для анализа всем в организации. Однако учитывая, что информация в озере лишена консистентности и не сопровождается метаданными, ее анализ в реальности доступен лишь опытным экспертам, полагают в Gartner.
Кроме того, нет возможностей определить качество данных в таком неуправляемом хранилище и проследить происхождение выводов, сделанных с использованием данных из озера кем-то до вас. В результате, как отмечают в Gartner, без механизмов руководства озера угрожают превратиться в «болота». А учитывая, что информация «сливается» в озеро без проверки содержания, возможны также риски, связанные с экспозицией данных, подлежащих защите согласно нормативным требованиям, — по сведениям аналитиков, средства безопасности в системах организации озер данных на сегодня находятся в зачаточном состоянии.
Кроме того, возможны проблемы с быстродействием, полагают в Gartner: инструменты конечных пользователей попросту не способны обрабатывать данные с такой же скоростью, с какой это могут делать высокооптимизированные СУБД.
В конечном счете, полагают аналитики, в каждой организации должны выбрать для себя, что нужнее — доступность разнородных данных в озере для изучения экспертами по мере необходимости или анализ информации из заранее структурированного хранилища по стандартным алгоритмам.