На протяжении многих лет организации, вдохновленные технологиями наподобие Apache Hadoop, искали пути построения озер данных – платформ управления данными в масштабах предприятия, которые позволили бы хранить корпоративную информацию в исходном формате. Озера данных помогали избежать разобщенности, формируя для всей организации единое хранилище данных, используемое в самых разных целях – начиная от поиска и выборки необходимой информации и заканчивая бизнес-анализом. Озера данных служили вместилищем сведений самого разного толка и средством на все случаи жизни.
Но, как рассказал технический директор компании Pyramid Analytics по бизнес-анализу Ави Перес, у многих его клиентов озера данных очень быстро превращались в болота – масштабную свалку, совершенно непригодную для конечных пользователей.
По словам Переса, базы данных обходятся предприятиям слишком дорого. Существующие источники и генераторы данных порождают огромные объемы информации, которую нужно где-то хранить. Озеро же данных дает фундаментальный ответ, помогающий справиться с решением этой задачи. Озера данных и все инициативы Больших Данных имеют, по сути, одну цель, формируя соответствующий рынок.
Но если некоторые наиболее успешные компании выстраивают на основе озер данных свой бизнес, то другие собирают информацию, не имея четкого представления о том, какую выгоду из нее можно извлечь.
«Они просто накапливают мусор, который в конечном итоге будет выброшен, – пояснил Перес. – Бюджеты, выделяемые на дорогостоящее хранение огромных объемов данных, не приносящих никакой пользы, начинают сокращаться».
Нельзя сказать, что идея, положенная в основу озер данных, плоха. Перес убежден в том, что рано или поздно все компании будут испытывать потребность в таких хранилищах. Но проектирование озер данных, к которым реально смогут обращаться конечные пользователи, требует серьезного продумывания.
Чтобы не утонуть в своем собственном озере данных, Перес рекомендует придерживаться трех принципов.
1. Собирайте поменьше данных, по крайней мере на начальном этапе
Одна из главных ошибок организаций – это сбор слишком большого количества данных просто в силу наличия такой возможности.
Взгляните на свой смартфон. Почти наверняка в нем хранятся сотни самых разных фотографий. «В конце концов в телефоне накопится несметное число снимков, причем 99% из них представляют собой мусор, с которым можно расстаться без всякого сожаления, – заметил Перес. – А объясняется все тем, что делать фотографии при помощи телефона очень легко, и обходится это практически бесплатно. Вы, наверное, утешаете себя тем, что в один прекрасный день соберетесь с духом и все почистите, но день этот почему-то никак не наступает». И когда вам захочется показать кому-нибудь какую-то конкретную фотографию, искать ее придется среди большого количества мусора.
То же самое происходит и с озерами данных. Хранение данных в Hadoop обходится так дешево, что многие зачастую считают его бесплатным. Однако накапливающиеся объемы информации затрудняют доступ к ней и извлечение действительно полезных сведений.
Для того чтобы избежать этого, достаточно просто «перекрыть кран». Исходите из того, что дешевизна сбора данных не обязательно означает дешевизну их использования. На самом деле затраты могут оказаться достаточно велики. Прекратите собирать информацию отовсюду и постоянно. Сосредоточьтесь на наборе данных, в отношении которого у вас имеется конкретный план.
2. Внедряйте машинное обучение
Но даже при наличии набора данных с конкретной ориентацией, если его объем достаточно велик, работа с ним требует автоматизации.
Вам понадобится автоматизированная система анализа. Искусственный интеллект, машинное обучение, глубинное обучение – какой бы термин вы ни использовали, речь идет о волшебном решении, которое поможет вам справиться со своей информацией. И самым простым способом извлечь ценности из огромного 5-петабайтного озера будет построение системы обучения на основе имеющихся данных.
Самый простой способ извлечь ценности из огромного 5-петабайтного озера – построение системы обучения на основе имеющихся данных
Для начала возьмите набор данных, который вы хорошо знаете, и подберите для него технологию машинного обучения. Чтобы решить эту задачу, вам, очевидно, потребуется переподготовить уже имеющихся сотрудников или привлечь специалистов со стороны. Машинное обучение – это настоящая черная магия. Внедрить такую систему нелегко. Вам понадобятся весьма специфичные знания.
3. Составляйте список задач
Нужно четко определить для себя бизнес-задачи, которые вы будете пытаться решить. Исходя из поставленных целей, относительно несложно сконцентрироваться на сборе необходимых данных и выборе наилучшей технологии машинного обучения, чтобы проанализировать эти данные.
Допустим, вы представляете крупную розничную сеть и хотите понять, какие покупатели приходят в ваши магазины. Фотографии клиентов можно делать на входе, после чего использовать для обработки полученных изображений сложную нейронную сеть (convoluted neural network, CNN) – разновидность нейронной сети глубинного обучения, прекрасно справляющейся с решением задач компьютерного зрения. CNN способна определять, мужчина изображен на снимке или женщина, ребенок или взрослый, регистрировать одновременно ребенка и взрослого, молодого человека и пожилого и т. д.
После того как вышеперечисленное сделано, увяжите это со своей бизнес-инициативой и предоставьте соответствующие возможности своим бизнес-пользователям. Это поможет вам сформулировать для себя текущие задачи. Нужно, например, акцентировать маркетинговые усилия на привлечении мужчин, потому что в магазины приходит мало мужчин. Необходимо заранее выработать четкую стратегию. В противном случае растущая коллекция фотографий будет только мешать оптимизации бизнес-процессов.
Выстраивая функционал с прицелом на конкретную инициативу, можно постепенно совершенствовать его и предлагать бизнесу еще более акцентированные решения. Определив, например, кто заходит в магазин, на следующем этапе вы можете использовать те же самые функции для определения того, кто проходит мимо прилавков с косметикой.
– Thor Olavsrud. 3 keys to keep your data lake from becoming a data swamp. CIO. JUN 8, 2017