Общаясь в соцсетях или используя поисковые системы, все в той или иной степени являются пользователями технологий Больших Данных, но не каждый может и готов оперировать подобными хранилищами и собственными руками получать какие-либо результаты. Массовой эта технология пока стать не может — за ней тянется сложный математический аппарат, для обработки данных требуются довольно глубокие и фундаментальные знания.
«Для меня Большие Данные — не объем, измеряемый в терабайтах или петабайтах, а концепция единого хранения всей корпоративной информации, которую можно обрабатывать и строить на ее основе дополнительную аналитику, получая от консолидации бизнес-преимущества», — говорит Игорь Ульянченко, начальник департамента программного обеспечения и информационных технологий ОАО «Администратор торговой системы оптового рынка электроэнергии» (ОАО «АТС»). Критически важными для компании являются задачи, связанные с аналитикой рынка, — анализ финансовых результатов участников и их стратегий, а также прогнозирование. Это важно для понимания того, каким образом используются рыночные инструменты, нет ли манипулирования на рынке, корректно ли исполняются принципы, заложенные в модель рынка. Таким образом, объединяя множество разнородных источников данных, специалисты организации не только прогнозируют цены на электроэнергию на оптовом рынке, но и контролируют добросовестность игроков.
Разнообразные проекты, которые можно так или иначе отнести к Большим Данным, начались с момента основания компании и происходили на протяжении десяти лет. Но в последнее время востребованность в них увеличилась. Уже полгода организация ведет проект по построению нового аналитического хранилища, в полной мере отвечающего духу того, что принято называть Большими Данными. Основной задачей стала консолидация данных всех корпоративных систем и внешних источников в едином аналитическом хранилище, а также обеспечение обработки всей информации о рынке электроэнергии в реальном времени.
Объединяя источники
Ключевым побуждающим фактором для внедрения мощной аналитической системы стала возможность работать со всеми данными в рамках единого решения. В компании накопилось множество разнообразных источников информации: ИТ-ландшафт состоит из более чем сотни информационных систем. Дело в том, что компания «АТС» является инфраструктурной на оптовом рынке электроэнергии. Для нее не существует стандартных решений, поэтому все приложения разрабатываются под заказ или собственными силами.
Вторая группа аргументов сводилась к зрелости технологий: на сегодняшний день имеются продукты, действительно позволяющие создавать хранилища большого объема, которыми можно оперировать в реальном времени.
Конечно же, инициатива по внедрению технологии Больших Данных исходила от ИТ-подразделения — ведь речь идет о базовых платформах для аналитических систем. Но, как только пришло первое осознание того, что за разумное время может быть достигнут результат, который выведет на качественно новый уровень аналитику компании, со стороны всех без исключения бизнес-подразделений возникла глубокая заинтересованность и они стали оказывать поддержку.
В качестве платформы для построения хранилища выбрали HP Vertica — специализированное решение, разработанное для использования в задачах Больших Данных. В качестве средств аналитики используется инструментарий SAS.
Решение HP Vertica характеризуется довольно специфическими требованиями к инфраструктуре. Это распределенный кластер, построенный на базе стандартных серверов и массивно-параллельной архитектуры (massive parallel processing, MPP). Компания, выбравшая его, не ограничивается какой-либо аппаратной платформой, но должна обеспечить достаточную производительность сети передачи данных и надежное функционирование всех узлов этой распределенной системы.
Во многом из-за столь серьезных требований к ИТ-инфраструктуре уже на старте проекта было начато сотрудничество с ЦОД Dataspace, эксплуатационная устойчивость которого сертифицирована Uptime Institute в категории Tier III. «Разумеется, мы заинтересованы, чтобы все наши вычислительные ресурсы обладали надежностью, особенно та часть, которая относится к аналитическим системам», — подчеркивает Ульянченко. Это существенная часть инфраструктуры, она отличается высокой сложностью и распределенно обрабатывает очень большой объем данных.
Ожидание неприемлемо
Зримое развитие технологий Больших Данных в первую очередь происходит за счет создания прикладных решений. Существует ли развитие этого рынка с точки зрения поставщиков оборудования?
«Задачи, связанные с Big Data, можно подразделить на три основные сферы: аналитика, пропускная способность систем хранения и работа с данными. Традиционным алгоритмам хранения данных и работы с ними придется измениться, чтобы соответствовать будущим требованиям. Длительное ожидание результатов больше никогда не будет приемлемым», — говорит Лоуренс Джеймс, менеджер по маркетингу решений NetApp в Европе, на Ближнем Востоке и в Африке.
Новейшие технологии аналитики, основанные на таких решениях, как Hadoop, могут быть использованы для распараллеливания задач анализа данных. Этот подход дает значительную экономию времени. Например, задача, для выполнения которой ранее требовались четыре недели, теперь может считаться за 10 часов.
При создании решений обработки Больших Данных обязательна высочайшая пропускная способность систем хранения. Благодаря этому существенно сокращается время, необходимое для сбора информации, а следовательно, ускоряется принятие решений.
Но задача, вызывающая основной интерес и оказывающая максимальное влияние на рынок Big Data, — это работа с хранимыми данными. Поддержание возможности доступа к данным на протяжении всего периода их хранения и актуальности — задача уникального характера, так как речь может идти о периоде в 100 лет и более.
Технологии применимы
Сейчас проект находится на стадии создания прототипа, охватывающего существенную часть источников данных и часть бизнес-процессов. Значительный объем работ выполняется собственными силами при поддержке одного из партнеров. Целостную модель планируется реализовать в течение ближайших 6–10 месяцев. После этого можно будет рассчитать гораздо более точные сроки и возможности развития проекта для охвата всех процессов и областей деятельности компании.
«В целевой модели мы планируем объединить более 80 источников, на данный момент их около десяти», — делится Ульянченко. Основная проблема, решаемая сейчас, — обеспечение управления изменениями в реальном времени, и она крайне серьезна. При этом подразумевается контроль изменения не столько самих данных, сколько структур и логического смысла данных, хранящихся в системах-источниках.
Первый результат пилотного проекта крайне важен и заключается в том, что стала очевидной применимость рассматриваемых технологий. Для достижения успеха необходимо корректно выстроить изменяющуюся модель бизнес-процессов, чтобы динамически отслеживать все изменения и отражать их в хранилище.
Сейчас в компании проводится предварительная оценка системы, и уже понятно, что на некоторые задачи, в частности связанные со сложной аналитикой, будет уходить гораздо меньше времени. Кроме того, появится возможность решать задачи, прежде недоступные ввиду отсутствия единой модели и адекватных высокопроизводительных инструментов.
«Выбранное нами решение фантастически экономично, — резюмирует Ульянченко. — Во-первых, мы не завязываемся на какую-либо аппаратную платформу, во-вторых, мы лицензируем фактический объем хранимых данных». Таким образом, система может быть масштабирована в десятки раз без существенных затрат.
«Возможностью обогатить существующие данные нельзя пренебрегать. Конечно, нужно подходить разумно и понимать, что хранить каждый байт возникающей в мире информации нет смысла. Однако мне кажется, что в большинстве случаев возникающая в ходе деятельности компании информация имеет для нее смысл. Эта информация может принести дополнительные положительные результаты за счет агрегации и построения аналитики — надо лишь придумать, как ее использовать», Игорь Ульянченко, начальник департамента программного обеспечения и информационных технологий ОАО «АТС» |
Осознанная необходимость
В большинстве организаций корпоративные данные постоянно накапливаются. Их обработка приносит преимущества, поэтому необходимость владения информацией и ее обработки в большинстве случаев либо уже не подвергается сомнению, либо скоро будет осознана.
«В первую очередь стоит ответить себе на вопрос, какой именно эффект хочется получить от технологий Больших Данных», — рекомендует Ульянченко. Если есть понимание того, какие нужны результаты, то экономический эффект вполне рассчитывается. Главное — осознать собственные процессы и понять, где возможна оптимизация благодаря использованию аналитических инструментов.
Например, с точки зрения управления рынком электроэнергии в первую очередь важно прогнозирование. В электроэнергетике существуют достаточно сложные модели для проведения разнообразных анализов и получения конечных результатов. Здесь как раз и востребован анализ Больших Данных.
Большие Данные: от идеи — к бизнес-выгоде
На кривой Hype Cycle, публикуемой аналитиками Gartner, технологии Больших Данных сейчас находятся в фазе «прощания с иллюзиями», когда пользователи начинают подходить к ним прагматично и гораздо большее внимание обращают на проблемы. Им необходим более взвешенный подход к Большим Данным, их обработке и прогнозной аналитике. Должны начаться процессы переосмысления этих технологий, более тщательная выработка критериев использования и применения.
С самого начала Большие Данные были «зонтичным» термином, объединявшим много подходов и технологий. Это порождало путаницу и недопонимание.
«Ничего не изменилось — пока что не существует «единой» технологии Больших Данных», — говорит Сергей Лихарев, руководитель по развитию бизнеса IBM Big Data. Точно так же не существует и единого успешного сценария идентификации и реализации проекта в области Больших Данных. Во многом так происходит из-за того, что польза от них может возникнуть во многих подразделениях организации.
Доступных технологий много, и компании выбирают те, которые подходят для решения конкретной задачи наилучшим образом. Но здесь кроется и ловушка: не все сценарии применения Больших Данных имеют в основе похожую технологию и архитектурный подход. Организациям, в особенности крупным, нужно с самого начала помнить о потенциальной опасности того, что реализация нескольких проектов приведет к разрозненным «очагам» данных и потом этими данными будет трудно централизованно управлять и дорого интегрировать их.
«Термин остается зонтичным, и это нормально. Big Data — действительно совокупность многих подходов и технологий, объединенных одной целью: возможностью эффективной обработки данных, характеризуемых знаменитыми «тремя V» — Volume, Variety, Velocity», — согласен Дмитрий Шепелявый, заместитель генерального директора «SAP СНГ». Одной технологией для обработки таких разнообразных данных действительно не обойтись. Например, обработка видеофайлов больших объемов и быстрая обработка непрерывного потока коротких сигналов от роботов и телефонов — совершенно разные задачи.
«К решению актуальных для компаний задач подключились многие производители, выпускающие разные категории продуктов. Отсюда различное понимание концепции и, более того, восприятие Big Data как исключительно маркетингового термина», — полагает Александр Хлуденев, заместитель генерального директора по перспективным направлениям бизнеса компании «Крок». Однако, по мере роста числа внедрений, а также зарекомендовавших себя на рынке сценариев обработки данных и соответствующих им технологий, концепция Больших Данных становится более однозначной для понимания всеми участниками рынка.
Еще совсем недавно вокруг Больших Данных наблюдался сильный ажиотаж. С невероятной скоростью росло количество упоминаний и в СМИ, и в ходе публичных выступлений. Сейчас ажиотаж постепенно сменяется более спокойным отношением к технологии, взвешенными «примерками» на себя, первыми штатными использованиями.
«Критические отзывы тоже появляются, но лишь в том случае, когда концепцию Больших Данных продолжают считать панацеей, преувеличивая ее реальные возможности», — говорит Хлуденев. Другой нюанс заключается в том, что по мере роста рынка компании неизбежно сталкиваются с проблемой поиска квалифицированных кадров, способных работать с решениями класса Big Data, а также администрировать распределенные базы данных. Таких сотрудников не хватает уже сегодня, причем как в России, так и на Западе. Впрочем, выход есть — многие компании уже подумывают о реализации аналитики Больших Данных в виде облачных сервисов.
«Скептицизм может возникать на этапе перехода от теоретических дискуссий к практическим проектам. Заказчики начинают понимать: чтобы достичь результата, нужно нечто большее, чем просто наличие технологий обработки данных», — добавляет Шепелявый. Необходимы сами релевантные данные, которых у компаний иногда просто нет. Кроме того, надо инвестировать в создание и тестирование адекватных предиктивных моделей, что требует и ресурсов, и времени.
«Ценность не в данных самих по себе, а в том, что с этими данными можно сделать, какую информацию и знания из них извлечь», — напоминает Андрей Пивоваров, руководитель группы перспективных технологий предпроектного консалтинга Oracle СНГ. Безусловно, никакие данные — ни «большие», ни «маленькие» — не гарантируют сами по себе увеличения прибыли или сокращения затрат. Проблемы такого рода не новы: в прошлые годы подобные сомнения высказывались о технологиях Data Mining, хранилищах данных и BI-системах. Многие люди с недоверием и подозрением относятся ко всему новому. Большие Данные — всего лишь новые потенциальные возможности для бизнеса. Некоторые организации уже успешно используют их, получая конкурентные преимущества, а другие ждут появления готовых решений, которые будут «сами зарабатывать деньги».
Путь в массы
Чего не хватает технологиям Больших Данных, чтобы стать массовыми? Как полагает Лихарев, можно выделить три ключевых фактора.
Сильным сдерживающим фактором является недостаток квалифицированных специалистов, хорошо владеющих современными технологиями и новыми инструментами разработки, которые пришли, например, вместе с Hadoop. Стремясь устранить этот дисбаланс, многие производители выпустили решения, позволяющие использовать навыки разработки на SQL поверх Hadoop. Похожая ситуация сложилась с инструментами статистической обработки и глубокого анализа: производители стараются сделать технологии доступными более широкому кругу разработчиков и пользователей.
Во-вторых, не хватает «проверенных рецептов» успешных проектов Больших Данных. Возможностей для бизнеса много, как много и технологий для их реализации. Это ведет к тому, что проекты рассматриваются как «исследовательские» и начинают эволюционировать по мере получения первых практических результатов. Более зрелые технологии куда менее рискованны: для них почти всегда существует набор методологий и практических рекомендаций, «как в кратчайшие сроки реализовать успешный проект».
Наконец, промышленные реализации проектов Больших Данных зачастую требуют пересмотра ролей в организациях. Появляется роль Chief Data Officer и связанные с этим изменения в функционировании ИТ-подразделений. С пониманием и «стандартизацией» новых ролей, пришедших вместе с Большими Данными, будут ускоряться и темпы перехода технологии в разряд массовых.
Не все данные одинаково полезны
С самого появления термина «Большие Данные» эксперты разделились на два лагеря: одни утверждают, что надо хранить все доступные данные в надежде со временем извлечь из них пользу, а другие уверены в том, что следует заниматься сбором только той информации, польза которой доказана.
«Вообще, я за хранение только той информации, полезность которой доказана. Но ответ на данный вопрос зависит от характера данных, подлежащих агрегации и хранению», — отмечает Сергей Знаменский, технический консультант департамента программных решений «НР Россия».
«Любые аналитические системы со временем развиваются и эволюционируют: меняются рыночные условия, появляются новые идеи. Очень часто бывает, что бизнес-пользователи требуют какие-то новые данные для анализа, а эти данные при проектировании хранилища не были сочтены полезными и могут уже даже физически не существовать», — приводит пример Пивоваров. Подход, когда данные хранятся в хранилище в исходном виде, позволяет смягчить эти проблемы. В случае, если данные, прежде считавшиеся бесполезными, будут потребованы, — они будут в наличии. Это стало возможным, так как хранение данных в системах типа Hadoop гораздо дешевле хранения в реляционных базах данных.
«Исходить из того, что мы сегодня точно знаем, какие данные нам понадобятся завтра или через год, немного наивно», — продолжает Пивоваров. При построении систем для анализа данных можно рекомендовать по возможности сохранять исходные данные, так как они требуются чаще, чем можно ожидать. Конечно, всегда существуют какие-то данные, не имеющие никакого бизнес-применения, и их хранить нет смысла. Однако в большинстве случаев лучше сохранить больше, чем потом не иметь возможности проанализировать данные, которые не были в свое время оценены как полезные.