Маленьких данных не бывает

В рамках конференции Huawei Network Conference 2015, впервые проведенной компанией в Москве с целью продемонстрировать технологии и продукты для построения и управления программно-конфигурируемой сетевой инфраструктурой (Software Defined Infrastructure, SDI), состоялась сессия по Большим Данным. В работе сессии приняли участие представили компаний SAP, «Крок», «Техносерв», «Вымпелком» и Teradata.

Как следовало из доклада, который сделал Дон Либинь, директор компании по глобальным продажам корпоративных ИТ-решений, в Huawei еще в 2009 году заинтересовались проектами, связанными с Большими Данными. В 2011 году был выпущен первый продукт – платформа Galax HD, позже получившая название FusionInsight Hadoop и сегодня нашедшая применение у более чем ста заказчиков по всему миру. Платформа предлагает унифицированные средства хранения больших массивов данных, поиска и аналитики, помогающие предприятиям из сферы телекоммуникаций, финансов и госуправления решать задачи обработки Больших Данных. Для открытой платформы FusionInsight требуются обычные серверы стандартной архитектуры, причем без каких-либо дополнительных аппаратных компонентов, а в состав ПО входят средства управления ресурсами, инструментарий разработчика и комплект программ моделирования, позволяющих обнаруживать скрытые взаимосвязи в данных и использовать их для развития бизнеса. Так, благодаря FusionInsight в China Merchant Bank удалось с недель до минут сократить процедуру проверки кредитной истории потенциальных клиентов, что позволяет почти в реальном времени принимать решение о выдаче кредитов. На сегодняшний день Huawei является третьим после Hortonworks и Cloudera контрибьютором проекта Apache Hadoop (Spark).

В чем состоит проект Больших Данных? Тиражируемы ли такие проекты? Не пора ли, как призывают аналитики Gartner, вообще отказаться от термина «Большие Данные»? Эти и другие вопросы были поставлены перед участниками сессии. Сергей Марин из компании «ВымпелКом» считает, что, по сути, проект Больших Данных напоминает продажу продукта внутри своей компании – «сначала приходится объяснять сотрудникам, что это и зачем надо, а потом получать шквал запросов от них с требованием установить соответствующие инструменты и помочь использовать их в своей работе». Так, для бизнеса оператора связи средствами из арсенала технологий Больших Данных (Python, Spark, Hive, Pig и др.) решаются вопросы управления оттоком клиентов, маркетинговыми действиями с ними, а также обнаружения фрода. В решении последней задачи в «ВымпелКоме», по словам Марина, особенно преуспели – теперь, чтобы выявить факты мошенничества, требуется 15 минут, а не несколько дней, как раньше.

По мнению участников сессии, ни один коммерческий поставщик решений не сможет предложить полного спектра инструментов, необходимых для задач Больших Данных, хотя проприетарные продукты обычно проще и удобнее в работе. Однако узким местом является нехватка специалистов: сегодня не составляет проблем средствами Hadoop собрать витрину данных и выгружать из нее требуемые фрагменты, но мало специалистов, умеющих задавать бизнесу правильные вопросы. У нынешних студентов, как правило, есть познания в конкретных технологиях, но нет знаний. В этой связи вторично, используются ли в компании коммерческие решения типа Teradata Presto – интерактивная распределенная система обработки SQL-запросов в памяти, масштабируемая до петабайтного уровня, или платформа SAP HANA вместе с продуктом Vora для интеграции с Hadoop, либо весь спектр известных открытых решений из стека Hadoop YARN, позволяющих держать данные ближе к процессу их обработки. Когда не знаешь, что именно искать в накопленных больших или не очень больших массивах данных, то и результат поиска будет малополезным.

Маленьких данных не бывает

Как быстро и без лишних затрат внедрить MDM-систему: кейс Фонда Сколково