Проблема Больших Данных вот-вот станет актуальной для крупных отечественных предприятий и организаций, и им нужно готовиться к ее решению |
Проблема Больших Данных вот-вот станет актуальной для крупных отечественных предприятий и организаций, и им нужно готовиться к ее решению. Эта мысль стала стержнем прошедшего 22 марта форума Big Data 2012 – первого в России крупного мероприятия, посвященного этой теме, организованного издательством "Открытые системы». Форум посетили около 400 слушателей.
Как отметил Сергей Мацоцкий, председатель правления компании IBS, в последние годы организации сталкиваются со стремительным ростом объемов данных, который продолжится и в ближайшие годы. Так, по прогнозам IDC, с 2011-го по 2015 год общий объем данных вырастет примерно в 4,4 раза, общемировой трафик – почти втрое. Появляются новые источники больших объемов данных: системы CRM, RFID, мобильные устройства, спутниковые навигационные системы. Стремительно увеличиваются потоки неструктурированной информации, в том числе мультимедийной. В то же время, по словам аналитиков Gartner, большинство организаций не обладает ни техническими возможностями работать с Большими Данными, ни умением управлять ими.
Эксперты отмечают следующие признаки наличия проблемы с обработкой Больших Данных: объем данных в организации превышает физические возможности вертикального масштабирования ее ИТ-инфраструктуры; требуется высокая скорость обработки значительных объемов данных; имеется большое разнообразие форматов данных либо вариантов их интерпретации и анализа; наблюдается очень быстрый рост затрат на хранение и обработку данных. Во всех перечисленных случаях организациям приходится искать новые подходы хранению, обработке и анализу данных.
«Технологии Big Data описывают новое поколение решений, разработанных для экономичного извлечения результатов из больших объемов данных разных типов», — пояснил Гюнтер Тиль, руководитель направления по развитию бизнеса в регионе EMEA компании NetApp.
«Впервые в истории ИТ-индустрии происходит фундаментальное смещение трактовки информации: она обретает форму социальных сред, замысловатых мультимедиа, потоков данных о щелчках мышей, данных от различных датчиков, изображений разных форматов, сообщений электронной почты и т. д.», — подчеркнул Хартмут Вагнер, вице-президент по управлению информацией компании НР в регионе ЕМЕА.
Как показал опрос, проведенный организаторами форума, подавляющее большинство компаний в России не сталкивались с проблемой Больших Данных (по крайней мере, не осознают ее актуальность). Тем не менее есть ряд предприятий, где понимают, что очень скоро им придется столкнуться с этой проблемой.
В качестве примеров прикладных задач, при решении которых может возникнуть проблема Больших Данных, Вячеслав Архаров, менеджер по развитию бизнеса платформы приложений российского представительства Microsoft, назвал оценку рисков, борьбу с отмыванием денег, анализ трендов и прогнозирование в финансовом секторе; анализ обращений, веб-аналитику (в том числе в соцсетях), анализ рекламы, анализ изображений в секторе СМИ и интернет-контента; анализ поведения заказчиков и анализ продаж товаров и услуг, в том числе через Интернет; защиту от мошеннических действий в онлайновых играх; различные задачи сферы национальной безопасности; генетические исследования в фармацевтике, а также исследования в интересах науки и образования.
Сергей Лихарев, руководитель направления решений по управлению информацией корпорации IBM в странах Восточной Европы и Африки, в числе прикладных задач также упомянул оценку влияния погоды и дорожного трафика на доставку грузов и потребление топлива; анализ расшифровок разговоров для оценки поведения клиентов в контакт-центрах; анализ операций и сбоев операторских сетей в телекоме; анализ влияния погоды на генерацию энергии и анализ данных, поступающих от умных счетчиков, в энергетике; анализ системных журналов транзакционных систем в различных отраслях.
По словам Вагнера, средства, предназначенные для работы с Большими Данными, должны предоставлять одинаково простой доступ ко всей корпоративной информации, обрабатывать не только структурированные, но и частично структурированные, и неструктурированные данные, выстраивать связи между различной информацией независимо от формата, в котором она представлена, работать с исходными источниками данных, не производя копирование информации, понимать смысл всех данных и их контекст, уметь соотносить сходные телефонные звонки, сообщения электронной почты, документы и информацию из систем мгновенных сообщений, а также «на лету», в реальном времени обрабатывать и анализировать данные, применяя при этом правила политик.
В ходе решения проблемы Больших Данных очень важно оценивать совокупную стоимость сбора, хранения и обработки данных и, конечно, стремиться к повышению окупаемости инвестиций, выделяемых на эти цели, отметил Ник Росситер, региональный директор компании Informatica в России и СНГ. По его словам, этого можно добиться путем повышения ценности данных или снижения их стоимости. Увеличение ценности достигается в первую очередь благодаря получению новых возможностей и преимуществ для бизнеса (таких, например, как ускорение обработки заявок клиентов, увеличение числа заказчиков, уменьшение количества претензий с их стороны, снижение рисков мошеннических операций, повышение производительности труда сотрудников предприятия и пр.). Снизить стоимость данных удается прежде всего за счет оптимизации и модернизации ИТ-инфраструктуры и ИТ-процессов, в результате чего снижаются совокупные ИТ-затраты.
«Можно ли получить от данных в десять раз больше пользы, чем удается сейчас? Да, это вполне реально — за счет использования данных, которыми обычно пренебрегают или которые не обрабатывают из-за технических ограничений», — уверен Люк Лонерган, соучредитель и технический директор компании Greenplum (сейчас она входит в состав EMC).
Наиболее часто на форуме упоминалась технология Apache Hadoop — распределенная вычислительная архитектура, способная автоматически осуществлять репликацию данных на множестве узлов, а также выполнять поиск и анализ по всем этим узлам. Hadoop, основанная на технологии Google MapReduce, позволяет анализировать неструктурированные данные больших объемов (порядка петабайт), распределенные по кластеру, составленному из далеко не самого высокопроизводительного оборудования. Технология широко используется в ряде известных компаний, в том числе в Facebook, Twitter, LinkedIn, Apple, Amazon, Yahoo и др. Неудивительно, что практически все компании, чьи представители выступили на форуме, также заявили о поддержке Hadoop в той или иной форме.
В целом форум получил очень высокие оценки тех, кто его посетил, несмотря на то что никто из выступавших так и не привел примера законченного проекта в области Больших Данных из отечественной практики. Хочется надеяться, что следующий форум порадует гостей рассказами не только о новых методиках и технологиях, но и примерами их применения.
Партнерами Форума стали компании Microsoft, NetApp, IBM, Oracle, HP, EMC, HDS, Informatica, SAP, IBS, Sybase и Splunk.