Большие Данные небольшого размера

Михаил Герштейн: «Многие виды обработки по-прежнему удобнее и дешевле осуществлять традиционными методами. Не следует ожидать, что использование распределенных систем обязательно даст ощутимые выгоды»

На первый план выходит алгоритмический компонент, правильная организация хранения и вычислений. Об этом рассказывает на втором форуме Big Data 2013, организованном издательством «Открытые системы», Михаил Герштейн, главный архитектор комплексных решений «Сбербанка КИБ».

- Для каких сегментов рынка наиболее актуален анализ Больших Данных?

Эта тема потенциально интересна всем. Прежде всего — организациям с большим количеством транзакций, к которым относятся финансовые, энергетические, телекоммуникационные, транспортные компании. Однако было бы неверно однозначно связывать понятие «Большие Данные» с их объемом. Это скорее новый взгляд на роль данных в управлении бизнесом, на их значение. И другое понимание возможностей, которые предоставляют новые технологии анализа данных, ведь теперь из данных можно извлекать значительно больше информации. Допустим, у той или иной организации объем собираемых данных не изменился, но, если раньше у нее не хватало вычислительных мощностей для их полноценного анализа, то сейчас эти ограничения снимаются. Само по себе механическое увеличение объема данных может совсем не оправдать возлагаемых на них надежд.

- До сих пор большую роль в исследованиях рынка играли выборочные обследования, которые предполагали распространение выявленных свойств собранных данных на все множество их возможных значений, как говорят математики – генеральную совокупность. Что изменилось с появлением аналитики Больших Данных?

Новые технологии позволяют собрать и проанализировать значительно большую часть генеральной совокупности, чем раньше. Объем собираемой выборки приближается, а иногда и совпадает с ее объемом. Таким образом, мы фактически можем заменить процесс выборочных обследований анализом всей генеральной совокупности. Естественно, если она конечна.

- Тема Больших Данных развивается параллельно с облачными вычислениями. Как связаны эти два понятия?

Оба основаны на идее распределенных вычислений. Если мы перенесем вычисления и хранение данных — Больших Данных — в облако, то мы получим новый объект, который можно назвать облаком знаний.

- Если организация обращается к аналитике Больших Данных, что она должна предпринять для трансформации своей ИТ-инфраструктуры?

Прежде всего следует отказаться от традиционного представления о центрах обработки данных как о помещениях, где расположены стойки с серверами и системами хранения. Использование этой инфраструктуры для анализа Больших Данных обойдется вам значительно дороже, чем приобретение решений для распределенного хранения и обработки данных. Вообще развитие ИТ-инфраструктуры идет по спирали. От больших компьютеров (мэйнфреймов) к маленьким (персональным), далее объединение персональных компьютеров в сети, вновь обращение к большим компьютерам (серверам и общим системам хранения), а сейчас мы наблюдаем очередной рост интереса к локальным вычислительным ресурсам. В целом, безусловно, идет речь о переходе от централизованной к распределенной файловой системе и распределенным вычислениям, когда каждый фрагмент вычислений выполняется адекватным по мощности компьютером. Это очевидное продолжение концепции кластеров серверов приложений и облачных вычислений. Дело в том, что развитие аппаратной части ИТ-инфраструктуры постепенно заходит в тупик. Последнее время производительность систем хранения и процессоров практически не растет, а количество данных увеличивается. В то же время прогресс технологий распределенной обработки убедителен. Например, используя эти технологии, метеослужба США значительно укрепила доверие своих сограждан, поскольку прогноз погоды отличается поразительно высокой точностью.

- Трансформация ИТ-инфраструктуры требует инвестиций. Как добиться дополнительных «вливаний»?

Когда границы и содержание проекта стали для вас очевидны, необходимо обеспечить финансовую поддержку руководства. Обосновать проект модернизации ИТ-инфраструктуры для анализа Больших Данных может оказаться нелегко. Необходимо доказать, что без этой модернизации компания не справится с поставленной задачей. Внутри ИТ-департамента можно найти весомые аргументы, например реализовать небольшой пилотный проект и показать, что он обеспечит добавленную ценность ИТ-поддержки для бизнеса. А вот бизнес убедить сложнее. Конечно, если сам бизнес ставит перед ИТ-департаментом задачи, которые могут быть эффективно решены благодаря анализу Больших Данных, то дело упрощается. Во всех других случаях ссылки на рост производительности в перспективе будут восприняты критически. Однако преимущество решений с распределенным хранением и распределенной обработкой состоит в том, что их можно собрать из относительно дешевых компонентов, используя в том числе свободное ПО. Тем не менее здесь могут возникнуть трудности с поддержкой. Поэтому необходимо делать акцент не на возможных проблемах бизнеса в будущем, а на тех преимуществах, которые он сможет извлечь из использования подобных решений. Например, на простом примере продемонстрировать возможный рост конкурентных преимуществ при использовании анализа социальных сетей, в частности для определения степени удовлетворенности клиентов. Подобные задачи, связанные с семантическим анализом текстов, требуют анализа большого количества данных.

- С какими рисками может столкнуться ИТ-директор, который взялся обеспечить анализ Больших Данных?

Во-первых, распределение вычислений по большому числу компьютеров может вызвать трудности с организацией центра обработки данных, поскольку подобную инфраструктуру сложно собрать и поддерживать. Вторая проблема связана с растущими требованиями к качеству программирования для организации распределенных вычислений. Парадигма параллельного программирования сама по себе очень сложна. Безусловно, инструменты наподобие Hadoop помогают решить проблему распараллеливания, но не решают ее полностью. И специалистов такого профиля пока мало. Третья проблема – качество данных. С ростом числа их потоков значимость этого фактора только возрастает. Многие контрольные операции, которые заложены в СУБД реляционного типа, в задачах с распределенными вычислениями приходится решать самостоятельно. И наконец, не следует считать подобные решения панацеей. Многие виды обработки по-прежнему удобнее и дешевле осуществлять традиционными методами. Не следует ожидать, что использование распределенных систем в этих случаях даст какие-то ощутимые выгоды. В целом использование подобных систем требует от ИТ-директора компетенций в области бизнес-аналитики либо в его распоряжении должна быть команда аналитиков, которые понимают суть аналитических задач и связанные с ними вычислительные проблемы.

Большие Данные небольшого размера

Почему 90% ИИ-проектов «умирают» на этапе пилота и как этого избежать?