О Больших Данных с четырех сторон

Триада: Big Data, Cloud computing и Analitycs стала сегодня символом глобальных перемен в ИТ-индустрии, и в этой связи интересны взгляды на происходящее представителей ведущих компаний, работающих на рынке высоких технологий: Хью Йошиды (HDS), Стивена Бробста (Teradata), Люка Лонергана (EMC Greenplum) и Джозефа Регера (Fujitsu Technology Solutions). Поскольку беседы с Йошидой и Бробстом были очными, их точки зрения представлены подробнее.

Облака: от инфраструктуры до контента

Хью Йошида: «Наша цель – сделать контент доступным самым разным приложениям, суть виртуализации данных в отделении контента от приложений»

Главная обязанность Хью Йошиды – в определении технической политики Hitachi Data Systems, он выступает основным проповедником используемых в компании подходов к виртуализации систем хранения, реализованных в Hitachi Universal Storage Platform. Йошида признан одним из 10 наиболее влиятельных блогеров, а в 2006 году был «СТО года». В HDS он работает с 1997 года, а до этого 25 лет трудился в подразделении IBM, специализирующемся на системах хранения данных. Йошида получил математическое образование в Калифорнийском университете Беркли.

Что и как меняется в индустрии хранения данных под влиянием трех взаимосвязанных факторов: облака, Большие Данные и аналитика?

Сразу договоримся, облака — это не технологии, а всего лишь альтернативный способ предоставления технологий в пользование. Главная отличительная черта облака — модель pay-as-you go, расчет за использованный ресурс по мере его потребления и только за тот объем пространства, который реально потребил пользователь. До появления подобной модели предприятиям приходилось покупать системы хранения данных «на вырост», обычно в расчете на срок три–пять лет последующей эксплуатации. Изменение модели потребления стало возможным вместе с внедрением технологий виртуализации, благодаря которым предметом потребления становится не конкретное устройство с его физическими характеристиками, а некоторый виртуальный абстрагированный от физической природы ресурс, обладающий необходимыми качествами и предоставляемый с заданным уровнем обслуживания (Service Level Agreement, SLA). Мы давно предвидели тенденцию к замене физических ресурсов на виртуальные, поэтому уже много лет вкладываем значительные силы и средства в виртуализацию систем хранения. В этом смысле показательно, что наша флагманская система так и называется — Virtual Storage Platform, платформа для виртуализации. Реализованный в ней подход позволяет сделать самую важную вещь — отделить данные от носителя; если эта функция реализована, то носители могут меняться, устаревать морально и физически, но сами данные, перенесенные на другие носители, продолжают жить неограниченно долго.

Функции контроллеров систем хранения, особенно с появлением виртуализации, постоянно расширяются, а еще недавно они сводились к отработке команд ввода-вывода SCSI, и только. В Virtual Storage Platform реализован гибридный подход, сочетающий характерную для сегодняшнего дня тенденцию к использованию стандартных комплектующих с эффективными специализированными решениями. На стандартные процессоры Intel возложены такие функции, как Dynamic Provisioning, Thin Provisioning, ShadowImage, TrueCopy, в основном это работа с метаданными. А требующие быстродействия функции управления вводом-выводом переданы в отдельный ускоритель Data Accelerator, построенный на оригинальной двухъядерной микросхеме собственной разработки HDS. Двуединая архитектура, поддерживающая целый ряд сложных функций, дает основание считать VSP не просто системой хранения, а специализированным компьютером для работы с данными.

Итак, облако — это способ доставки того или иного ресурса, в нашем случае данных, а виртуализация — инструмент абстрагирования логики данных, битов и байтов от магнитных, оптических или каких-то иных форм записи этих байтов. Мы представляем информационные системы в виде обобщенного облака, состоящего из трех взаимосвязанных облаков, размещенных на общей виртуализованной платформе. Первое облако — инфраструктурное, то есть виртуализованная аппаратно-программная инфраструктура, второе — облако контента и третье облако — информационное, снабжающее контентом потребителей, в основном разного рода аналитические системы, которые далее предоставляют контент в форме информации, доступной человеку.

Каким путем следует идти к облакам? Известно, что мнения на этот счет расходятся, в VMware считают, что нужно создавать частные облака и по мере необходимости пользоваться ресурсами глобальных, а в Citrix, наоборот, утверждают, что начинать следует с использования глобальных ресурсов, а потом, если возникнет реальная необходимость, строить собственное облако.

Нам проще, поскольку выбирать не приходится. HDS является поставщиком технологий, которые с равным успехом могут быть использованы и в публичном, и в гибридных, и в частных облаках. Для нас важно обеспечить виртуализацию ресурса хранения, а в каком облаке он находится — не имеет значения, поэтому мы называем свои технологии cloud ready.

Что касается Больших Данных, то здесь словом «большие», по существу, все сказано — суть в том, что на самом деле данных настолько много, что количество начинает переходить в качество. Перестают удовлетворять привычные десятилетиями технологии — теперь вы не можете перемещать данные так, как это можно было делать с данными, значительно меньшими по объему. Поэтому такие данные невозможно переслать в системы добычи данных (data mining) или в аналитические системы, а напротив, вы должны приблизить такие системы к данным. Чтобы сделать это возможным, необходимо отделить данные от приложений, поэтому на уровне инфраструктурного облака мы разделяем физику от логики данных, а на уровне облака контента пытаемся сделать следующий шаг — отделить содержательную часть данных или, иначе говоря контент, от приложений, которые их используют. Наша цель сделать отделенный контент доступным самым разным приложениям — суть виртуализации данных в отделении контента от приложений.

Какой смысл вы вкладываете в понятие «контент»?

Суть нашего видения контента в отделении данных от приложений, то есть в действии, обратном интеграции данных предприятия (Enterprise Data Intеrgration, EDI). Если данные интегрированы с приложением, то контекст существования данных зашит в алгоритмах, реализованных в этих приложениях, но если снабдить данные необходимыми метаданными, то они смогут существовать независимо от приложений, интерпретирующих эти данные. Контент предполагает создание объектов-данных или метаданных, включающих в себя те или иные описания, плюс набор каких-то правил использования или интерпретации этих данных. После того, как данные переведены в объектную форму, они становятся самостоятельной ценностью, доступной любому. Объектная форма представления данных является обязательным условием существования больших данных, поскольку открывает новые возможности для работы с Большими Данными.

Хотелось бы уточнить и ваше представление об информации....

Будучи прагматиками, мы не вдаемся в философию. Для нас информация — это контекст, созданный вокруг контента. В моем представлении информация как красота: глядя на что-то, каждый видит красоту по-своему, у каждого свое видение информации в контенте. Если вы ищете что-то с помощью Yandex, то на самом деле вы потребляете информацию, то есть контент, контекст которого подготовлен для вас поисковой системой, решающей, что вам нужно. Популярность поисковиков зависит от того, как они помещают контент в контекст. Но если вас интересует иной контекст, то вы можете искать тот же контент в Twitter или Facebook. А можно создавать специализированные инфраструктуры для обмена контентом; например, в HDS мы используем собственную закрытую социальную сеть Loop, она помогает нам наладить обмен информацией по незапланированной заранее схеме, которая складывается как результат чьих-то инициатив и пожеланий, развитых и дополненных членами сообщества.

Проблема в том, что в современных условиях данные разбросаны по самым разным местам. Отсюда сложности работы с данными на самых разных этапах, вплоть до резервного копирования и восстановления, поэтому разумнее перевести данные в объектную форму. Мы делаем это на уровне облаков контента и идем дальше по пути виртуализации, вычленяя данные из приложения и отделяя их от протоколов для доступа. Мы помещаем данные в некоторый контейнер и дополняем его метаданными и правилами работы с данными. Этот контейнер становится объектом для поиска, доступа и даже переназначения его использования без участия приложения, создавшего этот контейнер.

Мы виртуализуем данные таким образом, чтобы обеспечить доступ к контенту с самых разных устройств: iPhone и Android по GSM, планшетных компьютеров по 3G, рабочих станций по локальным сетям. Если нам удастся создать полноценные средства для виртуализации инфраструктуры и данных, то нам открываются возможности для работы с информацией, содержащейся в Больших Данных.

Некоторые исследователи, занимающиеся проблемами данных в России, приходят к близким выводам, но здесь обнаруживается проблема инертности мышления, а для работы с объектными данными требуются специалисты со свежими взглядами. Нужны принципиально новые программы для университетов, а студентов нужно учить иначе, чем прежде. Есть ли у вас какие-то готовые материалы по объектным данным?

Как начинавшему программировать на мэйнфреймах, мне сложно найти общий язык с молодыми — здесь есть явный коммуникационный барьер, но его следует преодолевать обоюдным движением навстречу. Внутри себя компьютеры не слишком изменились и остаются все теми же структурированными устройствами. Да, мы на переломе, и многое надо менять, но, к сожалению, чего-то готового, где были бы описаны объектные подходы к данным, пока нет, а все, что есть, еще не формализовано.

Выступая на конференции Hitachi Information Forum 2011, вы говорили о превращении ИТ-рынка в рынок покупателя.

Мы много общаемся с пользователями и пытаемся в диалоге осознать то, что им нужно, поэтому мы создали семь специальных инновационных лабораторий, где работают исследователи не только HDS, но и из других подразделений Hitachi. Лаборатория, специализирующаяся на инновациях в ИТ, находится в Санта-Кларе, где по собранным от пользователей данным создаются прототипы устройств, мы приглашаем в эту лабораторию пользователей и в диалоге с ними стараемся довести эти прототипы до уровня продуктов.

Это можно назвать методом проб и ошибок без серьезной теории?

Для создания теории нужно время, а компьютерная индустрия развивается опережающими темпами, поэтому приходится переосмысливать происходящее на ходу, и иногда открываются неожиданные вещи, в том случае, если удается увидеть за частным общее. Обратите внимание на то, что произошло с сетевой идеей вообще и идеей сетей хранения, в частности. Одно время казалось, что сетевой подход универсален, вспомните, «сеть — это компьютер». И где теперь Sun Microsystems c ее девизом? В условиях когда удельная стоимость аппаратного обеспечения постоянно сокращалась, удачным выходом казалось создание распределенных систем, состоящих из относительно недорогих серверов и систем хранения. Но потом выяснилось, что стоимость владения и эксплуатации сетевых систем настолько высока, что в конечном итоге она стала причиной кризиса в ИТ. Получается, что на протяжении длительного времени вся индустрия шла если не по ложному, то во всяком случае не по оптимальному пути. Виртуализация выглядит как выход из положения, позволяя обеспечить сочетание лучшего из двух миров: масштабирование и гибкость сетевых решений с низкими операционными издержками централизованных решений.

Доступная аналитика

Стивен Бробст: «Баталии между лагерями noSQL и SQL можно назвать религиозными – любые фанатические воззрения ошибочны и заблуждаются обе стороны»

Свой путь в Больших Данных компания Teradata видит в развитии аналитических СУБД, обрабатывающих огромные массивах данных на кластерах с массовым параллелизмом. Стивен Бробст работает в Teradata с 1999 года, и сегодня он признанный эксперт по хранилищам данных, принимает участие в работе ряда общественных организаций, консультирующих правительство и президента США.

Сегодня мы переживаем период радикальных изменений в области корпоративных систем, символом этих перемен является триада: облака, Большие Данные и аналитика, как вы оцениваете происходящее?

Начнем с облаков. Это не есть что-то новое — перед нами результаты естественной эволюции того, что совсем недавно называли grid, «коммунальными вычислениями» (utility computing) и т. п. На облака можно смотреть с разных позиций, люди из ИТ видят в облаках удачную форму для реализации идей utility computing или средство для доставки сервисов. Для людей из мира бизнеса облака есть не что иное, как более удобное средство для работы с данными, в том числе данными, полученными из аналитических систем и т. д. Отношение к данным определяет тип используемых облаков. Скажем, если речь идет о значимых для предприятия данных, то облако должно быть частным, причем это важно не только по соображениям безопасности, но еще и потому, что необходимо использовать новые данные совместно с теми, которые накоплены в уже существующих хранилищах. Естественно, что для этого требуется применять современные быстрые технологии работы с хранилищами данных.

Что касается Больших Данных, то по этой части многие заблуждаются и воспринимают происходящее не вполне адекватно — размер далеко не самое главное. То, что называют Большими Данными, отличают источники данных и формы их представления. На мой взгляд, самой серьезной отличительной особенностью больших данных следует признать разнообразие. Были и в обозримом будущем останутся данные, хранимые в реляционных СУБД, но есть еще масса других. Данные могут представляться в различных графических формах, особенно удобных для анализа социальных сетей, в виде массивов, в которых устанавливается соответствие между значением и ключом (key value data), и, конечно же, в виде текстов. В связи с большими данными часто говорят о движении noSQL, но мне кажется, что речь должна идти о движении noETL, поскольку люди не хотят заниматься постоянным переводом данных в реляционные форматы, а предпочли бы сохранять их в исходном виде, структурируя их только тогда, когда требуется выполнять аналитику. Баталии между лагерями noSQL и SQL можно назвать «религиозными», обе стороны приводят свои аргументы, часто в нелестных формах, но любые фанатические воззрения ошибочны. Всегда предпочтительнее использовать лучшее с обеих позиций, поэтому я приветствую формулу Not Only SQL. Там, где имеет смысл, стоит обращаться к SQL, а где его возможностей не хватает, — выходить за его пределы. Я инженер и хочу создавать эффективные решения, а не ломать копья в дискуссиях о чистоте тех или иных подходов. Эта позиция принята нашей компанией и ее разделяет SAS Institute — мы считаем, что нужно выходить за рамки SQL, но не отрицаем его. Решения, основанные только на Hadoop или MapReduce, страдают слабостью связей с традиционными базами данных, чтобы ее компенсировать, их авторам приходится предпринимать дополнительные меры.

Следуя этой философии, мы купили Aster Data, замечательную компанию родом из Стэнфордского университета. Ее продукт nCluster — это аналитическая СУБД, способная работать на кластерах с массовым параллелизмом, собранных из стандартных серверов. Архитектура Aster nCluster оптимизирована для оперативной работы с хранилищами данных и аналитическими приложениями (OLAP), а не для оперативной обработки транзакций (Online Transaction Processing, OLTP). Для нее в Aster Data разработали конструкцию SQL-MapReduce, из названия которой следует, что она позволяет сочетать SQL с технологией MapReduce от Google. Ее создателям удалась интеграция и того и другого — получилась не такая слабая связанность, которую мы можем наблюдать у некоторых наших конкурентов. К тому же они придумали полиморфную файловую систему, допускающую различные формы хранения документов в одной среде: реляционные и нереляционные. Такая среда дает огромное преимущество для аналитики.

Если все может быть решено столь красиво и логично, почему же говорят о проблеме Больших Данных?

Проблема не в данных, а в людях, создающих технологии. «Компьютерные ученые» (computer scientist), воспитанные на Java и C++, пытаются распространить свои взгляды и подходы на области, в которых они некомпетентны. Для решения новых задач нужны специалисты иного профиля — «специалисты по данным» или «ученые, изучающие данные» (data scientist). Это люди, которые занимают промежуточное место между технологами, непосредственно работающими с данными, и потребителями данных, они должны понимать обе стороны, как устроены данные и как выбирать то, что является ответом на вопрос. Они изучают данные, распознают образы в данных, препарируют их тем или иным образом, чтобы вычленить из них существенное. Мы видим свою задачу в том, чтобы сделать аналитические технологии доступными именно этой категории специалистов. Это уникальное новое поколение, они владеют математикой, статистикой, средствами визуализации, но при этом, я подчеркиваю, они не должны быть программистами. Смешение двух видов деятельности приводит к тому, что и программирование, и анализ выполняются неэффективно — функции должны быть разделены.

Сегодня, особенно в связи с виртуализацией, стало заметно переосмысление роли и места данных, выделение их в отдельную от приложений сущность, как вы это видите?

Раньше мы начинали создание приложений с базы данных для него, на изменение этого взгляда заметнее всего повлияли сервисные архитектуры — именно с них началось понимание самостоятельного места данных, как многократно используемого ресурса. Разумно спроектированные хранилища данных должны быть нейтральны по отношению к приложениям, в этом отличие от старой стратегии отдельных витрин данных для отдельных пользователей и их приложений. Сегодня можно говорить о начинающейся индустриализации данных — собственно данные представляют собой сырье, а продукт их переработки — полезная информация.

Сейчас все чаще говорят об аналитике, выходящей за пределы того, что традиционно обозначали аббревиатурой BI. Пожалуйста, несколько слов об изменившейся или изменяющейся роли аналитики.

Многие годы представление об аналитике сводилось к простой схеме — данные о бизнесе загружаются и накапливаются в хранилищах, потом к ним обращаются, с тем чтобы подготовить аналитические отчеты за заданный промежуток времени, а затем эти отчеты служат базисом для выработки каких-то управленческих решений. Сегодня мир иной и способы взаимодействия с данными активизировались — теперь это не пассивный взгляд в прошлое с выработкой взглядов на перспективу, а непосредственное использование данных в процессе создания новых продуктов или каких-то иных ценностей. Среди наших клиентов есть страховые компании, и для выработки оптимальной стратегии страхования водителей они собирают разного рода статистику и учитывают пол, возраст, стаж и множество других параметров, характеризующих человека за рулем, но все это косвенные оценки, не привязанные к конкретной личности. С развитием современных средств связи появилась возможность для совсем иных форм деятельности. По желанию водитель может установить в своем транспортном средстве блок с регистраторами и передатчиками, который ежесекундно, в режиме реального времени информирует о манере езды, ускорениях при разгоне и торможении, скорости прохождения поворотов и т. д. Анализ таких данных является совсем иной задачей, а в результате создаются совершенно иные страховые продукты.

Может ли рост количества доступных данных вообще изменить компьютерную парадигму? Мы привыкли к расчетам, с них, собственно, все и началось, но в живой природе, где решаются задачи колоссальной сложности, счет как таковой отсутствует.

Да, именно так, пример с автомобилями именно этого сорта — мы не считаем вероятности и не набираем никакой статистики, а просто оцениваем манеру вождения, предоставляя системе возможность к самообучению. Мы называем это наблюдательной аналитикой, можно просто набирать данные, а потом применять к ним методы кластеризации или какие-то иные.

Вы член рабочей группы Президентского совета по науке и технологиям США и были автором документа о цифровом будущем, направленного Бараку Обаме.

В этой группе двенадцать членов, девять — от академического сообщества, трое — из бизнеса, и я один из них. Конечная цель наших рекомендаций состоит в повышении качества жизни американцев. Мы стремимся выделить научные и технологические направления, куда стоит вкладывать бюджетные средства для достижения этой цели. В упомянутом документе постулируется, что каждое из федеральных ведомств должно выработать стратегию работы с данными. Разумеется, это всего лишь рекомендация, но ее действие распространяется на все области действия государственных органов. Например, здравоохранение — важнейшая экономическая и политическая структура, рост инвестиций в нее опережает рост бюджета. И, на наш взгляд, анализ данных представляется единственным способом для того, чтобы сохранить управление над здравоохранением. Причем эта аналитика попадает в разряд аналитики больших данных, поскольку данные в медицине отличаются невероятным разнообразием, и здесь есть и структурированные и неструктурированные данные. Задача состоит в обеспечении целостного взгляда на это разнообразие. Первые шаги уже предприняты — бумажных массивов больше не существуют, это условие необходимое, но далеко не достаточное. Анализ общих и индивидуальных данных позволяет персонифицировать лечение, интегрировать опыт диагностики и многое другое.

Методы анализа данных могут быть распространены на политический уровень принятия решений?

Я убежден в ценности использования таких технологий при принятии политических решений, но сведения о соответствующих системах закрыты. Думаю, используются те или иные методы моделирования, что тоже аналитика. Точно знаю, что методы моделирования применяются для совершенствования системы налогообложения, например того, как изменение какого-то определенного налога влияет на разные стороны жизни, здесь можно обнаружить далеко не тривиальные последствия предпринимаемых мер.

Как, по вашему мнению, аналитика соотносится с искусственным интеллектом?

Искусственный интеллект — очень смешная вещь, которой называют то, что пока не удается сделать, а как только некий бартер преодолен, то все, что осталось за ним, перестает быть «интеллектом». Раньше добыча данных (data mining) представлялась как искусственный интеллект, а сегодня это вполне хорошо описанные техники работы. Современный смартфон распознает речь, есть системы автоматического перевода, и раньше это тоже назвали бы искусственным интеллектом, а сегодня это всего лишь работа с текстами на естественном языке. Однако есть задачи, которые не перестают удивлять; например, представьте звонок, поступивший в службу поддержки, он переводится в текст, затем к нему применяют методы анализа тональности текста (Sentiment Analysis) и в итоге удается понять, удовлетворен клиент или нет, такие вещи не могут оставить равнодушным.

А как вы оцениваете роль краудсорсинга?

О том, что это важно, свидетельствует тот факт, что в упомянутом меморандуме для Обамы мы отметили важность такой формы сбора мнений. Сейчас уже есть целый ряд успешных проектов в банковской сфере, но, как всегда, самое интересное в пограничных регионах — на пересечении краудсорсинга с традиционной аналитикой.

Интегрированная аналитика

Люк Лонерган: «Специалисты по данным – это будущие рок-звезды аналитики данных, от них во многом будет зависеть успешность предприятий и компаний»

На Большие Данные компания Greenplum смотрит сквозь призму интегрированных решений, сочетающих в себе возможности аппаратных и программных решений EMC. Люк Лонерган совместно со Скоттом Яра в 2003 году основал компанию Greenplum, которая в 2010 году вошла в состав EMC, но, по традиции EMC, сохранила свою самостоятельность. До создания Greenplum в 2000 году Лонерган основал компанию Didera, которая специализировалась на кластерных СУБД, а прежде чем заняться собственным бизнесом он более 15 лет работал на руководящих должностях в нескольких известных компаниях.

Могли бы вы привести конкретные примеры продуктивного подхода к использованию Больших Данных?

Отличным примером использования тех преимуществ, которые дает обработка больших массивов неструктурированных данных, может быть проект TRIAD (Translational Research Informatics and Data management grid), реализованный в Университете штата Огайо. Его особенность в использовании облачной модели доставки для распространения результатов обработки экспериментальных данных между группами исследователей. Данный проект способствует интенсификации контактов, которые позволяют быстрее понять суть явлений и сделать новые открытия. Построенная система взаимодействия дает возможность пользователям проводить исследования и анализ более продуктивно за счет непосредственного общения друг с другом. В прошлом анализ был ограничен отдельными исследовательскими группами. В EMC и Greenplum мы рассматриваем возможность коллаборации через частные или публичные облака – сегодня это жизненно важная часть процесса выделения полезной информации из больших данных. Мы создали специально адресованную для этих целей объединенную аналитическую платформу UAP (Unified Analytics Platform), предназначенную для обработки как структурированных, так и неструктурированных данных. Она состоит из СУБД Greenplum, кластерной системы с открытым кодом Hadoop и пользовательского интерфейса EMC Greenplum Chorus 2.0, предназначенного для формирования запросов и визуализации данных. Chorus упрощает анализ больших объемов данных настолько, что этим интерфейсом могут пользоваться специалисты-прикладники, руководители бизнес-подразделений и рядовые сотрудники. Использование в TRIAD облачных подходов открывает возможность сбора виртуального суперкомпьютера, играющего неоценимую роль в процессе сбора в общую базу результатов биохимических исследований, хранящихся на разных языках и в разных форматах. Таким образом удается консолидировать исследования, выполняемые в разных странах и на разных континентах.

Что вы можете сказать о самостоятельной роли данных и о функциях специалистов по данным?

До тех пор пока данных было относительно немного, все сводилось к базам и хранилищам – прикладным технологиям работы с тем, что интуитивно называли данными. Появление проблемы Больших Данных отразилось, в частности, во взрывном спросе на неизвестную прежде специальность data scientist. Чтобы оценить происходящее, было выполнено исследование EMC Data Science Survey на основе опроса почти 500 ИТ-руководителей. Вопросы касались определения области деятельности специалистов по данным и потребности в них. Подавляющее большинство, 83% опрошенных считают, что в ближайшие годы будет наблюдаться ускоряющийся рост потребностей в специалистах по данным, и в то же время 63% понимают, что спрос на этих специалистов не может быть удовлетворен – их просто неоткуда взять. В том, где основной источник будущих специалистов, мнения расходятся, большинство считает, что нужно готовить в университетах по новым специальностям, меньшая часть за переобучение тех, кто уже имеет образование в компьютерных науках, меньшинство предполагает, что можно переориентировать специалистов по бизнес-анализу. Пока подавляющая часть компаний находится в состоянии неопределенности, они понимают, что с Большими Данными следует работать как-то по-новому, но кто это будет делать, еще не осознают. Специалисты по данным – это будущие рок-звезды аналитики данных, от них во многом будет зависеть успешность предприятий, а их инструменты распространятся от организационных мер до серьезнейших методов data mining.

К каким изменениям в окружающей нас среде приведет широкомасштабное внедрение аналитики?

В данный момент мы полны предвосхищения и есть уверенность в том, что наши надежды оправдаются – интерес к аналитике постоянно растет, поскольку все больше людей осознают преимущества, которые дает анализ данных. Например, если собирать и адекватно анализировать данные, получаемые при испытании авиационных двигателей и подобных сложных систем, то можно разработать принципиально новые конструкции. Кроме этого, нетрудно представить себе, к каким последствиям, например, в фармакологии может привести анализ данных о применении лекарственных препаратов.

На чем будут работать эти рок-звезды?

На storage computer. Удельная стоимость хранения и обработки данных постоянно подает, что дает компаниям-производителям стимул экспериментировать, создавать новые конструкции. Например, набирающая популярность технология Hadoop позволяет объединить хранение и обработку данных для создания нового класса систем, совмещающих обе функции и способных стать идеальным инструментом для аналитики. Будущие системы хранения превратятся в специализированные компьютеры с принципиально новой архитектурой – нынешняя с универсальными контроллерами не обладает достаточной масштабируемостью. Превращение систем хранения данных в storage computer вполне логичный шаг в процессе эволюции. Первые системы могли лишь обеспечивать доступ к блокам по их логическим номерам (Logical Unit Number). Затем появились RAID-массивы, обеспечивающие более высокие показатели надежность и скорости. Относительно недавно появилось динамическое распределение хранимых данных по уровням (Dynamic Tiering), а позже и тонкое резервирование (Thin Provisioning), системы хранения постоянно обрастают новым функционалом.

На пути к storage computer

Джозеф Регер: «Совершенно очевидно, что у storage computer будет собственный и достаточно прибыльный сегмент рынка»

Для решения проблемы Больших Данных компания Fujitsu проектирует сейчас доступное разным категориям пользователей облачное хранилище огромной емкости, обладающее высокой надежностью и гибкостью. Джозеф Регер – технический директор компании Fujitsu Technology Solutions по региону CEMEA, занимается анализом современных тенденций в ИТ-индустрии, прогнозированием основных технологических трендов и их реализацией в корпоративной стратегии.

Какое влияние на ИТ-индустрию вообще и на компанию Fujitsu в частности окажут облака и концепция Больших Данных?

Облака стали основой для беспрецедентной консолидации и централизации вычислительных ресурсов вообще и в том числе ресурсов систем хранения данных. Отсюда очевидное следствие, раз огромное количество данных хранится совместно, то открываются качественно новые возможности для их анализа всей совокупности доступных данных. Таким образом, облака стали средством, открывшим возможность появлению на рынке и широкому распространению новых аналитических технологий. Мы видим на рынке два взаимосвязанных и взаимодополняющих тренда. С одной стороны, сбор и сохранение гигантских массивов данных стал возможен благодаря облачным системам хранения, а с другой – облака предоставляют необходимые процессорные мощности для обработки этих самых больших объемов данных. Компания Fujitsu инвестирует в облачные технологии, уделяя особое внимание системам сбора данных – разного рода сенсорам и других простым устройствам, обеспечивающим получение и передачу исходных данных. Сегодня они встраиваются в бесчисленные системы в сельском хозяйстве, в медицине, в управлении движением, в транспортных системах и т. п. Поэтому для Fujitsu Большие Данные и облака неразделимы, мы рассматриваем их как одно целое, открывающее новые перспективы для проникновения ИТ в бизнес.

Что вы можете сказать по поводу постепенного обособления данных, их отделения от приложений, а также о том, какие функции перейдут к специалистам по данным?

Очевидно, выделение проблемы больших данных говорит о признании самостоятельной роли данных и начавшегося процесса их сепарации от приложений. Без самостоятельного существования данных невозможно представить себе анализ больших объемов результатов наблюдений, параметров и т. д. Следствием происходящего становится разделение специальностей на две ветви: традиционная – разработка приложений и новая?– собственно работа с данными, в которой принимают участие те, кого стали называть «специалисты по данным». Эту специальность нельзя назвать совершенно новой – тех, кто разрабатывает системы хранения данных, также можно назвать специалистами по данным. Качественно новым является то, что таким специалистам приходится иметь дело с «физикой» данных: как сохранить, как оперировать хранимым, как понять содержание и как его анализировать. Но и для тех, кто занимается собственно «физикой», задач немало, и одна из них – форматы данных. Разнообразие данных таково, что не может быть предпочтительных форматов объектов, поэтому все большее значение приобретают свободные форматы данных, отражающие неопределенность, ситуацию, когда в момент сбора данных еще неизвестно то, как они будут использоваться в будущем.

Намеревается ли Fujitsu создавать свой storage computer?

Такие решения стали реальностью с появление недорогих систем, отличающихся хорошей масштабируемостью и базирующихся на простых серверах и сетевых компонентах. Теперь мы можем создать облачное хранилище огромной емкости, но при этом обладающее высокой надежностью, гибкостью и недорогое. Сейчас Fujitsu проектирует такого рода системы и очевидно, что они не станут заменой классическим системам хранения, а, скорее всего, у них будет собственный и достаточно прибыльный сегмент рынка.

Чем вызван резкий поворот в сторону аналитики?

Когда мы научились собирать, сохранять огромные массивы данных и оперировать ими, то стало ясно, что этого недостаточно и требуются алгоритмы и методы для извлечения информации, содержащейся в этих данных. А это задача посложнее, поскольку нет универсальных алгоритмов, которые могли бы быть применены к данным разных типов. Разработки средств для извлечения информации должны учитывать специфику той или иной прикладной области, то, как данные собираются и как они используются. Самые интересные моменты связаны с интерфейсами алгоритмических исследований данных и спецификой знаний в той или иной области бизнеса.