Поэтому, по сложившейся в психиатрии традиции, назовем это болезненное состояние части ИТ-сообщества датаманией. Заметим, что использование термина data-mania компанией Informatica и блогом http://www.data-mania.com/blog/ к медицинской трактовке этого термина отношения не имеют. Для жертв датамании характерно примерно то же, что и для любых заболевших вообще, — сосредоточенность на симптомах без должного понимания природы болезни.
Главным симптомом датамании стала массовая переоценка ценностей и выход на авансцену компьютинга прежде мало популярного понятия «данные». О данных говорят все и везде. Удивительно, что еще совсем недавно данные были в загоне. На вопрос: «Как вы понимаете, что такое данные» уверенные в себе специалисты, снисходительно глядя на вопрошавшего, отвечали: «Мешок битов и байтов». И вот вмиг все перевернулось, из каждого утюга звучат уверенные слова, так или иначе связанные с данными. Мы узнали, что все сущее задается и определяется данными (data driven everything), в том числе: экономика, приятие решений, маркетинг, культура, менеджмент, инновации, бизнес-модель и многое другое. По-английски это: data driven с добавкой economy, decision making, marketing, culture, management, innovation, business model. Но самым расхожим стал термин «Большие Данные» (Big Data) и связанные с ним названия направления и специальности: наука о данных (data science), специалист по данным (data scientist), стратегическое управление данными (data governance), журналистика данных (data journalism), разведка данных (data scouting). А еще — data modernization и data hub. И все эти неологизмы сосуществуют с традиционной скромной, но по-настоящему научной разработкой данных (data mining).
Специально назначенные люди, главным образом из числа маркетологов, со свойственной им особенностью ментальности, называют данные основным активом предприятия. Когда спрашиваешь у такого рода проповедников данных: «А что, собственно говоря с материалистической точки зрения, является этим активом? В чем он содержится? Это биты и байты, записанные на диски, ленты и тведотельные накопители? Это метаданные? В какой форме существуют данные-активы?» После этого все происходит, как в замечательной песне «Ответ уносит ветер» («Blowin' in the Wind»), написанной Бобом Диланом в 1962 году.
И все это при том, что еще недавно рассуждения о самостоятельном значении данных (см. «Третья опора компьютинга») воспринимались как досужие. Показательно, что даже в трудах, посвященных реляционным базам, практически невозможно было найти ничего относительно природы данных, в том числе о связи данных с информацией. На протяжении десятилетий, вплоть до нынешнего времени, развивались прежде всего инженерные методы, обеспечивающие передачу, хранение и обработку данных. Все то, что необходимо было знать о них, сводилось к двоичным или десятичным единицам измерения количества данных, форматам и организационным формам (массивы, байты, блоки и файлы).
Из-за маркетинговой шумихи может сложиться превратное представление о месте и значении данных. Особенно не повезло «Большим Данным», термин оказался замылен раньше, чем понят. Чтобы восстановить истину, уяснить, как оно сложилось, обратимся к хронологии эволюции отношения к данным. Тайм-лайн можно разделить на два периода — до 2000 года и после.
В первый период, с 1944-1945 годов, когда появились первые компьютеры, и до рубежа 2000 года ученые пытались осознать соотношение данных с информацией и знание (триада Data — Information — Knowledge) а также проблемы, обусловленные ростом порождаемых человечеством данных. Эволюция шла по двум направлениям — гуманитарному и технологическому. Гуманитарное направление называют информатикой, то есть наукой об информации и методах информационного поиска. Ей посвящена статья «Неожиданная информатика, или must be read». Эту в подлинном смысле науку об информации не следует путать с той информатикой, которой нас одарила группа советских ученых в начале 80-х. До сегодняшнего дня внимания заслуживает не потерявшая актуальности книга «Угроза личной тайне, компьютеры, банки данных и досье» (The Assault on Privacy: Computers, Data Banks, and Dossiers). Провидческий труд был написан в 1970 (!) году профессором Артуром Миллером, почти полным тезкой драматурга Артура Миллера, мужа Мерлин Монро. Профессор прозорливо предвидел те явления, которые мы можем наблюдать сейчас.
Альтернативное направление — технологическое, связанное с практическими решениями проблемы хранения больших объемов данных. Одну из самых провидческих работ этого направления «Сохранение всех битов» (Saving All the Bits) написал Питер Деннинг. Он предостерегает от попыток сохранить все возможные биты и байты, говорит о необходимости создания машин, которые могли бы в режиме реального времени фильтровать потоки данных и выделять заданные образы. Сейчас мы называем это обработкой сложных событий CEP.
Что же касается самого словосочетания Big Data, то, скорее всего, его впервые в 1999 году употребил Джон Мэши, главный ученый компании SGI, хотя есть утверждения, что определение Big Data встречалось еще в 1987 году. Свое выступление Мэши озаглавил «Big data and the next wave of infrastress», понимая под «инфрастрессом» качественно новую нагрузку на компьютерные системы, которую создает работа с Большими Данными. В то время каналы не соответствовали процессорам по производительности.
Граница между двумя периодами образовалась из-за повышенного интереса специалистов по макроэкономике к использованию данных для прогнозирования будущего в экономике. Родоначальницей нового подхода к данным считают «королеву цифр» итальянку Лукрецию Рейчлин. Использование больших объемов данных для прогнозирования началось с нее, все последующие статьи, опубликованные в 2000-х и посвященные феномену, который ее последователи назвали Big Data, цитируют ее работы. По части Big Data экономисты на несколько лет опередили ученых других специальностей. Ситуация начала меняться в 2008 году, когда вышел специальный номер журнала Nature, посвященный проблеме больших данных. В 2010 году в журнале Economist была опубликована еще одна нашумевшая статья «Данные, везде данные» (Data, data everywhere) со ссылками на ведущих специалистов: Джеймса Кортада, исследователя из корпорации IBM, автора нескольких книг о роли информации в обществе, он писал: «Мы вступили в принципиально новый период существования, потому что никогда не было так много информации», и Джоя Хеллерстайна, профессора Калифорнийского университета в Беркли, специалиста по базам данных, который сформулировал: «Это индустриальная революция данных».
Очень быстро сообщество профессионалов повернулось лицом к данным, и вовсю стали говорить об «Эпохе данных» (Age of Data) и «Мире, движимом данными» (Data-Driven World), а корпоративные службы маркетинга с такой скоростью ассимилировали термин Big Data, что он даже для тех, кто еще не до конца понял его смысл, превратился в жупел.
Рисунок из отчета Лэни |
Новейший период истории данных начался в 2001 году с публикации Дага Лэни, аналитика из компании Meta Group, позже купленной Gartner. Статья называется «Трехмерный менеджмент данными...» (3D Data Management: Controlling Data Volume, Velocity, and Variety). В этой работе впервые были сформулированы три основных признака Big Data — объем (Volume), скорость обработки (Velocity) и разнообразие (Variety). Иногда добавляют четвертый признак — достоверность (Veracity).
В 2005 году Тим О'Рэйли, объясняя, «Что такое Web 2.0» (What is Web 2.0), сформулировал несколько образных тезисов:
- данные — это новый Intel;
- SQL — это новый HTML;
- приложения — это не только software, но и infoware.
В истории Big Data особое место занимает 2008 год. В январе известные визионеры Брет Свансон и Джордж Гилдер опубликовали прогнозируемую оценку роста трафика в американском сегменте Интернета до 2015 года — Estimating the Exaflood. В сентябре вышел специальный номер журнала Nature, посвященный данной проблеме, а в декабре — статья Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce, Science and Society. В ней мы находим: « Подобно тому, как поисковые машины изменили наш доступ к информации, компьютинг, основанный на больших данных (big-data computing), изменит деятельность компаний, научных исследователей, медиков и других. Big-data computing станет важнейшей инновацией последнего десятилетия » .
К 2012 году сложилось зрелое представление о том, что такое Big Data. Оно великолепно изложено в труде «Критически важные вопросы по поводу Больших Данных» (Critiсal quiestions for Big Data). Его авторы выделяют три аспекта Big Data. Помимо понятных технического и аналитического, они предлагают еще мифологический. Под последним они подразумевают один из симптомов датамании, выражающийся в слепой безоговорочной вере в возможности анализа больших данных, в то, что из больших данных можно извлечь новые истины.