В период, непосредственно предшествовавший гибели, Грей уделял данным особое внимание: «Мир должен стать таким, чтобы вся научная литература была доступна по Cети, все научные данные должны быть в режиме онлайн, а доступ к ним должен быть открыт любому».
Книга вышла в серии «Beautiful...» – ей предшествовали Beautiful Code и Beautiful Security. Все три построены по общему принципу и представляют собой сборники статей с рассуждениями на тему кодов данных и безопасности от лица ведущих экспертов из ведущих ИТ-компаний и университетов. В Beautiful Data всего 20 статей, написанных полусотней авторов, диапазон отраженных в книге решений очень велик, от традиционных инженерных, например таких, как система передачи и обработки сигналов с посадочного аппарата Phoenix Mars Lander, запущенного НАСА в 2007 году по программе изучения Марса, до изысканнейших алгоритмов разработки медийных данных, которые используются в многочисленных и взаимосвязанных системах слежения в казино Лас-Вегаса. Удивительно, но когда приступаешь к чтению, то такой конгломерат взглядов и подходов кажется чем-то искусственным – на первый взгляд между отдельно взятыми решениями мало общего, однако потом приходишь к пониманию важности той роли, которую данные играют в самых разных областях человеческой деятельности, и к осознанию возможностей, которые предоставляют современные технологии обработки данных.
Чтобы отразить содержание книги, необходимо сделать небольшое отступление и сказать несколько слов о роли, которую авторы книги отводят данным. Почти все они согласны в том, что данные в конечном счете есть не что иное, как исходный продукт, из которого при участии человека вырабатываются знания. В этом нет ничего нового, но то, что происходит сейчас, можно сравнить с промышленной революцией, называемой еще Великой индустриальной революцией, происходившей с первой половины XVIII века и до середины XIX века. Суть ее заключалась в применения машин для обработки материального сырья – примерно то же мы можем наблюдать сейчас, но только с данными вместо сырья на входе и данными в форме, удобной для использования человеком, на выходе. Основными инструментами этой революции теперь являются компьютеры и системы хранения.
Почти каждая из 20 глав книги представляет собой описание одной из технологий обработки данных (от получения данных до визуализации результатов), используемых в разных областях человеческой деятельности (от социологии до астрономии). Примерно четверть из всех приведенных материалов так или иначе связаны с социальными исследованиями, что довольно неожиданно, но объясняется важностью такого рода работ, поскольку, как показывает анализ деятельности политиков и выступлений политологов, люди этих профессий плохо знают свойства общества в своих странах и тем более в зарубежных. До сих пор только англичане пытались создать объективное отражение собственной жизни; с 30-х годов XX века в Великобритании проводится уникальный эксперимент – социологические обследования Mass Observation, с участием ограниченного числа волонтеров. Эти обследования позволяют узнать, как ведут себя люди в разных обстоятельствах, от обыденных бытовых до самых неожиданных и экзотических. К настоящему времени результаты опубликованы более чем в 50 томах, а современные методы сбора и обработки данных дают возможность пойти еще дальше. Добровольцы, участвующие в эксперименте Personal Environmental Impact Report, разрешают загрузить в свои мобильные телефоны программу, отслеживающую их местопребывание и таким образом позволяющую собрать сведения об образе жизни людей, их привычках, предпочтениях и т.п. в зависимости от социальных стереотипов. При этом в книге подчеркивается, что очень важным в новых условиях является соблюдение этических норм, иначе полученные данные могут быть использованы во зло. В одной из статей приведен трагический пример: в Голландии накануне Второй мировой войны была проведена детальная перепись населения, и, когда Германия захватила эту страну, данные были использованы для массового уничтожения национальных меньшинств.
Особенно интересны две статьи книги: «Данные находят данные» (Data Finds Data) и «Что данные не делают» (What Data Doesn’t Do). Принцип «данные находят данные» предполагает самообучение систем – в простейшем случае это накопление сведений о том, что и как пользователь ищет в Сети, а в наиболее сложном – обнаружение спецслужбами опасных ситуаций в реальной жизни на основе накопленного опыта. Но какими бы совершенными ни были системы обработки данных, ни одна из них не обладает достаточными способностями к распознаванию. В заключительной статье мы можем прочесть: «И все же данные не размывают существующую реальность. Они просто облегчают наши методы работы и упрощают получение необходимых социальных навыков».
Beautiful Data. The Stories Behind Elegant Data Solutions. [Ed. Toby Segaran, Jeff Hammerbacher] O'Reilly Media, 2009. – 384 P. ISBN: 978-0-596-15711-1