Данные всякие нужны — и большие, и малые | Компьютерный мир

В такой интерпретации под тупицами подразумеваются, наверное, все те, кто пытается применить аналитические методы без должного понимания природы происхождения данных и ограничений аналитических методов. В последнее время серьезные эксперты по искусственному интеллекту жалуются на распространение упрощенных подходов к решению аналитических задач с использованием нейронных сетей, машинного обучения и других подобных приемов. Эта слабость особенно характерна для менее образованных специалистов с гипертрофированной практической ориентацией.

Однако такое «вульгарное» обращение с данными и безоговорочная ориентация на все то, что так или иначе движимо данными (data-driven), в том числе при приятии решений, чревато серьезными методологическими ошибками и приводит к ложным результатам. Реальная жизнь и окружающая природа обычно сложнее, чем их любое отражение в наборе данных. Неожиданные повороты не следуют из формального анализа накопленных данных любого объема. Например, когда лет десять назад появились технологии онлайнового банковского обслуживания, руководство многих финансовых учреждений посчитало, что число локальных отделений будет сокращаться, и приняло соответствующие меры. Практика показала обратное, и тот, кто принял решение о немедленном закрытии офисов на местах, в итоге заметно проиграл. Пожалуй, самый яркий пример нелепости тривиальной опоры на данные — ошибка, допущенная Google в 2012 году в глобальной программе Google Flu Trends (GFT). В итоге программа была бесславно и без лишнего шума свернута.

На пару лет GFT стала символом апофеоза больших данных. GFT стала центральным моментом книги «Большие Данные — революция, которая изменит то, как мы живем, работаем и думаем» (Big Data: A Revolution That Will Transform How We Live, Work, and Think), изданной в 2013 году. По-английски название звучит более утвердительно, чем по-русски. Сказать, что книга стала бестселлером, мало. Успеху способствовало паническое ожидание пандемии вируса H1N1, но, как мы теперь знаем, апокалиптические прогнозы не оправдались.

Основная идея GFT тривиальна. Эта программа базируется на предположении, что анализ количества поисковых запросов, содержащих слово flu и его переводы, и привязка к адресу может дать объективную картину распространения болезни. Авторам GFT никто вовремя не сказал «It’s Not Just the Data, stupid», судить по данным из сети нельзя и делать из этого глубоко идущие выводы — действительно тупизм. Причину провала GFT с полноценной научной глубиной анализируют авторы статьи «Сказание о Google Flu — ловушки аналитики Больших Данных» (The Parable of Google Flu: Traps in Big Data Analysis), она была опубликована в марте 2014 года и не где-нибудь, а в журнале Science. Авторы, профессора ведущих университетов, показывают банальную ошибочность замыслов, не случайно про GFT в Google больше не вспоминают. При этом они подчеркивают, что обнаруженные ими закономерности распространяются на все исследования, где используются социальные данные, заимствованные из Сети, выделяя две основные причины ошибок.

Big Data Hubris. Слово hubris переводится и как «гордыня» или «высокомерие», и как «завышенная оценка», и даже как «гипертрофированное самолюбие». В данном случае подходит и первое, и второе, и третье. Этими качествами отличаются представители не только Google, но и других интернет-компаний, те, кто используют «в лоб» методы работы с большими данными, гиперболизируют значение объемов собранных данных, не задействуют свои методы в сочетании с традиционными. В случае GFT были допущены элементарные методические ошибки, по запросу невозможно, например, определить, кто его сделал — уже заболевший или просто обеспокоенный человек. Традиционная наука преуспела немало в части обеспечения достоверности используемых экспериментальных данных, чего нельзя сказать об аналитиках больших данных. Стоит заметить, что в характеристике специальности data scientist в равной степени учитывают знания и навыки в предметной области и в области анализа данных.

Algorithm Dynamics. Под динамикой алгоритмов в данном случае понимается постоянное совершенствование поисковых машин с целью получения наилучших коммерческих результатов. С точки зрения простого поиска — это прекрасно, но использование неподконтрольно меняющегося по ходу исследования научного инструмента с методической точки зрения невозможно.

Статья завершается выводом о том, что нужно ориентироваться на сочетание потенциала Больших Данных с анализом небольших данных (small data), то есть таких данных, которые получены иными способами и не входят в состав больших. Общественность немедленно отреагировала.

Американцы с удивительной скоростью умеют писать книги солидного объема, при этом качество большинства из них вызывает сомнение. В 2016 году вышла книга Мартина Линдстрема «Малые Данные» (Small Data). Автор показывает, что самые удачные бизнес-решения и фундаментальные научные открытия совершались без привлечения большого количества данных, творческое начало человека устроено совсем иначе, чем искусственный интеллект. Даже в наше компьютеризированное время из 100 наиболее важных инноваций 60-65 были созданы с опорой на Small Data. Линдстрем объясняет это тем, что Big Data прежде всего позволяют обнаруживать скрытые связи и делать на их основе соответствующие выводы. А Small Data позволяют обнаружить причины явлений с использованием свойственных человеку способностей. Он делает очевидные выводы о необходимости продуктивно сочетать большие и малые данные.

В статье «Малые Данные против Больших Данных. Назад к основам» (Small Data vs. Big Data: Back to the basics) есть определение: «Малые данные — это данные в таком объеме и формате, которые делают их доступными, информативными и пригодными для приятия решений. Малые данные извлекаются из локальных источников или из больших данных, они выступают в роли связующего между людьми при выполнении каких-то действий» .

В таблице, заимствованной из этой статьи, сравниваются малые данные с большими.

Данные всякие нужны — и большие, и малые

Руфус Поллок, основатель Open Knowledge Foundation (всемирная некоммерческая сеть организаций, продвигающих и распространяющих на безвозмездной основе информацию, включая как содержимое, так и данные), большие данные сравнивает с централизованным подходом, называя их по образу мэйнфреймов «big iron», а малые — с децентрализованным подходом. Суть революции малых данных, по Поллоку, в демократизации доступа к хранилищам данных и вычислительной мощности. Он считает, что следующее десятилетие станет временем распределенных моделей, а не централизованной, не централизованного управления, а коллабораций.

В этих определениях просматривается позиция гражданского активиста, но та же логика обнаруживается и в таком сугубо техническом направлении, как Интернет вещей (IoT). Если мы собираемся объединять миллиарды вещей, то данные должны образовывать иерархические структуры, IoT и Big Data должны отождествляться, иначе мир захлебнется в данных. IoT и Big Data называют двумя сторонами одной медали. На самом деле небольшие наборы данных, полученных из локальных источников, будут обрабатываться на месте, а выжимка из них будет по необходимости передаваться в»озера данных" (data lake) для последующего анализа на глобальном уровне. Такой подход применим к любому объединению вещей, от агрегатов ветровых электростанций до бытовых приборов. В IoT малые данные позволяют получить ответ на вопрос «Как работает объект», а большие данные — на вопрос следующего уровня, касающийся природы объекта.

Данные всякие нужны — и большие, и малые

Обновленная платформа, таск-трекер и видеозвонки для переговорных: что рассказали на VK WorkSpace Conf