Как работать с исследователями данных

Машинное обучение стало очередной модой в бизнес-технологиях, но о специфике его применения нередко забывают.

«Основная проблема заключается в том, что наука о данных, как ни крути, является наукой, а бизнес не очень-то хорошо приспособлен использовать научные методы при принятии решений», – считает Евгения Завалишина, генеральный директор компании Yandex Data Factory, которая специализируется на машинном обучении и анализе данных.

Этот проект родился в недрах технологической компании «Яндекс» – оператора крупнейшего в России поисковика. В декабре 2014 года в «Яндексе» решили развивать направление наук о данных (Data Science), поддерживавшее их флагманский продукт, и приступили к разработке сервисов машинного обучения для отраслевых приложений.

Новая компания выделилась из «Яндекса» в конце 2014 года. Сервисы машинного обучения и исследования данных используются в YDF для создания прогнозных моделей при организации целевых рекламных кампаний, расчете оптимальных складских запасов для магазинов и т. д.

«Поручая своим сотрудникам какую-то работу, вы обычно рассчитываете получить ожидаемый результат, – отметила Завалишина. – Но с исследователями данных работа строится по-другому, потому что в науке о данных нельзя ожидать гарантированных результатов».

Отрицательный результат может оказаться вполне нормальным итогом любого проекта в области исследования данных, и бизнес-менеджерам необходимо это учитывать.

Логика выше интуиции

Работа с исследователями данных требует особого подхода к бизнесу, в котором логика ставится выше интуиции. Другими словами, все зависит от фактов и логических заключений из них.

Ставить исследователям данных задачи, которые они искренне считают бессмысленными, фактически бесполезно.

«Они воспринимают такие задачи как деление на ноль, не имеющее смысла, – поясняет Завалишина. – И вы просто не в состоянии заставить их делать это, не можете мотивировать людей делить на ноль. Им начинает казаться, что вы идиот, а это отнюдь не способствует укреплению производственных отношений».

Нужно, чтобы исследователи поверили в то, что реализация имеет смысл. При попытке улучшить систему с помощью машинного обучения им нужно иметь достаточный объем данных для получения осмысленных результатов.

«Многие решения в бизнесе принимаются интуитивно, поэтому в обычной ситуации измерять все нет необходимости, – добавил исполнительный директор YDF Александр Хайтин. – Но когда речь идет о проекте, в который вовлечены исследователи данных, нельзя просто указать им: “Делайте так-то и так-то, у меня есть ощущение, что это должно получиться”. Подобный подход не работает».

Правильная постановка вопроса

Модели в предсказательной аналитике строятся на гораздо более сложных по сравнению с традиционными статистическими системами алгоритмах. Порой их сложно объяснить.

В розничной торговле наука о данных зачастую используется для улучшения прогнозирования пополнения запасов при еженедельном оформлении заказов. Результаты могут оказаться просто удивительными, но здесь надо учитывать так много факторов, что сам процесс становится трудноуправляемым.

Евгения Завалишина, генеральный директор компании Yandex Data Factory:
«Поручая своим сотрудникам какую-то работу, вы обычно рассчитываете получить ожидаемый результат. Но с исследователями данных работа строится по-другому, потому что в науке о данных нельзя ожидать гарантированных результатов»

«Объяснить все это тому, кто не в состоянии оценить сложность данных, просто невозможно, – заметила Завалишина. – А не объяснив, исходя из одного лишь здравого смысла, вы не сможете понять, насколько это хорошо. Нужно четко знать, что именно вы хотите улучшить и как будут оцениваться результаты. Здесь нет места “свободному творчеству”. Вы должны быть уверены, что точно знаете, что вы хотите улучшить и как вы измеряете результаты. Такой подход напоминает разговор с математиками: вы получаете ответ в точном соответствии со сформулированным вами вопросом».

Если вопрос был задан неверно, ждать правильного ответа не стоит. И в этом заключается общая проблема, ведь компании зачастую не уделяют достаточного внимания планированию своих целей и оценке их достижения.

«Мы работали с одной крупной розничной компанией, и нас попросили построить модель, которая прогнозировала бы продажи каждого конкретного товара на предстоящую неделю, – вспоминает Завалишина. – Мы попытались проделать это с одним товаром, однако заказчик быстро понял, что использовать результаты такого прогнозирования на практике невозможно».

Модель была точной, но дело в том, что компания заказывала товар в упаковках по шесть единиц, а не по одной. И если на следующей неделе прогнозировалась продажа семи единиц, возникал вопрос: заказывать одну упаковку или две? Может показаться, что разница невелика, но тут начинали появляться ошибки. Модель стала совершенно иной, потому что параметры оптимизации оказались сдвинутыми.

Наука о данных требует тщательного планирования. Компания получила правильный ответ, но ей изначально следовало задать совсем другой вопрос.

Неудачи на пути к успеху

Модель оптимизации складских запасов, предложенная другому розничному продавцу, касалась экзотических и дорогостоящих товаров, которые продавались довольно редко, и с этой точки зрения заказывать их на склад смысла не было вообще. Но абсолютно логичное в математическом отношении решение не всегда годится для бизнеса. Ведь эти позиции играли решающую роль в формировании имиджа магазина и его клиентской базы.

«В процессе реализации вашего первого проекта, связанного с исследованием данных или машинным обучением, вам почти наверняка придется возвращаться назад и переосмысливать основные цели и ключевые параметры», – подчеркнула Завалишина.

Обычно YDF рекомендует своим клиентам начинать с коротких специализированных проектов, чтобы избежать долгосрочных инвестиций в проект, который в конечном итоге может дать результаты, которыми не удастся воспользоваться на практике. Такой подход помогает двигаться вперед поэтапно, постепенно внося необходимые улучшения.

Еще у одной компании имелась собственная система, выявлявшая, каким клиентам направлять те или иные предложения. В YDF посоветовали воспользоваться статистической рекомендательной моделью, в которой алгоритм машинного обучения применялся к случайному срезу клиентской базы. Оставшаяся группа клиентов по-прежнему обрабатывалась с помощью прежней системы, а затем компания сравнивала результаты, рассчитывая уровень конверсии предложений в продажи.

Однако на практике была выявлена нестыковка, которая заключалась в том, что предложения контрольной группе рассылались в пятницу, а экспериментальной группе – в выходные. А разные шаблоны поведения в разное время делали любое сравнение бессмысленным.

Руководители часто обращаются к YDF с просьбой организовать на их предприятиях курсы машинного обучения и ознакомления с наукой о данных, позволяющие понять, какую выгоду организация может извлечь из этих технологий.

«Обычно мы отказываем в таких запросах, потому что не видим смысла в подобном обучении, – призналась Завалишина. – Подготовить собственных исследователей данных все равно не удастся, и курсы клиентам тут не помогут. Если вы хотите применять соответствующие технологии в своей работе, нужно изучать научные методы и использовать их. Для того чтобы технология приносила результаты, бизнесу необходимо прививать более научный подход».

Как работать с исследователями данных

Поправка на неопределенность

Бизнесу следует впитывать в себя научную культуру. Отрицательные результаты еще не означают, что работа провалена – они лишь свидетельствуют о том, что оптимизация не завершена.

Еще один важный момент связан с зонами ответственности в корпоративной культуре. Однажды в YDF обратился клиент, желающий оптимизировать свои рекламные расходы. Разработанный по его заказу алгоритм обещал тот же уровень отклика при сокращении затрат на 20%.

Однако полученные итоги породили больше вопросов, чем достижений. Дело в том, что бонусы персоналу, отвечавшему за проект, выплачивались за составление планов и принятие решений, обеспечивавших оптимизацию результатов.

«Теперь же у них появилась модель, выдававшая рекомендации и математически доказывавшая, что выполнение этих рекомендаций повлечет за собой улучшение результатов, но проблема заключалась в том, что все это непосредственно входило в их зону ответственности», – пояснила Завалишина.

Проекты, связанные с наукой о данных, предполагают иное распределение сфер ответственности и иные приоритеты по сравнению с теми, что были приняты в бизнесе до сих пор. В нашем случае участникам команды предлагалось внедрить модель, которая привела бы к сокращению их бонусов.

«Использование научного подхода более рационально, но может провоцировать конфликтные ситуации, – отметил Хайтин. – Как минимум нарушается обычный порядок принятия решений. Эксперт, к примеру, заявляет, что у него появилась идея, и он интуитивно чувствует, что она сработает. У нас же в руках имеется определенный инструмент, который позволяет точно вычислить результат. Это совершенно иная ситуация, и тут нет места интуиции».

Вот еще один пример. Специалисты YDF совместно с крупным сталелитейным предприятием работали над оптимизацией соотношения материалов, используемых в производственном цикле. Увеличение доли определенной добавки улучшало качество, но одновременно приводило к удорожанию конечной продукции.

Опираясь на статистические данные для построения точной модели наилучшего балансирования качества и стоимости, в YDF остановились на составе, предлагавшемся алгоритмом машинного обучения.

«Но часто такие рецепты не имеют смысла, – призналась Завалишина. – Взглянув на них, представитель заказчика утверждает, что они неприемлемы. Выбирается другой вариант. С одной стороны, вы проводите оптимизацию, а с другой – вам приходится считаться с предпочтениями экспертов. Они же, как правило, отвергают 80% ваших рекомендаций. Мы разработали другое решение, которое анализировало вероятность принятия заказчиком предложенного состава. Дальнейшая работа делала его чуть менее оптимальным с математической точки зрения, но повышала вероятность его принятия человеком».

Нас все чаще пугают тем, что искусственный интеллект вполне способен уничтожить человечество, однако пока именно союз человека и инструментов машинного обучения составляет основу того, что называют наукой о данных.

– Tom Macaulay. How to use data scientists and machine learning in the enterprise. Computerworld UK. MAR 23, 2017