Машинное обучение стало очередной модой в бизнес-технологиях, но о специфике его применения нередко забывают.
«Основная проблема заключается в том, что наука о данных, как ни крути, является наукой, а бизнес не очень-то хорошо приспособлен использовать научные методы при принятии решений», – считает Евгения Завалишина, генеральный директор компании Yandex Data Factory, которая специализируется на машинном обучении и анализе данных.
Этот проект родился в недрах технологической компании «Яндекс» – оператора крупнейшего в России поисковика. В декабре 2014 года в «Яндексе» решили развивать направление наук о данных (Data Science), поддерживавшее их флагманский продукт, и приступили к разработке сервисов машинного обучения для отраслевых приложений.
Новая компания выделилась из «Яндекса» в конце 2014 года. Сервисы машинного обучения и исследования данных используются в YDF для создания прогнозных моделей при организации целевых рекламных кампаний, расчете оптимальных складских запасов для магазинов и т. д.
«Поручая своим сотрудникам какую-то работу, вы обычно рассчитываете получить ожидаемый результат, – отметила Завалишина. – Но с исследователями данных работа строится по-другому, потому что в науке о данных нельзя ожидать гарантированных результатов».
Отрицательный результат может оказаться вполне нормальным итогом любого проекта в области исследования данных, и бизнес-менеджерам необходимо это учитывать.
Логика выше интуиции
Работа с исследователями данных требует особого подхода к бизнесу, в котором логика ставится выше интуиции. Другими словами, все зависит от фактов и логических заключений из них.
Ставить исследователям данных задачи, которые они искренне считают бессмысленными, фактически бесполезно.
«Они воспринимают такие задачи как деление на ноль, не имеющее смысла, – поясняет Завалишина. – И вы просто не в состоянии заставить их делать это, не можете мотивировать людей делить на ноль. Им начинает казаться, что вы идиот, а это отнюдь не способствует укреплению производственных отношений».
Нужно, чтобы исследователи поверили в то, что реализация имеет смысл. При попытке улучшить систему с помощью машинного обучения им нужно иметь достаточный объем данных для получения осмысленных результатов.
«Многие решения в бизнесе принимаются интуитивно, поэтому в обычной ситуации измерять все нет необходимости, – добавил исполнительный директор YDF Александр Хайтин. – Но когда речь идет о проекте, в который вовлечены исследователи данных, нельзя просто указать им: “Делайте так-то и так-то, у меня есть ощущение, что это должно получиться”. Подобный подход не работает».
Правильная постановка вопроса
Модели в предсказательной аналитике строятся на гораздо более сложных по сравнению с традиционными статистическими системами алгоритмах. Порой их сложно объяснить.
В розничной торговле наука о данных зачастую используется для улучшения прогнозирования пополнения запасов при еженедельном оформлении заказов. Результаты могут оказаться просто удивительными, но здесь надо учитывать так много факторов, что сам процесс становится трудноуправляемым.
![]() |
Евгения Завалишина, генеральный директор компании Yandex Data Factory: «Поручая своим сотрудникам какую-то работу, вы обычно рассчитываете получить ожидаемый результат. Но с исследователями данных работа строится по-другому, потому что в науке о данных нельзя ожидать гарантированных результатов» |
«Объяснить все это тому, кто не в состоянии оценить сложность данных, просто невозможно, – заметила Завалишина. – А не объяснив, исходя из одного лишь здравого смысла, вы не сможете понять, насколько это хорошо. Нужно четко знать, что именно вы хотите улучшить и как будут оцениваться результаты. Здесь нет места “свободному творчеству”. Вы должны быть уверены, что точно знаете, что вы хотите улучшить и как вы измеряете результаты. Такой подход напоминает разговор с математиками: вы получаете ответ в точном соответствии со сформулированным вами вопросом».
Если вопрос был задан неверно, ждать правильного ответа не стоит. И в этом заключается общая проблема, ведь компании зачастую не уделяют достаточного внимания планированию своих целей и оценке их достижения.
«Мы работали с одной крупной розничной компанией, и нас попросили построить модель, которая прогнозировала бы продажи каждого конкретного товара на предстоящую неделю, – вспоминает Завалишина. – Мы попытались проделать это с одним товаром, однако заказчик быстро понял, что использовать результаты такого прогнозирования на практике невозможно».
Модель была точной, но дело в том, что компания заказывала товар в упаковках по шесть единиц, а не по одной. И если на следующей неделе прогнозировалась продажа семи единиц, возникал вопрос: заказывать одну упаковку или две? Может показаться, что разница невелика, но тут начинали появляться ошибки. Модель стала совершенно иной, потому что параметры оптимизации оказались сдвинутыми.
Наука о данных требует тщательного планирования. Компания получила правильный ответ, но ей изначально следовало задать совсем другой вопрос.
Неудачи на пути к успеху
Модель оптимизации складских запасов, предложенная другому розничному продавцу, касалась экзотических и дорогостоящих товаров, которые продавались довольно редко, и с этой точки зрения заказывать их на склад смысла не было вообще. Но абсолютно логичное в математическом отношении решение не всегда годится для бизнеса. Ведь эти позиции играли решающую роль в формировании имиджа магазина и его клиентской базы.
«В процессе реализации вашего первого проекта, связанного с исследованием данных или машинным обучением, вам почти наверняка придется возвращаться назад и переосмысливать основные цели и ключевые параметры», – подчеркнула Завалишина.
Обычно YDF рекомендует своим клиентам начинать с коротких специализированных проектов, чтобы избежать долгосрочных инвестиций в проект, который в конечном итоге может дать результаты, которыми не удастся воспользоваться на практике. Такой подход помогает двигаться вперед поэтапно, постепенно внося необходимые улучшения.
Еще у одной компании имелась собственная система, выявлявшая, каким клиентам направлять те или иные предложения. В YDF посоветовали воспользоваться статистической рекомендательной моделью, в которой алгоритм машинного обучения применялся к случайному срезу клиентской базы. Оставшаяся группа клиентов по-прежнему обрабатывалась с помощью прежней системы, а затем компания сравнивала результаты, рассчитывая уровень конверсии предложений в продажи.
Однако на практике была выявлена нестыковка, которая заключалась в том, что предложения контрольной группе рассылались в пятницу, а экспериментальной группе – в выходные. А разные шаблоны поведения в разное время делали любое сравнение бессмысленным.
Руководители часто обращаются к YDF с просьбой организовать на их предприятиях курсы машинного обучения и ознакомления с наукой о данных, позволяющие понять, какую выгоду организация может извлечь из этих технологий.
«Обычно мы отказываем в таких запросах, потому что не видим смысла в подобном обучении, – призналась Завалишина. – Подготовить собственных исследователей данных все равно не удастся, и курсы клиентам тут не помогут. Если вы хотите применять соответствующие технологии в своей работе, нужно изучать научные методы и использовать их. Для того чтобы технология приносила результаты, бизнесу необходимо прививать более научный подход».
Поправка на неопределенность
Бизнесу следует впитывать в себя научную культуру. Отрицательные результаты еще не означают, что работа провалена – они лишь свидетельствуют о том, что оптимизация не завершена.
Еще один важный момент связан с зонами ответственности в корпоративной культуре. Однажды в YDF обратился клиент, желающий оптимизировать свои рекламные расходы. Разработанный по его заказу алгоритм обещал тот же уровень отклика при сокращении затрат на 20%.
Однако полученные итоги породили больше вопросов, чем достижений. Дело в том, что бонусы персоналу, отвечавшему за проект, выплачивались за составление планов и принятие решений, обеспечивавших оптимизацию результатов.
«Теперь же у них появилась модель, выдававшая рекомендации и математически доказывавшая, что выполнение этих рекомендаций повлечет за собой улучшение результатов, но проблема заключалась в том, что все это непосредственно входило в их зону ответственности», – пояснила Завалишина.
Проекты, связанные с наукой о данных, предполагают иное распределение сфер ответственности и иные приоритеты по сравнению с теми, что были приняты в бизнесе до сих пор. В нашем случае участникам команды предлагалось внедрить модель, которая привела бы к сокращению их бонусов.
«Использование научного подхода более рационально, но может провоцировать конфликтные ситуации, – отметил Хайтин. – Как минимум нарушается обычный порядок принятия решений. Эксперт, к примеру, заявляет, что у него появилась идея, и он интуитивно чувствует, что она сработает. У нас же в руках имеется определенный инструмент, который позволяет точно вычислить результат. Это совершенно иная ситуация, и тут нет места интуиции».
Вот еще один пример. Специалисты YDF совместно с крупным сталелитейным предприятием работали над оптимизацией соотношения материалов, используемых в производственном цикле. Увеличение доли определенной добавки улучшало качество, но одновременно приводило к удорожанию конечной продукции.
Опираясь на статистические данные для построения точной модели наилучшего балансирования качества и стоимости, в YDF остановились на составе, предлагавшемся алгоритмом машинного обучения.
«Но часто такие рецепты не имеют смысла, – призналась Завалишина. – Взглянув на них, представитель заказчика утверждает, что они неприемлемы. Выбирается другой вариант. С одной стороны, вы проводите оптимизацию, а с другой – вам приходится считаться с предпочтениями экспертов. Они же, как правило, отвергают 80% ваших рекомендаций. Мы разработали другое решение, которое анализировало вероятность принятия заказчиком предложенного состава. Дальнейшая работа делала его чуть менее оптимальным с математической точки зрения, но повышала вероятность его принятия человеком».
Нас все чаще пугают тем, что искусственный интеллект вполне способен уничтожить человечество, однако пока именно союз человека и инструментов машинного обучения составляет основу того, что называют наукой о данных.
– Tom Macaulay. How to use data scientists and machine learning in the enterprise. Computerworld UK. MAR 23, 2017