Миллиарды для ретейлера: машинное обучение в X5 Retail Group

Какие прикладные задачи крупные торговые сети научились решать с помощью машинного обучения? Валерий Бабушкин, начальник управления развития данных X5 Retail Group, руководитель группы аналитики компании «Яндекс» и приглашенный преподаватель НИУ «Высшая школа экономики», рассказал об этом журналу «Директор информационной службы» (CIO.ru). Больше по этой теме можно будет узнать из его доклада на практической конференции «Технологии машинного обучения», которую издательство «Открытые системы» проведет 25 сентября.

Что заставляет ретейлеров браться за технологии машинного обучения? А что мешает развивать технологии машинного обучения в ретейле?

Когда есть огромный бизнес с оборотом 1,6 трлн руб. (оценка на 2018 год), свыше 250 тыс. сотрудников, более 13 тыс. магазинов (на 30 июня 2018 года. — Прим. ред.), очень остро встает вопрос оптимизации. Даже 0,5% от такого оборота превращаются в дополнительные 8 млрд руб. в год. В следующем году вырастаем еще на 20%, и тогда добавка составит 10 млрд руб. А если можно оптимизировать 1%? А 2%?

Машинное обучение непосредственно решает задачи оптимизации. Например, мы ищем минимум функции потерь. Возможно, это звучит немного пугающе, но фактически речь идет о простой аппроксимации какой-то функции.

Мы занимаемся не развитием технологий, а решаем прикладные задачи, характерные для ретейла. И когда есть много данных из разных источников, возникает проблема интеграции и качества данных. Это самая большая проблема. Особенно если компания проходила через слияния или приобретала другие компании, у которых были свои системы хранения и свои стандарты.

Валерий Бабушкин, начальник управления развития данных X5 Retail Group, руководитель группы аналитики компании «Яндекс» и приглашенный преподаватель НИУ «Высшая школа экономики»

Какие задачи торговые сети уже решают с помощью технологий искусственного интеллекта и почему именно эти задачи? Под каждую из задач разрабатывается отдельное ИТ-решение или они строятся на одной платформе?

Мы должны предсказывать на месяц вперед, какой будет спрос на каждый из 8 тыс. товаров в каждом из 13 тыс. магазинов — 104 млн прогнозов.

Еще одна задача — оптимизация ремонтов. В каждом магазине стоят холодильники с датчиками. Процесс деградации можно отследить и построить модель, которая на основании поступающих с датчиков данных будет подсказывать, какой холодильник вскоре выйдет из строя.

Следующая задача связана с размещением товаров на полке. Это задача компьютерного зрения, и в решении используются нейросети.

Кроме того, планируем решать классическую задачу HR-аналитики, которая стоит перед всеми компаниями, где много людей и большая текучка. Эту задачу можно довольно успешно решать с помощью машинного обучения.

Обычно по методологии Scrum создается кросс-функциональная команда, куда входят разработчики, аналитики, исследователи данных, инженеры по данным, инженеры машинного обучения под руководством «владельца продукта», отвечающего за конечный продукт. Они работают совместно, используя различные языки программирования.

Как создаваемый ими продукт реализуется технологически, зависит от конкретной бизнес-задачи. И задача, где надо получить результат через 8 миллисекунд, сильно отличается от задачи, где результат можно получить через две недели. Поэтому нет единой платформы, но есть единый стек ИТ-инструментов, и на разных частях этого стека строятся конкретные продукты. С точки зрения оргструктуры функция разработки ИТ-продуктов для работы с данными в X5 отдана отдельной дирекции, которая принимает «заказы» от других подразделений.

Достаточно ли уже накопленного опыта в области машинного обучения для результативного решения перечисленных задач?

Проект с компьютерным зрением — это, скорее, «пилот». Сделать что-то в одном магазине несложно, сложно масштабировать это на 13 тыс. магазинов, это уже инженерная задача. Пока компьютерное зрение охватывает 20–30 магазинов, но, думаю, вскоре станет реальностью для всей сети.

Ну а такие задачи, как предсказание спроса, уже решаются в производственном режиме.