В 2025 году команда Big Data компания CDEK реализовала стратегический переход от классической аналитики с отчетами раз в сутки к оперативному управлению с доступом к данным до получаса. Независимая отказоустойчивая платформа, созданная на стеке open source, способна обрабатывать потоки данных федерального логистического оператора без задержек. В результате удалось демократизировать доступ к данным: аналитика вышла из кабинетов топ-менеджмента и стала рабочим инструментом для более чем 10 тыс. сотрудников и партнеров. О реализации проекта рассказывает Дмитрий Ширшаков, руководитель департамента больших данных CDEK и номинант на премию Data Award.
- Какова история проекта? Как компания пришла к его реализации?
Система аналитики появилась в компании семь лет назад. Сначала мы смотрели только коммерческие показатели объема перевозок и выручки. Со временем аналитика охватила все сферы деятельности компании: логистику, маркетинг, финансы, HR. Тогда мы начинали с классической аналитики «на вчера». Но именно логистическое направление показало наибольшую потребность в оперативной аналитике для своевременного принятия решений и управления бизнес-процессами.
- Какие цели были поставлены?
Требовалось создать оперативную data-driven экосистему управления логистикой CDEK. Речь шла о формировании единого цифрового контура, где каждое физическое действие – движение груза, статус курьера, нагрузка на склад и т.п. – оцифровывается, и отчет доставляется лицу, принимающему решение, в течение часа. Было важно обеспечить линейных руководителей (бригадиров, логистов, начальников курьерских баз) оперативными данными для реакции «здесь и сейчас», повысить производительность складов и плотность доставки за счет предиктивной аналитики и мониторинга, стандартизировать качество управления в распределенной партнерской сети через единые метрики.
- Насколько эти задачи критичны для компании?
В логистике данные обновляются с высокой интенсивностью и часто нужна мгновенная реакция. Цена задержки информации здесь равна цене потери клиента или простоя смены. Ранее управление на местах строилось на «ручном пилотировании» и телефонных звонках. Внедрение оперативной отчетности позволяет заменить интуитивное распределение ресурсов точным расчетом, мгновенно реагировать на форс-мажоры вроде поломки транспорта или резкого наплыва груза, снизить зависимость от человеческого фактора в цепочках коммуникации.
- Какой подход к решению задачи был выбран?
На тот момент у нас уже было корпоративное хранилище данных, которое ежедневно пополнялось информацией со всех систем компании. Были и системы визуализации, в которых работали сотрудники компании. Необходимо было спроектировать новую архитектуру и организовать плавный переход на нее без остановки текущей аналитики данных.
- Какие технологии использовались для построения платформы данных?
Платформа построена на полностью импортонезависимом стеке open source. За хранение и витрины отвечают Greenplum и ClickHouse (для сверхбыстрых отчетов). Стриминг и процессинг реализованы на Apache Kafka и Spark. Оркестрация осуществляется с помощью Apache Airflow. Визуализация данных представляет собой единое окно на Apache Superset. Разработано более 260 активных дашбордов.
- Почему именно open source?
У нас был опыт использования проприетарного ПО. Мы от него отказались и пришли к необходимости развивать наши системы на базе open source. Это дает нам целый ряд преимуществ: отказ от Vendor Lock, прозрачность, безопасность, и, конечно, стоимость.
- Какие данные охвачены?
Агрегируются потоки из всех систем группы CDEK и партнеров. Ключевые из них – операции (движение грузомест, статусы заказов, телеметрия сортировочных линий), ресурсы (геолокация курьеров, транспорт, графики выхода персонала) и клиентский опыт (SLA, претензии, обратная связь).
- Какие проблемы пришлось решать в ходе проекта, как с ними боролись?
Ключевой проблемой было изменить процессы обновления данных в аналитике без остановки уже существующих процессов. На тот момент у нас уже было порядка 200 дашбордов, которыми пользовались тысячи сотрудников компании. Мы не могли позволить себе их остановку для «сервисных работ».
Мы построили план пошагового обновления, в рамках которого описывали новый процесс, проверяли корректность его работы и после этого отключали старую версию. Таким образом двигались по всем объектам.
- Что собой представляет созданное решение?
Мы построили систему непрерывной поставки данных для аналитики. Данные поступают из ERP-системы компании по единой шине данных. Каждые пять минут они вычитываются из шины и записываются в «сырой» слой данных – это самая оперативная информация. Уже после этого этапа у нас есть возможность строить аналитику с максимальной оперативностью. Но, как правило, мы объединяем оперативные данные с полученными ранее (из хранилища) для получения полной картины происходящего: каково отклонение текущих показателей от среднего в предыдущих периодах, отслеживание динамики и трендов.
- Что выделяет ваш проект?
В первую очередь, широта охвата. В отличие от многих компаний, где BI используют аналитики и топ-менеджмент, в CDEK данными пользуются те, кто физически перемещает грузы.
Организована работа с партнерской сетью: единая экосистема данных объединяет тысячи предпринимателей, давая им инструменты «большого бизнеса» для роста и развития. И, конечно, скорость изменений: перевод 1,2 тыс. процессов на новые технологии менее чем за год.
- Какие результаты вы считаете самыми главными?
Мы серьезно изменили культуру работы с данными. Данные стали доступны «на земле». Бригадиры складов и супервайзеры курьеров используют аналитику как основной рабочий инструмент. На данный момент число пользователей (MAU) составляет более 10 тыс. сотрудников. Это 23% штата компании.
Появились и бизнес-эффекты от реализованных с помощью платформы кейсов. Например, в складской логистике внедрено почасовое прогнозирование грузопотока с детализацией: короба, пакеты, негабарит. Результатом стала оптимизация на 8% ФОТ склада за счет вывода людей строго под нагрузку.
В управлении доставкой мы полностью ушли от управления курьерами «по телефону». Супервайзер видит план и факт в моменте. В результате улучшился контроль за доставкой срочных отправлений и снизился показатель несданных грузов по заявкам.
Заметно выросла скорость реакции. Время обнаружения операционных проблем сократилось с 24 часов до 15-60 минут. Средний срок доставки в 2025 году снизился на 9% по сравнению с 2024 годом.
- Пытались ли оценить эти эффекты в финансовом выражении?
Наши усилия направлены в первую очередь на сокращение времени сотрудников «на земле», чтобы у них оставалось больше времени на операционную деятельность. Например, мы создали дашборд менеджера клиентского офиса (сотрудника пункта выдачи заказов), в котором в одном окне показываем количество необработанного груза по категориям, выполнение дневного плана в процентах и сообщения из других офисов.
Мы посчитали, что этим дашбордом мы ежедневно экономим 15 минут сотрудника. Если умножить на количество офисов — более 5 тыс. — то получается, что мы только одним этим инструментом экономим 1250 человеко-часов, которые можно потратить на более полезную работу.
- В чем роль проекта для бизнеса компании?
Проект стал фундаментом трансформации CDEK из классического логистического оператора в технологическую компанию. Мы сделали операционные процессы прозрачными и понятными для менеджмента и партнеров. Каждое решение об изменениях теперь верифицируется цифрами. Мы дали инструменты корпоративного уровня тысячам партнеров, выровняв стандарты качества сервиса по всей стране.
Конечно, проект еще и улучшает условия труда «синих воротничков» — курьеров, складского персонала, менеджеров клиентских офисов. Благодаря точному планированию снижается уровень стресса, количество переработок и непрогнозируемой нагрузки. Сотрудники видят свои показатели и прозрачную связь результата с оплатой.
- В каком направлении будет развиваться проект?
Дальше мы будем двигаться в трех направлениях. Первое из них – расширение охвата. Будем добираться до все большего числа процессов, где нужна оперативность для принятия решения. Второй акцент – получение синергии. Использование данных из разных систем компании позволит получать максимальный эффект. Наконец, предиктивная аналитика. На основе оперативных данных мы сможем предсказывать события через час, рабочую смену или сутки для помощи в принятии решений.