Компания ICMR ("ГФК-Русь"), занимающаяся маркетинговыми исследованиями, разработали совместно с компанией "ТеДо" собственную BI-платформу Sputnik, которая в промышленном масштабе обрабатывает и анализирует данные о продажах непродовольственных товаров от более 2 тыс. независимых партнеров по всей России. Это дает возможность превратить разрозненные закрытые данные тысяч игроков в единый, доступный и коммерчески востребованный аналитический продукт, повышающий эффективность всей отрасли. О реализации проекта рассказывает Андрей Прокопов, исполнительный директор компании и номинант на премию Data Award.
- Каковы предпосылки проекта? В чем заключалась решаемая проблема?
В условиях санкционный ограничений, недоступности многих привычных для западного бизнеса программ и курса на импортозамещение, мы были вынуждены экстренно искать альтернативу, чтобы наши партнеры и клиенты не потеряли независимый источник данных и экспертизы. Сегодня наша компания обладает собственной ИТ-инфраструктурой, полностью независимой от решений западных поставщиков программного обеспечения, санкционных ограничений и от приостановки лицензий. Знания и экспертиза остаются в стране и работают на ее экономику.
Мы не просто заместили импортный софт — мы сохранили для отрасли способность видеть рынок в любой степени детализации, понимать спрос и принимать обоснованные решения. Sputnik стал тем самым «центром компетенций», который взял на себя функцию, ранее выполнявшуюся западными инструментами и BI-платформами, и сильно превзошел их. Бизнес не остановился, не ушел в «слепую зону» — он получил работающий отечественный инструмент, который обеспечил операционную непрерывность.
- Какая цель была поставлена перед проектом?
Мы создали независимую, прозрачную отраслевую платформу взаимодействия между ретейлерами и производителями, которая формирует объективную, детализированную и актуальную картину рынков: бытовой техники и электроники, DIY-товаров, оптики, детских товаров и др. Наша ключевая задача — превратить разрозненные данные тысяч партнеров в единый, доступный и коммерчески востребованный аналитический продукт. Отвечая на ключевые бизнес вопросы на еженедельной основе, с потенциалом роста до ежедневного репортинга.
- Какой подход был выбран для этого?
Только собственная разработка, так как мы параллельно решали две задачи: построение собственного хранилища корпоративных данных и разработка BI-системы с нуля, опираясь на собственную экспертизу и потребности рынка.
- На каких технологиях собирали решение?
Наша система — это разработка на базе open source. В технологический стек входят такие продукты, как Python, React TypeScript, FastAPI, PostgreSQL, ClickHouse, Celery, Redis наряду с инфраструктурными компонентами nginx, Grafana Prometheus, Deckhouse, KeyCloak.
- Почему выбрали именно линейку продуктов open source?
Основной мотивацией выбора технологий open source стала не просто экономия на лицензиях, а необходимость построения сложной, гибкой и полностью контролируемой инфраструктуры под уникальные задачи проекта. Выбор был обусловлен несколькими ключевыми факторами.
Во-первых, стратегическая независимость и контроль. Open source решения предоставляют полную свободу от привязки к одному поставщику. В условиях текущей геополитической ситуации и санкционных рисков это критически важно. Мы не могли позволить, чтобы критически важная для рынка инфраструктура зависела от решений западных компании или отзыва лицензий. Кроме того, использование открытого кода позволило нам получить полный контроль над кодом и архитектурой. Мы можем самостоятельно управлять развитием платформы, оперативно вносить изменения и адаптировать ее под специфические требования нашего рынка и наших клиентов без ожидания обновлений от вендора.
Во-вторых, максимальная гибкость и кастомизация под уникальные задачи. Типовые коробочные BI-решения не были рассчитаны на тот уровень сложности и специфику задач, которые решает Sputnik. Нам требовалась платформа, способная работать с данными на модельном уровне, с десятками миллионов товарных позиций и сотнями сложнейших отчетов, при этом иметь возможность проваливаться на 5-10 уровней детализаций вниз, делая зачастую нестандартные группировки (например, холодильники и сушильные машины), сохраняя консистентность данных. Open source инструменты, такие как Apache Superset, позволяют создавать высоко индивидуализированные продукты и расширять их функциональность в соответствии с уникальными бизнес-требованиями. Благодаря открытому коду мы смогли создать идеально заточенное решение под нужды клиентов и партнеров, которое не имеет прямых аналогов, в том числе и западных BI-систем.
В-третьих, высокая масштабируемость. Наша экосистема объединяет более 2 тыс. партнеров, и объем обрабатываемых данных постоянно растет. Архитектура на основе open source компонентов — в том числе использование распределенных файловых систем и движков обработки данных — позволяет горизонтально масштабировать систему практически без ограничений. Мы можем наращивать мощности, добавляя новые серверы, а не покупая более дорогую лицензию, что критически важно для обеспечения бесперебойной работы нашего «промышленного конвейера данных».
Важна и технологическая независимость. Выбор open source стал основой для создания полностью отечественного, импортонезависимого продукта. Мы не просто «установили бесплатный софт», а создали на его базе собственную разработку, которая вошла в периметр российского рынка как критически важная аналитическая инфраструктура. Это позволило нам воспроизвести и превзойти уровень западной экспертизы, но с ключевым преимуществом — полным суверенитетом данных и технологии.
Наконец, экономическая эффективность в масштабе. Хотя это и не было главной причиной, модель open source позволила нам инвестировать сэкономленные на лицензиях средства непосредственно в разработку уникального функционала и привлечение лучших специалистов.
- Какие данные охватывает созданная платформа?
Проект Sputnik основан исключительно на фактических данных о продажах конечным потребителям. Независимые партнеры — федеральные и региональные розничные сети, маркетплейсы и специализированные независимые магазины — на регулярной основе передают обезличенную информацию о каждой проданной единице товара.
Каждая товарная позиция кодируется на модельном уровне с полным описанием характеристик: бренд, артикул, технические параметры. Данные структурируются в разрезе географии — от конкретного города до региона, федерального округа и страны в целом. Фиксируется фактическая цена продажи, что позволяет отслеживать динамику, скидки и распределение по ценовым сегментам.
В результате система еженедельно и ежемесячно обрабатывает миллионы товарных позиций, обеспечивая актуальную и непрерывно обновляемую картину рыночного спроса. При этом полная анонимизация исключает использование каких-либо данных физических лиц.
- Какое внимание уделяется качеству данных?
Построена система многоуровневых проверок качества на всех этапах обработки (от этапа загрузки, моделирования и финальный quality check). Реализованы инструменты корректировки, позволяющие исправлять ошибки до попадания данных в отчет, а не постфактум. Клиенты доверяют цифрам и принимают на их основе стратегические решения.
Качество данных — это наша основная компетенция и фундамент доверия рынка. Мы контролируем количество торговых точек, оцениваем репрезентативность выборки в каждом регионе и канале, применяем научно обоснованную экстраполяцию там, где это необходимо. Весь массив данных проходит многоуровневую проверку качества по классическим стандартам аналитики: проверка на полноту, непротиворечивость и отсутствие аномалий.
- Какие проблемы возникали в ходе проекта?
Проект стартовал в условиях жесткого цейтнота, когда привычный софт стал нам недоступен. Мы столкнулись с необходимостью не просто заменить отдельные компоненты, а полностью пересобрать аналитическую систему с нуля на отечественном и open source стеке и буквально за несколько месяцев выйти к MVP.
Готовых решений, закрывающих все наши потребности, не существовало. Каждый компонент — от сбора данных до расчетов и визуализации — приходилось разрабатывать, интегрировать и доводить до промышленной эксплуатации самостоятельно, обеспечивая при этом точность и надежность. Рыночная аналитика требует абсолютной точности. Доли рынка, дистрибуция, динамика, приросты — каждая метрика должна быть рассчитана безупречно, потому что на их основе клиенты принимают решения на миллионы рублей.
В процессе разработки мы неоднократно сталкивались с ошибками в многофакторных расчетах. Некорректно учитывались пересекающиеся каналы продаж, искажались веса при расчете дистрибуции, возникали расхождения при агрегации данных от тысяч разнородных источников. Каждая такая ошибка требовала выявления, анализа и исправления на уровне логики системы.
- Рынок позитивно воспринял вашу инициативу? Или не все так однозначно?
Да, рынок действительно принял проект позитивно, так как для многих мы являемся единым источником правды. На этапе MVP, когда система только запускалась, были различные ограничения в получаемой аналитике, и в этот момент рынок проявил удивительное терпение. Клиенты и партнеры понимали: создается то, чего раньше не было. Они не требовали идеала с первого дня, а включились в процесс, стали первыми тестировщиками, давали обратную связь, помогали дорабатывать продукт.
- Каковы масштабы?
Решением охвачены 100% федеральных округов, получаем данные от более чем 2 тыс. партнеров. Объем аналитики составляет более 5 тыс. еженедельных и более 20 тыс. ежемесячных отчетов.
У нас большая глубина данных, доходящая до модельного уровня (бренд, артикул, характеристики), фактических цен, динамики, скидок. Рассчитываются ключевые метрики: приросты, абсолютные значения, взвешенная и невзвешенная дистрибуция, доли рынка, динамика продаж.
Автоматизировано 90% производственного цикла работы с данными: загрузка, кодировка, контроль качества, расчеты, визуализация, доставка.
- Какие результаты достигнуты?
Рынок перестал быть «слепым». Впервые ретейлеры и производители видят объективную картину рынка: реальные цены, региональный спрос, доли брендов. Решения принимаются на основе фактов, а не интуиции. Система дает ответы на вопросы: что покупают, где и по какой цене. Это позволяет нашим клиентам и партнерам планировать закупки, маркетинговые акции, а также выпуск новых продуктов и запуск собственных торговых марок.
Скорость решений выросла в 5–10 раз. Аналитикам не нужно неделями собирать и чистить данные, что ускоряет процесс принятия бизнес-решений. Достигаемая экономия ресурсов составляет сотни миллионов рублей в год. Тысячи специалистов экономят часы ежедневно. Деньги не тратятся, а зарабатываются.
Наконец, аналитика стала доступна не только гигантам. Региональная сеть видит рынок также детально, как федеральный топ-игрок.
В результате можно говорить о появлении отраслевого стандарта. Модельный уровень, география, фактическая цена стали новой нормой. Внедрена унифицированная кодировка товарных позиций.
Создан язык описания рынка, понятный всем участникам — от федеральной сети до регионального магазина. Наши клиенты — крупнейшие федеральные сети, маркетплейсы, производители, дистрибьюторы — заговорили на едином языке данных.
- В чем ваш проект уникален?
Самое главное — обеспечена глубина данных, недоступная ни одному внутрикорпоративному проекту. Продажи оцифрованы до конкретной модели товара с привязкой к городу и фактической цене и всеми возможными характеристиками. Ни у кого больше нет доступа к такому объему перекрестных данных от прямых конкурентов.
Кроме того, мы выстроили промышленный конвейер аналитики — это не дашборд для внутреннего отдела, а промышленное производство рыночных инсайтов.
- В чем роль проекта для бизнеса компании?
Полная автоматизация цикла работы с данными дает радикальное сокращение доли ручного труда для всех категорий сотрудников компании — аналитиков, инженеров данных, специалистов по контролю качества. Произошло ускорение внутренних процессов: время формирования сложного аналитического отчета сократилось с дней до часов, а время на проверку и корректировку данных уменьшилось на 70–80% за счет встроенных инструментов автоматического контроля качества. Достигнуто масштабирование бизнеса без роста штата и устойчивый рост клиентской базы без пропорционального увеличения себестоимости.
- Каково значение проекта для отрасли?
Мы создали полностью отечественную BI-платформу. Проект вносит вклад в цифровой суверенитет России. Открытость данных и объективная картина спроса привели к прозрачности в отношениях между производителем и продавцом. Это напрямую влияет на конечную стоимость товаров для миллионов покупателей по всей стране.
Тысячи аналитиков в компаниях-клиентах ежедневно экономят часы рабочего времени, используя готовые отчеты Sputnik вместо самостоятельного сбора и обработки данных. Совокупный экономический эффект для отрасли исчисляется сотнями миллионов рублей в год сэкономленных трудозатрат.
Наши клиенты принимают более точные решения по ассортименту, ценам и региональному присутствию. Доступ к объективной картине рынка позволяет избежать затоваривания, ценовых войн и ошибочных действий.
- Каковы направления развития проекта?
Следующий шаг — интерактивный дашборд с ИИ, который свяжет данные о фактических продажах с триггерами покупки и путями покупки. Он будет отвечать на вопрос не только о том, что продалось, но и кому, как и почему — в рамках нашей стратегии всеобъемлющего взгляда на бизнес.
Мы планируем вывести аналитику на принципиально новый уровень, объединив все три существующие панели в единый интерактивный дашборд, соответствующий современным стандартам искусственного интеллекта. Это будет система, которая отвечает на вопросы в моменте, без ожидания отчетов, без ручных запросов — бизнес-пользователь задает вопрос и мгновенно получает ответ, опирающийся на полный массив наших данных. Когда мы пройдем эту часть, то дальше перейдем к данным в ежедневном режиме или даже в режиме реального времени. Нам есть чем удивить индустрию.