Сбербанк разработал аналитическую платформу причинно-следственной оценки городских изменений «СберИндекс», которая помогает городам и бизнесу принимать решения об инвестициях не только в транспортную инфраструктуру, но и в ретейл, девелопмент и городские сервисы. Платформа позволяет опираться на измеримые эффекты, связанные со спросом, наценками и прибылью в розничной торговле, детализированные в пространстве и времени. О создании и перспективах платформы рассказывает Дарья Цыплакова, управляющий директор лаборатории «CберИндекс» Сбербанка – номинант на премию Data Award.

- Что стало причиной появления платформы? Какие проблемы побудили к ее разработке?

Ключевая проблема – сложно доказать, что наблюдаемые изменения в спросе, трафике, выручке, поведении жителей и конкурентной среде произошли именно «вследствие» конкретного решения, а не совпали по времени с другими факторами на фоне реализации транспортного проекта, открытия торгового центра или точки, реконфигурации пространства и т.д. Еще острее стоит эта проблема до запуска проекта, когда нужно оценить потенциальный спрос и эффект будущих проектов. Это актуально и для бизнеса, и для госуправления.

Городские изменения и бизнес-решения перекраивают карту спроса и меняют гравитацию города, и цена ошибки высока: выбор локации, масштаба и сценария проектов определяют результат на годы вперед. При этом прогнозы спроса и потоков часто расходятся с фактом на десятки процентов, а в отдельных классах проектов достигают 60–110%. Из-за этого финансовые модели – CBA/BCR для госсектора, NPV/IRR/DSCR для бизнеса – строятся на основе нереалистичных предпосылок, связанных со спросом, могут приоритизироваться проекты с явно завышенными ожиданиями.

- Какие принципы были заложены в создаваемую платформу?

Ключевой принцип продукта – детальный анализ городского механизма в единой пространственной модели потребительских рынков: люди выбирают маршруты и места покупок, ориентируясь на доступность и качество; бизнес реагирует изменениями цен, ассортимента и географии присутствия в конкурентных условиях; денежные потоки перераспределяются по районам, торговым точкам и отраслям и т.д.

- Что это дало?

В результате платформа позволяет получить вместо экспертных предположений, описательных данных и корреляций не только итоговый прогнозный эффект c причинно-следственным объяснением – что именно изменилось из-за анализируемого решения: строительства метро, жилого квартала, появления новой торговой точки. Гораздо важнее, что появляется возможность понимать механизмы воздействия: эффект транспортной доступности, ценовой эффект от расширения клиентской базы, и даже от изменения конкурентного давления. Происходит оценка географии эффектов на уровне районов, маршрутов и конкретных локаций. Например, ценовые эффекты могут распространяться дальше неценовых через цепочки «магазины – покупатели – соседние точки».

Рассчитываются эффекты до реализации проектов (ex-ante). Мы можем моделировать отклик параметров системы на предполагаемые изменения, чтобы сравнивать альтернативы и оценивать последствия для населения и успешности бизнеса. Возможен анализ различных потребительских рынков по отдельности или в совокупности – от кофеен и баров до медицинских клиник.

В результате получаются прогнозы во множестве разрезов: какие группы населения выигрывают, какие районы и потоки затронуты, куда перетекают деньги, какие торговые точки выигрывают.

- На каких технологиях создана модель? Что «под капотом»?

Мы используем вычислительный контур на базе SDP Hadoop: хранение данных в HDFS, обработка с использованием Spark и Hive, а расчетные модели реализованы на Python/PySpark, что обеспечивает параллельную обработку пространственных данных и выполнение ресурсоемких вычислений.

Модель разработана (ее вид можно посмотреть по ссылке) на основе нового поколения современных методов оценки пространственных эффектов, включая моделирование поведения покупателей, которые сталкиваются с необходимостью принять компромиссное решение (где приобрести товар или услугу хорошего качества, но дешевле), а также поведения фирм, которые максимизируют прибыль, выбирая между большей наценкой на товар или услуги и риском потерять покупателей из-за высокой цены.

- Что представляет собой созданная платформа?

Платформа «СберИндекс» – это «экономическая система в коробке» для сценарного анализа, связанного с потребительскими рынками и торговлей (архитектуру можно посмотреть по ссылке). Решение реализовано как Python-пайплайн c модулями подготовки данных (включая контроль качества), оценивания параметров модели, сценарных расчетов, подготовки отчетов и карт.

Можно выделить несколько ее преимуществ. Во-первых, это воспроизведение моделью наблюдаемых закономерностей в данных, «не видя их». Во-вторых, строгие причинно-следственные оценки вокруг выбранных событий, что дает возможность получать устойчивые, интерпретируемые метрики наценок, прибыли и других параметров на уровне локации радиусом до 200 м. Наконец, быстрое получение результата – настройка модели для нового города требует около пяти часов, после этого типовые сценарные расчеты по городу занимают до пяти минут.

Отмечу валидность результатов и их высокую точность – средневзвешенная абсолютная ошибка (Weighted Mean Absolute Error, wMAE) до 97% для выручки в локации. Это обеспечивается, например, через логику естественного эксперимента открытия новых станций метро в историческом периоде (чистый внешний шок) или плацебо-проверки на случайных датах и территориях. Кроме того, важно отсутствие в «остатках» (необъясняемой части) модели географических, структурных и иных паттернов – то есть модель не пропускает важные систематические факторы.

В отличие от альтернатив, которые оценивают спрос в точке и распределяют его гравитационными моделями, наша платформа измеряет причинный эффект решений и разделяет прирост спроса, его перераспределение и конкурентное давление, что позволяет решать задачи выбора между локациями и проектами.

- На каких данных работает платформа?

В нашем решении обрабатывается 8 млрд нелинейных уравнений на 250 Тбайт данных по 110 млн клиентов и 7 млн торговых точек. Естественно, это происходит в защищенном контуре с принципом обезличивания, обеспечивающим конфиденциальность.

- В чем платформа уникальна?

Мы первыми объединили в пространственном продукте большие данные, структурные модели и оценку причинно-следственных связей. Это позволило оценивать сложные структурные проекты и их последствия в детальных отраслевых и пространственных разрезах. У нашего функционала нет аналогов по качеству, включая передовые зарубежные разработки на больших данных. Также среди преимуществ прозрачность – показываем механизм влияния, адаптированность под конкретные рынки, скорость получения решения и универсальность.

- Какие проекты уже реализуются с использованием платформы?

Наше решение уже используется в задачах, связанных с планированием развития крупных городов России. Мы количественно оценили эффект от планируемого продления МЦД-2 в Московской области от Подольска до Чехова для Единого института пространственного планирования. При этом мы помогли определить, какие торговые точки выиграют, а какие лишатся части клиентов, как трансформируется потребление жителей и каков будет пространственный охват такого эффекта. Например, выяснилось, что влияние ценовых эффектов распространяется вплоть до северных районов Москвы. Полученные результаты помогают настройке градостроительной, земельно-имущественной политики вокруг станций, координации с другими инвестиционными проектами, корректировке генпланов и мастерпланов с учетом прогнозных эффектов строительства станций. Фактически результаты стали основой решений о инвестиционных проектах вблизи станций МЦД для перераспределения потоков маятниковой миграции в Московской агломерации.

Уже готово решение для 10 крупнейших российских городов, обеспечена возможность подключения дополнительных территорий по запросу. В планах мы ориентируемся на оценку 5-10 инфраструктурных проектов и 50-100 бизнес-проектов в месяц, таргетируя долю решений, где платформа позволила предотвратить ошибки выбора альтернатив.

Библиотека сценариев включает выбор локаций для новых торговых точек, оптимальный выбор состава арендаторов для девелоперов, оценка эффектов на торговые точки от повышения НДС.

- Каково значение проекта для отрасли?

Платформа меняет представление о доступных способах объективного ex-ante оценивания городских изменений на больших данных – от инфраструктурных проектов до появления новой торговой точки, обеспечивая переход к отраслевому стандарту доказательности, где причинно-следственный эффект изменения отделяется от сезонности, трендов и других фоновых изменений.

Это особенно значимо, когда мы говорим про эффект от внедрения наших решений. Мы показываем, как изменения в городе реально влияют на людей и бизнес: как меняется доступность услуг, конкуренция и наценки в магазинах, кто выигрывает и кто проигрывает при изменениях (что изменилось, для кого и почему). Для государства это позволяет делать решения более справедливыми и эффективными, а для бизнеса – более прибыльными.

- Куда будет развиваться платформа?

У нас в планах SaaS-платформа для ретейла, ориентированная на стандартные сценарии (из библиотеки) в режиме self-service, индивидуальный подход для сложных инфраструктурных проектов с глубокой кастомизацией и ИИ-агенты для описания результатов и рекомендаций.