Поставщик канцелярских и офисных товаров «Комус» создал единый каталог на базе решения Arenadata Catalog, в котором отражены все накопленные активы, связанные с данными. У аналитиков компании появилась актуальная информация о данных, их текущем статусе и проводимых изменениях. О реализации проекта рассказывает Павел Мартынов, руководитель службы развития BI компании «Комус» и номинант на премию Data Award.
- Что привело компанию к реализации этого проекта?
Компания «Комус» создала централизованное хранилище данных более 25 лет назад, и с тех пор в компании началась история развития аналитики. За эти годы было создано множество витрин, процедур загрузки данных и отчетных форм. В 2024 году стало понятно, что разобраться со всем этим объемом вручную становится невозможно. Со стороны бизнеса возникало все больше вопросов в духе «Какие данные у нас есть в хранилище?», «Какие отчеты актуальны, а какие нет?», «Строятся ли отчеты на актуальных данных?» и пр. Для решения этой проблемы было решено внедрять каталог данных на базе решения Arenadata Catalog.
- Почему эта задача была важна для компании?
Получение актуальных данных – важная задача. Однако не менее важно понимание, какие вообще данные есть в компании и как их можно использовать. Ответы на все эти вопросы позволяют аналитическим службам быстрее реагировать на запросы сотрудников на получение актуальной информации. Также в нашей компании был взят курс на развитие self-service в части получения данных. В этом случае для аналитиков бизнес-дирекций становится важным не только получение актуальной информации, но и своевременное информирование о проводимых изменениях, в структурах хранения данных.
- Как подошли к реализации проекта?
В начале проекта рассматривалось сразу несколько подходов к внедрению, но в итоге был выбран подход по итеративному развитию нового продукта. В начале проекта не формировалось единое техническое задание, а было сформировано общее видение конечного продукта. Далее проект был разбит на независимые спринты протяженностью в один месяц, в рамках которых формировались отдельные гипотезы и задачи, которые выполнялись командой. В конце спринта проводился анализ результата и формирование нового бэклога задач. Главной особенностью было то, что в спринт бралось верхнеуровневое описание, и уже в проекте мы отрабатывали гипотезы, проводили подробную проработку с созданием ТЗ и реализацией. Задачей команды было сформулировать требования, чтобы реализация полностью укладывалась в один спринт.
По итогу мы получили работоспособный продукт за четыре месяца, полностью уложившись в бюджет проекта. Да, по итогу реализованный результат отличался от первоначального видения, но полностью выполнял все верхнеуровневые требования. Также в проекте не проводились никакие доработки самого продукта, то есть подход был в том, что мы используем каталог данных так, как это предполагалось вендором, а доработки касались только процедур сбора метаданных из аналитических систем.
- Какие требования предъявлялись к создаваемому решению?
Во-первых, вся информация в каталоге данных должна собираться из внешних систем автоматически. Во-вторых, ведение данных в каталоге вручную должно быть минимизировано. В-третьих, доработка интерфейса системы не предполагается. И, наконец, каталог данных должен стать основной точкой правды по аналитическим системам.
- Как выбиралась платформа для реализации?
В рамках предварительного этапа проводился выбор целевой платформы. Нам было важно, чтобы вендор официально работал на рынке России, имел подрядчиков с экспертизой по продукту, а также гарантировал совместимость решения с нашими аналитическими системами. По всем этим критериям было выбрано решение Arenadata Catalog.
- Что стало целью проекта?
Целью проекта стало создание единой точки описания всех аналитических продуктов компании, таких как витрины данных, отчеты, процедуры, загрузки, метрики и показатели. Было важно создать систему, которая отображала всю метаинформацию, автоматически собираемую из аналитических систем.
Созданная платформа охватывает все аналитические хранилища данных компании и основные системы визуализации. В рамках платформы внедрены только отображения таблиц, представления, отчетов и процедур. Вопросы, связанные с качеством данных, были вынесены за рамки текущего проекта.
- Где возникали основные проблемы?
Максимальную сложность в рамках проекта составляли два вопроса: создание полноценной карты связи данных (data lineage) и формирование единого глоссария показателей.
В рамках создания data lineage прорабатывался полностью автоматический подход к формированию взаимосвязи всех полей и таблиц во всех аналитических системах, с указанием, как происходит преобразование данных. Для решения данной задачи была составлена подробная карта всех инструментов преобразования. В рамках проработки было выявлено 15 различных технологий преобразования данных, используемых в аналитических системах, и для каждой из них была создана своя процедура получения связи данных. Далее эти связи на постоянной основе загружаются в дата-каталог для отображения карты в графическом режиме.
В рамках задачи создания глоссария показателей была предпринята попытка формирования единого бизнес-глоссария компании – в автоматическом режиме на основе реверс-инжиниринга основных отчетных форм. В итоге данный подход был признан невозможным к реализации, и мы создали единый глоссарий всех технических показателей, используемых во всех отчетах компании с указанием того, из каких таблиц формируются эти показатели и по каким алгоритмам.
- Кто является пользователями аналитической платформы?
Основными пользователями данной платформы являются бизнес- и системные аналитики компании «Комус», которые занимаются созданием отчетности в компании. На текущий момент их около 100 человек.
- Какие результаты достигнуты?
В целом, был достигнут хороший результат по созданию единого централизованного описания аналитических систем компании. Сейчас группа поддержки занимается отслеживанием правильности загрузки и отображения данных в дата-каталоге, а также популяризацией данной платформы среди бизнес-аналитиков компании.
Важно, что удалось автоматизировать сбор метаинформации по аналитическим системам. 99% информации появляется в каталоге в автоматическом режиме и обновляется на ежедневной основе.
- Какую роль играет проект для бизнеса компании?
Данный проект играет вспомогательную роль для бизнес-подразделений, позволяя отслеживать, какие данные есть в компании и какие изменения вносятся в системы. На основе этого аналитические отделы бизнес-подразделений могут формировать наиболее актуальную аналитику по работе компании.
- Каковы основные направления развития проекта?
В рамках дальнейшего развития рассматриваются сразу несколько направлений. Актуальны вопросы, связанные с качеством данных, ведением бизнес-требований и технических заданий на изменения в рамках каталога данных. Это даст возможность формирования карт развития аналитических объектов. Ну и, наконец, прорабатываем механизмы автоматического формирования описания – витрин, процедур загрузки и отчетов.