В условиях, когда компания ежедневно обрабатывает значительные объемы разнородной информации, эффективное управление данными становится ключевым фактором успешного ведения бизнеса. Группа «Самолет» создала собственную комплексную платформу данных. Она стала полноценным решением для работы с большими данными, которое выстроено на современном стеке технологий open source и собственных разработках. Ее использование позволяет повышать точность прогнозов, оптимизировать процессы и улучшать качество предоставляемых услуг. Главными компонентами решения стали аналитическая платформа LakeHouse, платформа качества данных, платформа ИИ, сервис НСИ и сервис BI, интегрированные в единую цифровую экосистему. О создании платформы и ее значении для бизнеса компании рассказывает Ольга Свитнева, CDO компании «Самолет» и номинант на премию Data Award.

- Что представляла инфраструктура для работы с данными до построения новой платформы?

До создания новой платформы инфраструктура данных в компании «Самолет» опиралась на монолитную инфраструктуру, построенную вокруг классического стека Hadoop. Основу системы составляла распределенная файловая система HDFS, развернутая на арендованных серверах облака без использования абстракций и виртуализации. Эта архитектура ориентировалась преимущественно на хранение неструктурированных и полуструктурированных данных, а также выполнение пакетных операций через такие фреймворки, как Spark.

Однако с ростом требований к гибкости и скорости, архитектура на базе Hadoop начала демонстрировать свою архаичность по причине наличия ряда таких проблем, как жесткая привязка к специфичному оборудованию, сложность управления кластером, проблема работы с мелкими файлами, отсутствие встроенного механизма версионирования и пр. Таким образом, переход на современные S3-совместимые решения стал логичным развитием направления, и впоследствии мы создали комплексную платформу данных, объединив сервисы по работе с данными в единую экосистему.

- Почему было принято решение о создании новой платформы данных?

Объем данных растет экспоненциально, при этом данные как актив лежат в основе стратегических решений компаний. Бизнес становится все более цифровым, качество обслуживания клиентов повышается, и это требует соответствующей архитектуры и технологий.

Решение о разработке новой платформы было продиктовано комплексом факторов. Во-первых, устаревшая инфраструктура стала экономически невыгодной: аренда облачных мощностей существенно увеличивала стоимость владения. Во-вторых, технологические ограничения предыдущей архитектуры не позволяли реализовать гибридные сценарии работы с данными, такие как совмещение аналитики, машинного обучения и транзакционных операций, что критично для современных бизнес-процессов. В-третьих, переход на Kubernetes и MinIO S3 дал возможность оптимально использовать доступные ресурсы и позволил отойти от ручных процессов управления кластером.

На момент принятия решения о переходе мы зафиксировали следующие технологические ограничения предыдущего решения: старые дистрибутивы Hadoop (Hortonworks конца 2019 года) и как следствие дыры в безопасности; прекращение поддержки ОС CentOS 7 с июня 2024 года, которая необходима для работы текущей версии Hadoop; отсутствие виртуализации; неоптимальное размещение сервисов по серверам; нерациональность использования HDFS. Наконец, неймноды Hadoop не могли поддерживать более 300 млн блоков, то есть при мелких файлах решение стало тупиковым.

Поэтому мы сделали выбор в пользу развивающихся и актуальных технологий. В частности, это использование S3, где отсутствует проблема хранения мелких файлов. Другое преимущество новой архитектуры – отсутствие необходимости в управляющих нодах, что позволяет более эффективно расходовать ресурсы.

Разработка платформы данных позволила компании не только решить перечисленные проблемы, но и стала основой для data-driven культуры, где скорость принятия решений и качество услуг вышли на новый уровень.

- Что представляет собой концепция созданной платформы данных?

Это экосистема сервисов для полного цикла работы с данными от их сбора и обработки до применения в бизнесе (data fusion + data governance). Модули платформы и их назначение показаны на схеме.

«Самолет»: как данные сделать активом

- Почему выбрана архитектура LakeHouse?

Это самое своевременное поколение архитектур. Оно сочетает достоинства классических корпоративных хранилищ с гибкостью озер данных и дает возможность как обслуживать разнообразные запросы к готовым витринам, так и работать с качественными очищенными данными в озере. Это существенно расширяет применение платформы и позволяет оптимизировать процессы загрузки, обработки, очистки и описания данных. Значимым техническим преимуществом этой концепции является то, что уровни хранения и вычислений изолированы, а значит мы можем масштабировать их независимо друг от друга. Это облегчает масштабирование.

Немаловажным аспектом для «Самолета» также является возможность обрабатывать многообразие различных типов данных, включая изображения, видео, аудио, JSON-структуры и текст.

Наконец, архитектура LakeHouse позволяет поддерживать различные рабочие нагрузки: от алгоритмов машинного обучения до SQL-запросов и распределенных вычислений. Они требуют разных технологий реализации, но все полагаются на единый репозиторий, что позволяет нам обеспечивать единую версию правды данных. Таким образом, концепция LakeHouse отлично коррелирует с идеями цифровой трансформации, которые мы применяем в компании.

На данный момент в контур аналитической платформы подключено более 170 мастер-систем и источников данных, мы обеспечиваем поддержку десятков тысяч объектов и предоставляем 300 широких кросс-системных витрин в ClickHouse.

- Почему работы проводили своими силами, создавая платформу с нуля?

Многие компании предпочитают готовые проприетарные решения, но мы сделали выбор в пользу независимости и гибкости, что особенно важно в условиях динамично меняющейся ситуации на рынке. Наш подход позволил создать современную платформу с полным циклом обслуживания данных, которая позволяет не только собирать и обрабатывать данные, но и реализует процессы data governance.

Платформа в основе имеет инфраструктуру как код, при этом все компоненты платформы реализованы на стеке open source, либо являются внутренней разработкой дирекции данных. Она обеспечивает кросс-системную интеграцию данных более чем из 170 различных мастер-систем и источников. При этом следует отметить, что в ландшафт решения заложены различные инструменты, позволяющие не только накапливать данные, но и что намного важнее – создавать стратегию управления данными и эффективно применять их в бизнесе. Например, мы обеспечиваем централизацию и ведение ключевых справочников, и их интеграцию в бизнес-процессы компании, при этом обеспечивая согласованность, безопасность и качество данных, управляем ключевыми метаданными и в конечном итоге тиражируем справочники в различные бизнес-системы.

- На каких платформах реализовано решение?

Технологический стек платформы включает в себя множество разнообразных компонентов и сервисов. Мы использовали абстракцию над инфраструктурой в виде Kubernetes, внутри которой развернули сервисы по работе с данными: Kafka, Debezium, MiniO S3, ClickHouse, Airflow, PostgreSQL, DataHub, ML Flow, Jupiter Hub и прочие. Архитектура платформы спроектирована таким образом, чтобы создать максимальную отказоустойчивость и гибкость масштабирования в условиях высокой динамики роста объема данных в компании.

Вся платформа развернута и работает на серверной инфраструктуре в собственном дата-центре группы «Самолет», что позволяет полностью соответствовать требованиям безопасности и производительности.

Архитектуру и схему потоков данных аналитической платформы можно посмотреть на схеме.

- Какое внимание уделяется качеству данных?

В условиях современного бизнеса, где данные становятся стратегическим активом, их качество играет решающую роль в успехе организации. Ошибки и неточности в данных могут привести к неверным решениям, потере времени и ресурсов, а также подорвать доверие клиентов. Мы создали платформу для контроля качества данных, которая автоматизирует проверку данных, обеспечивая точность, целостность и актуальность информации. Ее цель – дать бизнесу сосредоточиться на принятии важных решений, зная, что данные надежны и проверены.

- Что для этого реализовано?

Можно выделить несколько основных возможностей платформы качества данных. Во-первых, это автоматизация проверок данных: платформа позволяет настраивать и запускать как стандартные, так и персонализированные проверки, что помогает точно и эффективно контролировать качество информации. Это существенно сокращает время на ручные операции и минимизирует человеческий фактор. Платформа способна работать с большими объемами данных в LakeHouse, проверяя их на соответствие ключевым метрикам качества, таким как полнота, точность, согласованность, валидность, своевременность и целостность.

Во-вторых, гибкость параметризации запросов. Пользователи могут легко настраивать запросы под собственные задачи, подставлять различные значения в параметры запроса, что позволяет повторно использовать один и тот же тест с разными входными данными. Реализован запуск тестов по расписанию. Автоматизация запуска тестов по заранее установленному расписанию позволяет мониторить качество данных без постоянного вмешательства. Результаты тестов регулярно обновляются, поэтому мы всегда в курсе состояния данных.

Наконец, агрегация и визуализация результатов: результаты тестов собираются в удобном формате, который агрегируется в единый дашборд. На основе этих данных формируется отчетность, которая позволяет отслеживать уровень качества данных и быстро реагировать на проблемы.

- Какие метрики используются для оценки качества данных?

Мы учитываем все ключевые метрики, которые важны для контроля качества данных. Своевременность – оценка актуальности данных, то есть того, насколько информация в базе данных соответствует текущему состоянию вещей. Целостность – проверка данных на потерю и искажения в процессе передачи и хранения. Полнота – оценка того, насколько данные полны и содержат всю необходимую информацию для принятия решений. Точность – проверка данных на соответствие реальному миру или ожидаемым стандартам. Согласованность – оценка того, насколько данные не противоречат друг другу и различным источникам. Валидность – проверка соответствия данных заданным форматам или правилам.

- Приведите несколько примеров.

Платформа для контроля качества данных в LakeHouse может выявить несколько типов кейсов на различных этапах жизненного цикла данных. Они касаются как технических проблем, так и бизнес-рисков, связанных с некорректными или неполными данными.

Например, на этапе сбора данных можно столкнуться с недостаточной полнотой данных или ошибками в них. Платформа может выявить, что данные были собраны не полностью или отсутствуют важные записи, и это критично для поддержания полноты информации. Если в системе финансовых транзакций отсутствуют записи о некоторых операциях, это может привести к недостоверному отчету о доходах.

Могут возникать проблемы на этапе хранения данных, в том числе нарушение их целостности. Платформа может выявить случаи потери или повреждения данных при их хранении, например, если данные о транзакциях были частично утеряны из-за сбоя в процессе записи в хранилище, и теперь записи неполные или искаженные.

Возможны проблемы на этапе обработки – нарушение согласованности данных, когда данные не согласуются между различными источниками, или ошибки при вычислениях из-за некорректных формул или невалидных значений в исходных данных. Платформа проверяет, чтобы все данные соответствовали логическим правилам – например, чтобы значения в числовых полях не выходили за допустимые пределы или не содержали абсурдных значений.

На этапе передачи и обмена данными возможны проблемы со своевременностью данных или ошибки при интеграции с внешними системами. Платформа отслеживает актуальность данных и может предупреждать, если информация в системе устарела или не поступила вовремя, что влияет на точность анализа. Скажем, если данные о продажах поступают с опозданием, это приводит к рассогласованию информации о текущем уровне запасов и заказах на пополнение.

Наконец, пример проблемы на этапе анализа данных – ошибки в генерации витрин (точность, согласованность, валидность). Платформа проверяет корректность итоговых витрин и их соответствие действительности, включая правила округления, агрегации и пересчета.

- Каков масштаб решения? Объем данных, количество пользователей и тому подобные метрики.

Платформа данных «Самолета» – это комплексное решение для управление полным жизненным циклом данных. Пользователями платформы данных являются фактически все сотрудники ГК «Самолет». Количество пользователей платформы в единицу времени достигает 1 тыс. сотрудников.

В цифрах результаты платформы можно представить в виде следующих показателей.

«Самолет»: как данные сделать активом

«Самолет»: как данные сделать активом

«Самолет»: как данные сделать активом

«Самолет»: как данные сделать активом

«Самолет»: как данные сделать активом

- Как обеспечивали принятие системы пользователями?

Одним из важных аспектов вовлечения бизнес-пользователей является создание культуры по работе с данными внутри компании и обеспечение простого и удобного доступа к данным. Для реализации данной цели мы применяем, например, такой инструмент как каталог данных, в котором по каждому бизнес-домену можно найти описание не только всех витрин данных, но и каждого атрибута на уровне озера данных. Внедрение корпоративного бизнес-глоссария позволяет нам применять единую согласованную методологию по терминам и расчетам, что обеспечивает для всех участников бизнеса единую трактовку метрик и показателей.

Дополнительный сервис для наших пользователей – это реализация песочниц для проверки гипотез и прототипирования, что повышает качество постановки задач на разработку. Также есть сервис по доступу к данным не только в витрины или к BI-отчетам, но и непосредственно к озеру на уровень очищенных данных.

То есть наш подход отличает клиентоориентированность и привлечение бизнеса не только в цепочку потребления данных, но и их обогащения. Это важно, чтобы превратить данные в управляемый актив – доступный, устойчивый и ликвидный.

- Какие результаты достигнуты и ожидаются?

«Самолет» заинтересован в монетизации данных и эффективно применяет концепцию LakeHouse. Практически все сотрудники компании являются потребителями платформы данных, поскольку платформа не только обеспечивает отчетность и модели ИИ, но и внедряется в бизнес-процессы компании и является неотъемлемым звеном бизнес-функций.

Применение платформы данных как комплексной цифровой экосистемы позволило повысить внутреннюю экспертизу и достигнуть существенной экономии на затратной части как на хранение данных, так и на их обработку. Например, оптимизация хранения данных позволила сжать данные в шесть раз и сэкономить порядка 60 млн руб. в 2024 году только на ресурсах хранилища. Управление нагрузкой в Kubernetes позволяет экономично распределять мощности под сервисы и выделять их под различные задачи в зависимости от потребности. Полный переезд инфраструктуры из облака в собственные ЦОДы также существенно снизил совокупную стоимость владения данными.

- А что стало с качеством данных, и как это повлияло на бизнес?

Мы существенно повысили качество данных за счет внедрения платформы данных, обеспечив показатель качества в 2024 году 97%. Прежний показатель качества данных составлял лишь 75%, то есть не все сценарии проверки данных были обработаны и автоматизированы, корректировки данных вносились с задержкой. На текущий момент абсолютно все подключенные источники и реализованные витрины содержат проверки качества.

Мы можем отнести 97% к высокому показателю, который гарантирует, что данные корректны и готовы к использованию. Поскольку он означает, что данные своевременно проверяются автотестами, корректируются, а также хорошо настроен инцидент-менеджмент, позволяющий своевременно учитывать изменения правил и форматов данных.

Достичь 100% качества данных в промышленных масштабах при большом числе интеграций на практике невозможно. Причина этому человеческий фактор (ошибки ввода данных в мастер-системах); ошибки во внешних источниках, на которые невозможно повлиять; задержки обновления и ошибки при миграции данных; временной лаг на исправление данных.

Среди наиболее значимых эффектов использования платформы качества можно выделить несколько. Помимо непосредственно точности данных и минимизации ошибок, достигаемых за счет автоматизированных проверок, это значительная экономия времени. Автоматизация тестирования данных существенно сокращает время на выполнение рутинных задач и освобождает ресурсы для более сложных операций. Кроме того, мы достигаем снижения операционных рисков: регулярный контроль качества данных помогает оперативно выявлять и устранять проблемы, связанные с несоответствием или потерей данных. Наблюдается и улучшение процессов принятия решений. Качественные и проверенные данные становятся основой для стратегических решений и предотвращают ошибки, которые могут возникнуть из-за недостоверной информации. Наконец, добиваемся снижение затрат на исправление ошибок. Выявление проблем с данными на ранних стадиях позволяет снизить стоимость исправлений и избежать крупных последствий.

- В чем роль проекта платформы данных для бизнеса компании?

Использование платформы данных (включает платформу LakeHouse, платформу качества данных, платформу ИИ, сервис НСИ, сервис BI) предоставляет возможность осуществлять эффективную аналитику, внедрять в рабочие процессы искусственный интеллект, применять современные подходы в промышленной эксплуатации. Это, в свою очередь, позволяет строить прогнозы, своевременно менять стратегии продвижения, повышать уровень обслуживания клиентов и качество оказываемых компанией услуг. Практически все бизнес-процессы компании заточены под использование актива данных, который является продуктом платформы.

- В каком направлении будет развиваться платформа данных?

В 2025 году со стороны технологического аспекта мы планируем развивать платформу Качества данных и платформу ИИ. Также у нас есть большой набор бизнес-инициатив, для реализации которых потребуется доработка MDM-системы и выстраивание дополнительных процессов Data Governance.

В конце 2024 года мы приобрели новый BI-продукт в рамках импортозамещения – Visiology, наша задача внедрить его и адаптировать бизнес к его применению. При этом большую ставку мы делаем на возможности self-service данного решения.

Генеративный ИИ на службе у бизнеса

- Вы упомянули платформу ИИ в составе созданного решения…

Да, мы активно развиваем и применяем на практике ИИ, поэтому среди использованных решений есть компоненты, заточенные на обслуживание потребностей data science и продуктивизацию машинного обучения.

Платформа ИИ обеспечивает решение нескольких задач. Она упрощает процесс разработки и исполнения обученных моделей, позволяет оптимизировать затраты за счет распределения вычислительных ресурсов между командами, инструментами и заданиями по обучению ИИ-моделей, а также исполняемыми ИИ-моделями, и предоставляет единую входную точку для бизнес-пользователей, дата-сайентистов и МL-инженеров.

Мы внедряем ИИ, в том числе большие языковые модели, как для решения бизнес-задач, так и для оптимизации внутренних процессов дирекции. Применение LLM и различных моделей нашло отражение как в повышении эффективности рабочих процессов, так и в ускорении этапов строительства.

- Расскажите о вашем опыте применения генеративного ИИ.

Один из показательных примеров – сравнение версий рабочей документации. Проблема очевидна и очень актуальна для нас: рабочая документация (РД) – это большой документ, в котором содержится вся информация об объекте, и как его строить. Этот документ итеративно обновляется, выпускаются новые версии. О выпуске новой версии оповещается вся проектная команда. Но понять, что именно изменилось в РД – задача непростая, поскольку изменения могут касаться лишь нескольких листов из сотни.

Для решения задачи использовались OCR и Real-Time Detection Transformer (RT-DETR). На вход разработанной модели подается два документа, и происходит их постраничное сравнение. По каждой странице новой версии алгоритм выдает четыре значения: нет изменений; страница удалена; страница добавлена; страница изменена (и детектор областей с изменениями). Финансовый эффект от внедрения этого решения составляет 30 млн руб. в месяц. Нефинансовый эффект – повышение скорости чтения документации.

Еще одно созданное решение – «Виртуальный координатор», направленный на задачу взаимодействия с проектировщиками. Проектировщики – весьма массовая специальность в «Самолете», их численность составляет около 2 тыс. человек. В рамках работы у них часто возникают вопросы, и раньше они их направляли в Jira на специалистов-координаторов. Поток обращений был большой, и координаторы часто не справлялись. Росло время ожидания ответа на заявку, что оказывало влияние на производительность проектировщиков.

Выходом из ситуации стал чат-бот на основе генеративных моделей open source с использованием подхода Retrieval Augmented Generation (RAG), позволяющего добавлять к исходному запросу контекст. В результате чат-бот формирует ответы на основании внутренней базы знаний. Финансовый эффект от его внедрения составляет 70 млн руб в месяц, а получаемый рост скорости проектирования – критически важный показатель строительной компании.

- Что дает наиболее заметный финансовый эффект?

Например, нами реализован прогноз дефолта подрядчика. У компании большой пул проектов, и все работы в них проводят подрядные организации. Причем практика показывает, что 20% работ не завершаются так, как планировали: в ряде случае подрядчик не справляется с законтрактованным объемом работ. Работая с этим постфактум, компания несет большие издержки – мы получаем простой на время поиска замены подрядчика. Чтобы снизить вероятность такого события, мы создали модель бинарной классификации, прогнозирующей наличие дефолта у подрядчика на горизонте 1-3 месяца.

Наиболее трудоемким и полезным этапом здесь является сбор и подготовка данных. В модель добавлены агрегаты из более чем 20 внутренних источников (вывод боевой численности, заявки на оплаты, штрафы подрядчика и т.п.), а также данные из внешних источников. Полученная метрика скоринговых моделей – коэффициент Джини 67%.

Мы получили значительное снижение рисков, применение модели позволило снизить количество остановок работ в 2,5 раза. Финансовый эффект от использования решения оценивается в 230 млн руб. в месяц.

- Как применяются LLM внутри дирекции данных?

Очень важной задачей стала автоматизация такого рутинного процесса, как описание атрибутов в озере данных. Строгое требование нашего озера – обязательное описание всех загруженных в него атрибутов. Но мастер-системы не содержат и половины необходимых описаний. Аналитики тратили большую часть своих сил на подготовку описаний, и это сказывалось на сроках подключения новых данных и в конечном итоге на скорости создания решений.

На вход языковой модели мы подаем название атрибутов в мастер-системе и описание предметной области. При этом сами данные не передаем, чтобы не возникал вопрос безопасности. На выходе получаем качественное описание каждого атрибута.

Поскольку под каждую интеграцию необходимо создать описание для десятков тысяч атрибутов, то влияние на процессы разработки колоссально – 85%. Качество описания атрибутов также повысилось.

На текущий момент доля описаний, сформированных генеративным ИИ, составляет 80% (числитель – сумма источников с использованным ИИ для описания, умноженных на коэффициент их объема – количества таблиц, а знаменатель – сумма всех интегрированных источников).

- Каковы ближайшие планы по использованию генеративного ИИ?

Внедрение ИИ-решений на базе LLM — это реальный инструмент повышения экономической эффективности, поэтому мы сейчас собираем бизнес-кейсы и оцениваем возможные выгоды. Генеративный ИИ применим к широкому спектру задач: анализ диалогов с клиентами, обнаружение аномалий качества данных, управление рисками, генерация документации и др.

Так, в 2025 году мы планируем запустить в использование модель ведомости объема работ. Данная модель призвана существенно упростить и ускорить процесс создания ведомостей объемов работ в сметном центре. Модель предсказывает необходимые материалы и виды работ для новых проектов, при этом виды работ классифицируются через LLM, а материалы – посредством metric learning. Это позволяет сократить ручной ввод позиций при номенклатурах более 100 тыс. единиц и минимизирует ошибки, связанные с человеческим фактором. Ожидаемый эффект от применения модели – ускорение составление ведомостей объемов работ и расчетно-сметной стоимости на 20%.

Компании в строительном бизнесе часто несут убытки из-за срыва сроков строительства или перерасхода бюджета. Поэтому очень актуально прогнозирование потенциальных рисков на ранних стадиях этапов проекта. Для этого можно использовать модели, анализирующие прошлые проекты и позволяющие выявить ряд закономерностей, показывающих непосредственное влияние на возникновение рисков. Подобные модели позволят спрогнозировать превышение бюджетов и т.п. Эффект от внедрения может достигать 10% экономии средств за счет превентивного управления рисками (снижение убытков), поэтому мы также будем рассматривать подобные кейсы в 2025 году.