Что важно учесть на этапе эксплуатации и сопровождения инфраструктуры для локальной (и не только) ИИ-модели, какие процессы необходимо выстроить, какие компетенции нужно приобрести и какие инструменты внедрить — обо всем этом мы расспросили экспертов, приглашенных к участию в конференции «Цифровая инфраструктура ― 2026».

Резюме статьи

Основная тема: ключевые аспекты эксплуатации и сопровождения инфраструктуры для ИИ-моделей, особенно при их локальном размещении.

Подробности:

  • Основные риски при эксплуатации
  • Критические аспекты сопровождения
  • Ключевые требования к инфраструктуре
  • Необходимые компетенции команды
  • Важные технические моменты
  • Экономические факторы
  • Рекомендации по мониторингу
  • Основные выводы

ИИ-модель требует постоянного внимания

Ряд экспертов, отвечая на наши вопросы, рекомендуют в первую очередь сконцентрироваться на ИИ-модели и ее окружении.

Антон Юдин: «Даже небольшой просчет может обойтись очень дорого, учитывая стоимость ИИ-инфраструктуры»

Антон Юдин, руководитель направления развития технологий ИИ в продуктах «Скала^р» Группы Rubytech, считает важными следующие аспекты: «Во-первых, понимание того, как инфраструктура будет наполняться данными, какая информация требуются для аналитики и потребуется ли дообучение моделей. А оно неизбежно: при появлении нового набора данных, улучшающего процесс, модель нужно адаптировать под новую задачу, поэтому нужно изначально закладывать возможность роста и масштабирования инфраструктуры. Важно фиксировать профили нагрузки для моделей, чтобы точнее планировать развитие и масштабирование с минимальными потерями. Даже небольшой просчет может обойтись очень дорого, учитывая стоимость ИИ-инфраструктуры. Второй момент — безопасность на всех уровнях. Угрозы ИБ могут возникать на любом слое: аппаратном, системном, ПО для запуска моделей и внутри самих моделей, на этапе передачи данных или при взаимодействии с моделями, и т.д. Необходимо учитывать все типы угроз и сценарии, которые появляются с каждым новым ИИ-решением. Третье — необходимость четко описанных процессов и правил выделения ресурсов. Если нет четкого понимания, кто может обращаться к инфраструктуре, кто и как ее сопровождает, на каких правилах это основывается, то возникают серьезные проблемы с эффективностью использования дорогостоящих ресурсов. И если в процессах вокруг эксплуатации инфраструктуры царит хаос, то эффективность снижается еще сильнее».

Александр Подмосковный: «Обязательно необходимо обеспечить отслеживаемость: у каждого ответа нужно фиксировать версию и параметры модели»

Александр Подмосковный, менеджер продукта по направлению машинного обучения и ИИ в Deckhouse компании «Флант», в качестве ключевого принципа выделяет наличие единой и контролируемой точки входа в модель. «Также необходимы единый API, разграничение ролей и прав, система ключей и квот, — продолжает Подмосковный. — Обязательно необходимо обеспечить отслеживаемость: у каждого ответа нужно фиксировать версию и параметры модели — это позволяет воспроизводить результаты, оперативно откатывать назад изменения и корректно разбирать инциденты. Качество работы модели следует контролировать на основе понятных SLO-метрик (задержка, стабильность, доступность) и постоянного мониторинга — это соответствует практикам AI TRiSM и снижает операционные риски».

Вадим Солдатов: «Вполне подходящим вариантом может быть реализация пилотного проекта на арендованном оборудовании с последующим переходом на собственное, если будет принято решение о масштабировании»

По наблюдениям Вадима Солдатова, директора офиса ИИ-продуктов Группы Arenadata, локальное использование языковых моделей требует хорошего понимания механизмов работы и нюансов конфигурирования среды выполнения — управления KV-кешем, батчинга запросов, использования сред инференса, таких как vLLM, и пр.: «Если эти ресурсы есть, то, конечно, можно добиться более высокой гибкости среды для построения ИИ-решений, чем при использовании типовых опций в облаке. Еще одной альтернативой облаку может быть использование настроенных программно-аппаратных комплексов (ПАКов), сконфигурированных поставщиком под конкретные задачи организации. Также некоторые провайдеры предлагают оборудование в аренду с ежедневной или ежемесячной тарификацией, что позволяет гибко управлять нагрузкой. Но это требует и экономических расчетов — как совокупной стоимости владения (TCO), так и коэффициентов загрузки оборудования и энергопотребления. Вполне подходящим вариантом может быть реализация пилотного проекта на арендованном оборудовании с последующим переходом на собственное, если будет принято решение о масштабировании».

Никита Ильин: «Важно четко понимать, какой уровень вычислительных задач требуется для используемой модели»

Никита Ильин, главный архитектор Visiology, добавляет: «Важно четко понимать, какой уровень вычислительных задач требуется для используемой модели. Например, новый модуль Visiology Cortex, который привносит возможности ИИ прямо внутрь платформы и работает “из коробки”, имеет рекомендованный сайзинг в режиме локальной установки. Так, для модели Cortex MAX необходим сервер с четырьмя GPU NVidia H100 (A100), а модель Visiology Cortex PRO подразумевает работу на сервере с одной картой H100 (A100). Очень важно также продумать и другие элементы конфигурации, такие как мощность процессоров, количество ядер и объемы оперативной памяти».

Команда и процессы имеют решающее значение

Немало экспертов особо подчеркивают важность подбора команды с необходимым набором компетенций и выстраивания процессов эксплуатации и сопровождения.

Максим Ковтун: «При обсуждении локального размещения потребуется команда инженеров по машинному обучению, MLOps и DevOps»

«При локальном размещении потребуется команда инженеров по машинному обучению, MLOps и DevOps, — поясняет Максим Ковтун, директор департамента проектирования и разработки IBS. — При использовании развернутой локально и уже обученной модели важно осуществлять мониторинг работоспособности и производительности как программно-аппаратного комплекса, так и самой модели. Необходимо иметь регламент сопровождения и четкий план устранения сбоев. В случае применения переобученной модели потребуется выстроить процессы MLOps: версионирование моделей и кода, организацию потока данных для переобучения и т.д.»

Илья Маршаков: «Нужно четко понимать требования к производительности и “уровню интеллекта” модели»

Илья Маршаков, руководитель развития бизнеса Kolmogorov в компании Data Sapience, считает необходимым обратить внимание на зоны ответственности между ролями внутри команды, а также на возможности мониторинга системы, включая показатели загрузки ресурсов и соблюдение SLA по скорости ответа. «Также нужно четко понимать требования к производительности и “уровню интеллекта” модели для конкретного кейса, так как далеко не каждая задача требует моделей максимального размера», — добавляет Маршаков.

Дмитрий Васильев: «Критически важно организовать оркестрацию вычислительных ресурсов и обеспечить надежный мониторинг оборудования»

Дмитрий Васильев, менеджер по продуктам направления ИИ компании «Онланта», акцентирует внимание на том, что эксплуатация собственной локальной ИИ-инфраструктуры — это непрерывный процесс, выходящий далеко за рамки обслуживания серверного оборудования: «Необходимо выстроить и сопровождать инфраструктуру: обеспечить охлаждение, питание, сеть с высокой пропускной способностью, мониторинг ресурсов, управление загрузкой и обновлениями. В противном случае локальная платформа быстро устареет, будет простаивать или требовать постоянных вложений. Кроме того, требуется внедрение полноценной практики MLOps, включая версионирование не только кода, но и данных с моделями, а также постоянный мониторинг их производительности на предмет “дрейфа”. Критически важно организовать оркестрацию вычислительных ресурсов с помощью инструментов вроде Kubernetes и обеспечить надежный мониторинг самого оборудования — от загрузки GPU до систем охлаждения. Все это требует наличия редкой и дорогой команды, объединяющей специалистов по Data Science, MLOps и низкоуровневой ИТ-инфраструктуре».

Краеугольный аспект — экономика сопровождения

Авенир Воронов: «ИИ-инфраструктура требует точного расчета стоимости оборудования, поддержки и операционных затрат с учетом стоимости бизнес-процессов»

На хитросплетение экономических вопросов, касающихся инфраструктуры для ИИ-моделей, обратил особое внимание Авенир Воронов, руководитель лаборатории инноваций «ДАР» (ГК «КОРУС Консалтинг»): «ИИ-инфраструктура требует точного расчета стоимости оборудования, поддержки и операционных затрат с учетом стоимости бизнес-процессов, участвующих в ИИ-трансформации. Производственные процессы меняются, появляются новые методы работы с данными, при этом стоимость токенов моделей становится значимой величиной в экономике компаний. Также важно помнить об обеспечении устойчивости и безопасности — это достаточно сложная задача. Надо учитывать и то, что Россия — самая протяженная страна с разницей в 11 часовых поясов и крайне неравномерным расселением населения, что усложняет логистику, в том числе цифровых данных, и влияет на скорость и стабильность каналов связи. Сигнал от Москвы до Владивостока не пролетает мгновенно, а в масштабах данных задержка только накапливается, поэтому нужно размещать дата-центров ближе к потребителю, перераспределять точки обсчета, придумывать схемы кэширования в регионах. Также следует учитывать различные режимы работы электроснабжения и необходимые объемы электроэнергии в разных регионах, продумывать подходы к безопасности данных. Там, где связь нестабильна, потребуются гибридные и периферийные решения для локальной обработки данных. Геополитические изменения вынуждают к частичной миграции дата-центров из западной части России в Уральский и Сибирский регионы — это тоже необходимо принять во внимание. Также стоит учитывать расположение центров экспертизы и разработки ИИ. Все эти особенности раньше были актуальны для отдельных отраслей — мобильных операторов, логистических компаний, финтехов или федерального ретейла. С приходом ИИ потоки увеличились, и подобные задачи начинают затрагивать все больше отраслей и сфер бизнеса».

Ключевой инструмент — мониторинг

О необходимости мониторинга ИИ-инфрастурктуры заявляют многие эксперты, отмечая, впрочем, и иные факторы.

Владимир Кравцев: «Инфраструктура для ИИ — это система, требующая постоянного контроля»

В частности, Владимир Кравцев, эксперт в области генеративного ИИ и продвинутой аналитики компании Axenix, отмечает, что инфраструктура для ИИ — это система, требующая постоянного контроля: «Ключевое здесь — непрерывный мониторинг. Во-первых, мониторинг производительности самой инфраструктуры: загрузки GPU, использования памяти, скорости ответа — эти измерения позволяют убедиться в исправности системы. Во-вторых, мониторинг качества работы самой модели — ведь она может, например, не учесть какой-то новый тренд, а между тем, без постоянного обновления данных и отслеживания бизнес-метрик растет риск принятия неверных решений, причинами которых будут неактуальные данные и основанные на них некорректные выводы ИИ. При этом ситуация может усугубляться галлюцинациями ИИ-моделей».

Александр Ефимов: «Критически важно контролировать температуру GPU — отмечены неединичные случаи выхода из строя видеокарт из-за перегрева»

Александр Ефимов, директор практики искусственного интеллекта и машинного обучения в компании GlowByte, рекомендует обращать внимание на четыре ключевых аспекта: «Во-первых, на мониторинг: критически важно контролировать температуру GPU — отмечены неединичные случаи выхода из строя видеокарт из-за перегрева. Также рекомендую следить за метриками самих моделей, в частности, временем отклика, скоростью ответа, очередью запросов к моделям и т.д. — эти показатели помогут вовремя выявить рост нагрузки и расширить инфраструктуру, а заодно проанализировать, насколько разумно используются модели для конкретных задач. По моим наблюдениям, для многих задач достаточно вполне скромных квантованных моделей. Второй аспект — безопасность. Угрозы ИБ при локальном размещении модели исходят изнутри, а последствия утечки данных могут быть еще серьезнее, так как модель обучена на реальных данных. Предотвратить их поможет настройка Guardrails — легковесных моделей-классификаторов, проверяющих ответы основной LLM на предмет раскрытия секретов и следования корпоративным правилам, чтобы, например, кто-нибудь из сотрудников не извлек через промпт коммерческую тайну или персональные данные коллег и не слил их в общий чат. Третий аспект — внедрение LLMOps-практик. LLMOps — это, по сути, автоматизированный фреймворк, обеспечивающий непрерывный мониторинг качества ответов и контроль галлюцинаций моделей, фиксацию в системном журнале всех запросов к модели, фильтрацию нежелательной или конфиденциальной информации, стандартизацию процессов разработки и эксплуатации агентов и приложений. В конечном итоге внедрение LLMOps позволит реализовать в компании фабрику разработки агентов и приложений. И четвертый аспект — резервное копирование конфигураций. Поскольку локальная конфигурация зачастую используется для задач интеллектуального поиска по коллекции внутренних документов или дообучения моделей на специфичных данных, то в первую очередь следует обеспечить резервное копирование векторной базы данных и весов дообученных моделей — именно они уникальны и являются вашей интеллектуальной собственностью, остальное можно всегда скачать заново».

Антон Прокошин: «Когда инфраструктура запущена в эксплуатацию, основное внимание нужно уделить надежности, мониторингу и обновлению»

Антон Прокошин, руководитель направления «Пресейл» центра «Инфраструктура» компании «ЛАНИТ-Интеграция», продолжает: «Когда инфраструктура запущена в эксплуатацию, основное внимание нужно уделить надежности, мониторингу и обновлению. В частности, нужно отслеживать использование процессоров и графических карт, температуру оборудования, задержки в работе, качество ответов модели. Кроме того, важно иметь тестовый контур и регламент обновлений, поскольку драйверы, библиотеки и версии фреймворков быстро меняются, и их приходится обновлять. Разумеется, нужно предусмотреть резервное копирование копии данных и моделей, а также планы восстановления при сбоях. Конечно, нельзя забывать о безопасности — разграничении доступа, контроле действий администраторов, шифровании данных, аудите. Также нужно держать во внимании экономику эксплуатации, в частности, постоянно анализировать загрузку оборудования, и если GPU простаивают, перераспределять задачи. Наконец, необходима команда — специалисты по MLOps, системные инженеры, специалисты по ИБ, либо нужно привлечь к сопровождению крутого интегратора с сильной командой».

Таким образом, эксплуатация и сопровождение инфраструктуры для ИИ-моделей подразумевают пристальное внимание к широкому спектру аспектов — экономических, организационных и технических. Невнимание к ним может обойтись владельцам ИИ-моделей весьма дорого — и в прямом, и в переносном смысле, сводя к нулю серьезные усилия и инвестиции по встраиванию искусственного интеллекта в бизнес и извлечению выгоды из его применения.