Инфраструктура управления данными для систем с искусственным интеллектом

Системы, использующие искусственный интеллект, сегодня внедряют многие средние и крупные организации. Логично предположить, что для успешного обучения, применения, дообучения и развития систем на базе ИИ может потребоваться определенный фундамент. О том, какая инфраструктура данных требуется ИИ-системам, внедряемым в организациях, мы попросили рассказать экспертов, которые примут участие в ближайшем форуме «Управление данными».

Какой должна быть инфраструктура управления данными для решений на базе ИИ

Опрошенные нами эксперты представили панорамное видение инфраструктуры, которую необходимо выстроить для успешного применения ИИ в бизнесе.

Как справедливо отмечает Антон Головко, специалист по машинному обучению «Инфосистемы Джет», ответ на вопрос о том, какой должна быть инфраструктура управления данными для систем с ИИ, зависит в первую очередь от потребностей конкретного бизнеса. Также, конечно, необходимо учитывать особенности имеющейся архитектуры данных и уже выстроенных процессов по их обработке.

«Если процессы относительно простые, источников данных немного, а машинное обучение рассматривается как инструмент для решения одной-двух задач, то сложная инфраструктура данных не нужна, — продолжает Головко. — Если же речь идет о крупном производстве с большим количеством потенциальных задач, то уже на ранних этапах ИИ-проекта стоит собрать большое количество всевозможных качественных данных. В случае с классическими задачами машинного обучения, когда имеем дело со структурированными данными, наилучшим решением будет использование хранилища признаков (Feature Store) — оно предоставляет для ИИ единый интерфейс, с которым специалисты машинного обучения будут работать, не задумываясь об изначальной архитектуре данных. В случае с языковыми моделями и видеоаналитикой предпочтительнее задействовать объектное хранилище, если объем данных невелик, или озеро данных, если данных много».

По мнению Андрея Никитина, начальника отдела цифрового моделирования IBS, для эффективного управления данными в системах на базе ИИ первостепенное значение имеют хранилища данных, системы ETL, управления метаданными, инструменты для обеспечения качества и валидации данных, а также инструменты контроля версионности данных и моделей.

«Эти компоненты формируют основу и обеспечивают базовые возможности для работы с данными. На основе этих компонентов строятся все остальные элементы инфраструктуры, — поясняет Никитин. — Также потребуется инфраструктура для экспериментов в области машинного обучения, системы оркестрации и автоматизации, инструменты мониторинга и ведения системных журналов, средства информационной безопасности и управления доступом. Прочие компоненты зачастую могут быть добавлены или модернизированы позже, по мере развития и усложнения систем на базе ИИ».

Андрей Беляев, руководитель направления консалтинга в области данных и аналитики в RNT Group (входит в группу «Рексофт»), исходит из того, что инфраструктура управления данными для ИИ представляет собой более развитую форму платформ и фабрик данных предыдущего поколения: «Внедрение ИИ, и это стало особенно заметно с распространением генеративного ИИ, увеличивает количество неструктурированных данных, которые организация берется анализировать. Поэтому необходимо научиться хранить, эффективно обрабатывать и безопасно предоставлять потребителям большие объемы неструктурированных данных — текстов, изображений, видео. Также могут потребоваться вычислительные мощности со специализированными процессорами (GPU, TPU и пр.) или внешние сервисы, предоставляющие API-интерфейсы к моделям машинного обучения. Следовательно, может понадобиться облачная или гибридная инфраструктура».

Илья Фомичев: «Чтобы подготовка и предоставление данных выстроились в стабильный процесс, важно правильно организовать работу специалистов, отвечающих за различные инструменты инфраструктуры данных»

«Чтобы успешно работать с данными, нужно их где-то хранить, — соглашается с коллегами Илья Фомичев, руководитель направления искусственного интеллекта компании SimbirSoft. — Для больших объемов неструктурированных данных принято использовать продвинутые распределенные файловые системы вроде HDFS. В какой-то момент объемы данных могут сильно вырасти, а скорость доступа к ним может замедлиться. И тогда на помощь приходят инструменты ETL. Для формирования продвинутой инфраструктуры управления данными также необходимы инструменты для очистки, управления версионностью, визуализации и быстрой интеграции данных. При этом ключевыми аспектами будут постоянная доступность и масштабируемость хранилищ, поскольку гибкость и непрерывное получение данных важны для работы алгоритмов ИИ. И, конечно же, чтобы подготовка и предоставление данных выстроились в стабильный процесс, важно правильно организовать работу специалистов, отвечающих за различные инструменты инфраструктуры данных».

Впрочем, как отмечает Фомичев, для некоторых систем, например, работающих на основе поисковой расширенной генерации (Retrieval Augmented Generation), могут потребоваться векторные СУБД. При объеме баз свыше 10 тыс. векторов следует выбирать те, что наиболее точно соответствуют особенностям и целям ИИ-проекта.

Илья Кулаков: «Ключевым элементом инфраструктуры управления данными для поддержки ИИ на базе машинного обучения является максимально гибкая платформа хранения данных»

Илья Кулаков, директор депа0ртамента перспективных проектов направления Т1 ИИ холдинга Т1, полагает, что ключевым элементом инфраструктуры управления данными для поддержки ИИ на базе машинного обучения является максимально гибкая платформа хранения данных, позволяющая работать как со структурированной, так и с неструктурированной информацией, формировать ограниченные персистентные наборы данных, максимально легко масштабироваться и использоваться для запуска вычислений. Для разработки и тестирования идеальным будет применение облачной платформы, а также песочниц.

«Второй по значимости элемент — продвинутая интеграционная платформа, позволяющая пользователям самостоятельно выстраивать сложные потоки сбора и формирования данных, — так расставляет приоритеты Кулаков. — На третьем месте — управление неструктурированным контентом. На базе управления метаданными будет строиться критически важный функционал регистрации наборов данных, хранилищ признаков, управление пайплайнами моделей и интеграций. При этом важным фактором для таких задач, как рекомендации и оптимизация, когда отклик от системы необходимо получать в реальном времени, является не только скорость передачи и обработки данных, но и качество ответа, поэтому при проектировании платформы не стоит забывать про методы и инструменты контроля качества стриминговых данных».

Александр Борисов: «Критическое значение приобретают компоненты, обеспечивающие качество данных, мониторинг пайплайнов данных, а также контроль дрифта данных»

Поскольку точность прогнозов ИИ-систем напрямую связана с данными на «входе», критическое значение приобретают компоненты, обеспечивающие качество данных, мониторинг пайплайнов данных, а также контроль дрифта данных, уверен Александр Борисов, руководитель направления Data Science в RAMAX Group: «Качество данных наиболее важно для систем на основе классических алгоритмов машинного обучения, использующих табличные данные. Мониторинг пайплайнов данных востребован во всех перечисленных типах ИИ-систем, а контроль дрифта данных — для классического машинного обучения и видеоаналитики. Для больших языковых моделей и генеративного ИИ также будут полезны специальные модули безопасности, предотвращающие атаки через запрашиваемые данные (Prompt Injection)».

Насколько масштабные изменения потребуются в имеющейся архитектуре и инфраструктуре данных

В оценках масштабов изменений в инфраструктуре управления данных при реализации ИИ-проектов наши эксперты несколько разошлись.

Антон Головко: «При наличии хранилища признаков потребуется интеграция ИИ-систем с существующей архитектурой. Для этого достаточно лишь настроить дополнительный интерфейс доступа»

Так, по наблюдениям Головко, менять существующую архитектуру зачастую не требуется: «При наличии хранилища признаков потребуется интеграция ИИ-систем с существующей архитектурой. Для этого достаточно лишь настроить дополнительный интерфейс для доступа ИИ-решения к имеющимся системам. В объектные хранилища и озера данных могут сгружаться имеющиеся данные из смежных систем, и уже откуда будет предоставляться доступ к данным для ИИ-систем».

Кулаков считает, что при наличии развитого озера данных и общей демократизации данных изменения требуются минимальные. «Но если в компании нет возможности легко собрать датасет, разместить его в песочнице и обработать, то успешно внедрить и использовать ИИ-решение будет крайне сложно, — продолжает Кулаков. — Оптимальным подходом в данном случае будет проведение локального замера времени, требуемого на подготовку данных (time-to-data) для одного модельного варианта применения, и оценка приемлемости этих сроков для конкретной задачи. Архитектура данных при внедрении ИИ-решения не должна претерпеть существенного изменения в ядре и основных потоках транзакционных данных — в жизненном цикле просто должно появиться еще одно ответвление на архивацию для последующего использования данных в машинном обучении. Кроме того, для ИИ-решения может потребоваться подключение новых поставщиков данных, но это типично для любой аналитической системы».

Андрей Беляев: «Хорошая новость в том, что можно двигаться быстро, опираясь на предыдущий опыт»

«Хорошая новость в том, что эволюционный шаг в развитии инфраструктуры данных при внедрении ИИ-решений основывается на уже имеющихся системах управления данными, а также на культуре данных и аналитики — можно двигаться быстро, опираясь на предыдущий опыт», — утверждает Беляев.

По мнению Борисова, масштаб изменений зависит как от конкретной имплементации процессов процесса управления данными, так и от требований к данным со стороны внедряемого ИИ-решения: «Планирование изменений относится к числу проектных активностей и будет сугубо индивидуальным в каждом конкретном случае. Общим требованием для таких проектов является согласование процессов управления данными и управления жизненным циклом моделей машинного обучения. Другими словами, необходимо реализовать связку Data Governance и MLOps».

Андрей Никитин: «В большинстве случаев организации сталкиваются с необходимостью умеренных или масштабных изменений»

Никитин уверен, что масштаб необходимых изменений будет сильно варьироваться. В частности, он зависит от уровня зрелости компании. «Например, если организация уже имеет современную, масштабируемую инфраструктуру данных, то, возможно, потребуются лишь минимальные изменения — добавление специфических ИИ-компонентов, таких как платформа для экспериментов в области машинного обучения или система контроля версионности моделей. И напротив, если имеющаяся инфраструктура существенно устарела или не соответствует требованиям ИИ-системы, то могут потребоваться масштабные изменения или полный пересмотр архитектуры. Естественно это всегда сопряжено со значительными инвестициями в оборудование и программное обеспечение. В большинстве случаев организации сталкиваются с необходимостью умеренных или масштабных изменений».

С точки зрения Никитина, зачастую внедрение ИИ-решений выливается не просто в добавление нового инструмента, а в фундаментальные изменения в подходе к работе с данными и принятию решений. Поэтому он рекомендует придерживаться поэтапного подхода к проведению изменений, начиная с пилотных проектов и затем постепенно масштабируя инфраструктуру данных по мере роста потребностей и компетенций в области ИИ.

В целом, как видим, эксперты сходятся во мнении о том, что реализация ИИ-проектов и внедрение ИИ-решений не приведут к тектоническим сдвигам в инфраструктуре управления данными. Тем не менее, определенные изменения могут потребоваться — в зависимости от того, насколько имеющаяся инфраструктура соответствует требованиям, предъявляемым со стороны систем на базе ИИ.

Инфраструктура управления данными для систем с искусственным интеллектом

Какой должна быть инфраструктура управления данными для решений на базе ИИ

Насколько масштабные изменения потребуются в имеющейся архитектуре и инфраструктуре данных

Управление данными на практике: эволюция, перспективы, инструменты