Автор: Мария Ришняк, старший руководитель проектов компании PARMA TG
В последнее время индустрия больших данных переживает невероятный взлет. Объем информации, генерируемой ежедневно, удивляет своими масштабами и даже сравнивается с постоянно расширяющейся вселенной.
По данным Statista, каждый день создается примерно 328,77 миллиона терабайт или 0,33 зеттабайта данных. Это составляет примерно 2,31 зеттабайта в неделю и 120 зеттабайт в год, что иллюстрирует огромные масштабы производства данных. Более того, за последние два года было сгенерировано 90% всех мировых данных.
Рис.1, источник Data growth worldwide 2010-2025 | Statista (turbopages.org)
Этот рост частично обусловлен инновациями в области визуализации данных и аналитики с использованием искусственного интеллекта, которые становятся доступными более широкому кругу бизнес-пользователей. Вместе с тем, разнообразие и объем данных, особенно из источников, не связанных с базами данных, таких как устройства Интернета вещей, стимулируют необходимость в более надежных решениях для управления большими данными и отходе от привычных способов их хранения.
Нынешние тенденции в сфере больших данных акцентируют внимание на необходимости решения практических задач, таких как повышение безопасности информации, обеспечение конфиденциальности и эффективное управление различными источниками данных.
В данной статье мы предпримем попытку проанализировать, как новейшие достижения повлияют на будущее сферы больших данных и какие последствия это может иметь для бизнеса и специалистов в данной области.
Тенденция №1 Развитие связанных технологий
Искусственный интеллект (ИИ, AI, artificial intelligence)
Решения, основанные на генеративном искусственном интеллекте (ГИИ), играют ключевую роль в выявлении закономерностей и создании алгоритмов принятия решений, они могут автоматизировать до 70% всей работы по обработке данных и 64% работы по сбору данных.
ГИИ привлекает огромное внимание бизнеса и потребителей. Однако, несмотря на всю свою инновационность, вопрос о том, приносит ли ГИИ реальную экономическую ценность, остается актуальным. Исследования показывают, что, хотя интерес к этой технологии огромен, ее потенциал еще не полностью раскрыт.
«Генеративный искусственный интеллект — часть искусственного интеллекта, которая использует статистические методы и машинное обучение для создания контента с помощью имитации данных, на которых он был обучен.»
В ноябре 2023 сервис «Авито Работа» и банк «Точка» опубликовали совместное исследование о применении ИИ в профессиональной деятельности. Около 24% опрошенных сотрудников российских компаний из различных отраслей заявили, что используют технологии ИИ в своей работе, причем половина из них делает это ежедневно. Используя ИИ, бизнес-представители решают различные задачи, начиная от работы с клиентами и сбора аналитики, и заканчивая обработкой запросов и созданием текстов.
Рис. 2, источник Data growth worldwide 2010-2025 | Statista (turbopages.org)
Эти данные подтверждают результаты исследования «Яндекса» и компании «Яков и Партнёры», которое показало, что на текущий момент примерно 20% крупных российских компаний используют ГИИ в своей работе. Эксперты предполагают, что к 2028 году эффект от использования ИИ в бизнесе в России может составить от 4,2 до 6,9 трлн рублей, из которых значительная часть зависит от ГИИ.
Мировые исследования также прогнозируют взрывной рост сектора генеративного искусственного интеллекта в течение следующего десятилетия. Аналитики Bloomberg Intelligence ожидают, что доходы рынка ГИИ могут увеличиться до $1,3 трлн к 2032 году, что в 32 раза превышает доходы этого сектора в 2022 году.
Хотя ажиотаж вокруг ГИИ огромен, его реальная ценность до сих пор не полностью осознана. Внедрение ИИ в производственный процесс потребует значительных инвестиций, организационных и кадровых изменений, пересмотра бизнес-процессов. Новые возможности ИИ необходимо интегрировать в существующую технологическую инфраструктуру, а также улучшать управление данными и интегрировать различные источники информации.
Интернет вещей (IoT, Internet of Things)
Интеграция Интернета вещей и больших данных открывает перед предприятиями в различных отраслях уникальные возможности для оптимизации операций, улучшения обслуживания клиентов и разработки стратегий на основе анализа данных в реальном времени.
Эта тенденция заключается в использовании огромных объемов данных, собираемых устройствами Интернета вещей, и их анализе для извлечения ценной информации. В 2024 году покупка и продажа данных IoT станет еще более важным аспектом развития этой сферы, что является показательным для роста сбора и анализа данных в нескольких направлениях.
Примером может служить использование IoT-устройств в маркетинге для отслеживания поведения и предпочтений клиентов. Благодаря умным устройствам, таким как виртуальные помощники и интеллектуальные счетчики, компании могут адаптировать свои маркетинговые стратегии к потребностям клиентов.
Сфера здравоохранения также является примером успешной интеграции IoT и больших данных. Устройства IoT используются для мониторинга здоровья пациентов и сбора медицинских данных, которые затем анализируются для улучшения ухода за пациентами и диагностики заболеваний.
Ожидается, что к 2027 году в России появится более 70 стандартов развития персональных медицинских помощников, позволяющих врачам отслеживать состояние пациентов удаленно.
Тенденция №2 Интеграция и централизация данных
Для принятия точных и своевременных бизнес-решений необходимо, чтобы данные были точными и доступными. Однако управление данными становится все более сложным для организаций. Компании хранят огромные объемы данных, часто не имея полного представления о содержании, актуальности и точности данных, их классификации или соответствии требованиям. С учетом ожидаемого взрывного роста объема неструктурированных данных в 2024 году из-за развития искусственного интеллекта, такие данные, включая аудио, видео и другие форматы, будут удваивать объем информации.
Централизация данных означает объединение информации из различных источников в одном центральном хранилище, будь то база данных, облачное хранилище данных или озеро данных. В свете этого ключевой тенденцией в области больших данных на 2024 год является объединение данных из различных систем в единое унифицированное решение для их хранения. Этот шаг мотивирован необходимостью эффективного управления и анализа данными, особенно в сферах финансовой и производственной отчетности. Предприятия будут прибегать к решениям, которые обеспечивают доступ к единому набору данных из удобного места в облаке, обеспечивая точность данных и повышая эффективность. Такой подход повышает качество и доступность данных, что позволяет более эффективно принимать решения на основе данных и использовать расширенный аналитический искусственный интеллект.
Сегодня одной из основных проблем является поддержание производительности при работе с огромными объемами данных, достигающими десятков петабайт. Решение этой проблемы требует использования современных высокопроизводительных объектных хранилищ данных. Именно поэтому большинство баз данных переходят на объектное хранение, примерами которого являются OpenAI, Anthropic и Kubeflow.
К 2025 году, согласно оценкам Gartner, более 95% новых цифровых проектов будут реализованы на облачно-ориентированных базах данных, созданных для работы в облаке с нуля. Этот подход, известный как cloud-native, позволяет использовать все преимущества облачных вычислений и обеспечивает модель PaaS (платформа как услуга), часто называемую DBaaS (база данных как услуга). Это обеспечивает удобный доступ и масштабируемость во время выполнения, что редко встречается в традиционных базах данных.
Все более популярной становится концепция бессерверных баз данных, которые позволяют хранить, управлять и анализировать данные без управления базовой хост-инфраструктурой. Примерами таких баз данных являются SupaBase и PlanetScale. Этот подход обеспечивает гибкость и масштабируемость, освобождая от необходимости управления серверами.
Технология NoSQL, графовые базы данных, признаны одной из ключевых тенденций в области данных и аналитики. В отличие от реляционных баз данных, которые используют жесткие табличные структуры для хранения данных, графовые базы данных представляют данные в виде сети узлов и связей, что делает их более интуитивно понятными, отражая естественные взаимосвязи в реальном мире. Например, если искусственный интеллект и машинное обучение могут помочь предсказать проблемы с цепочками поставок в логистике, то графовые базы данных могут улучшить эти прогнозы, определяя приоритетные грузы и оптимальные маршруты.
Мультимодельные базы данных, поддерживающие несколько моделей данных, включая реляционные, нереляционные и графовые, позволяют выбирать наиболее подходящий тип данных для конкретной задачи, обеспечивая универсальность и гибкость. Примером такой базы данных является SurealDB.
Следующей важной тенденцией является интеграция ИИ в базы данных, что позволяет получить мощные инструменты управления и анализа данных прямо в базе данных. Примером такого решения является MindsDB, которая интегрируется с различными источниками данных, таких как Slack, Postgres и т.д., и может использовать передовые методы машинного обучения и искусственного интеллекта.
В свете растущей тенденции к облачной интеграции данных и развитию гибридных и мультиоблачных сред, компании, применяющие такие решения, получают больше возможностей для эффективного управления своими данными, что способствует повышению производительности, улучшению обслуживания клиентов и, в конечном итоге, увеличению прибыльности.
Оптимальный выбор технологий и основательное планирование являются ключевыми составляющими успеха при консолидации баз данных. Этот подход поможет раскрыть полный потенциал консолидации баз данных и снизить риск возможных негативных последствий.
В 2024-2025 годах организациям, игнорирующим создание надежных основ и стратегий работы с данными, будет все труднее сохраниться на рынке в быстро развивающейся технологической среде. Те, кто не сможет адаптироваться и уделить должное внимание основам управления данными, столкнутся с серьезными трудностями в конкурентной борьбе и могут даже оказаться на грани выживания.
Тенденция №3 Квантовые вычисления и большие данные
Уже около 40 лет мы надеемся, что квантовые компьютеры изменят мир, начиная с того момента, когда Юрий Манин и Ричард Фейнман представили идею квантовых вычислений.
Квантовые вычисления представляют собой наиболее загадочное и до сих пор малоизученное направление среди всех квантовых технологий. Они представляют собой отход от традиционных вычислений, используя принципы квантовой механики.
Кубиты, в отличие от классических битов, имеющих значения 0 или 1, могут существовать в нескольких состояниях одновременно. В то время как классический компьютер может разложить число с 500 десятичными знаками на простые множители за 5 миллиардов лет, квантовый аналог, теоретически, справится с этой задачей за 18 секунд.
Одним из главных преимуществ квантовых вычислений в области обработки больших данных является их способность выполнять сложные вычисления с невиданными ранее скоростью. Это особенно ценно для областей машинного обучения и искусственного интеллекта, где это может значительно повысить скорость и точность анализа данных.
Таким образом, квантовые вычисления могут существенно ускорить обработку данных, решать сложные алгоритмы и разрешать крупномасштабные задачи оптимизации, которые в настоящее время выходят за рамки классических вычислений. В таких областях, как поиск лекарств, оптимизация транспортных потоков и моделирование климата, квантовые вычисления могут более эффективно анализировать и обрабатывать большие объемы данных.
В 2024 году мы, вероятно, увидим еще больше инвестиций и исследований в области квантовых вычислений, поскольку они становятся все более доступными и интегрированными с технологиями обработки больших данных. Ожидается, что к 2024 году доступ к российскому универсальному квантовому компьютеру на четырех кубитах будет предоставлен всем желающим.
Рис 4, источник Российские ученые создали квантовый компьютер с доступом через «облако» (itcrumbs.ru)
Тенденция № 4 От кустарного к промышленному производству
Процесс создания данных становится все более индустриализированным. Компании прилагают усилия для ускорения создания моделей в области науки о данных. Они инвестируют в платформы, процессы и методологии, хранилища функций, системы машинного обучения и другие инструменты для увеличения производительности и скорости внедрения.
Эффективная предварительная обработка данных играет ключевую роль в любом успешном проекте машинного обучения. Этот этап включает в себя очистку, преобразование и организацию необработанных данных для обеспечения их качества и пригодности для анализа. Понимание различных методов, таких как обработка пропущенных данных, кодирование категориальных переменных и масштабирование числовых признаков, позволяет специалистам MLOps оптимизировать данные для точного обучения моделей.
MLOps — это инженерная дисциплина, целью которой является унификация процессов разработки и развертывания ML-систем для стандартизации и оптимизации непрерывной поставки новых версий (аналог DevOps для ML-моделей).
Некоторые организации разрабатывают свои собственные платформы, чтобы автоматизировать процессы и повысить производительность в области науки о данных. Однако наибольшей пользой для продуктивности является повторное использование существующих данных, функций или моделей.
Например, Microsoft Azure предлагает комплексный набор услуг для поддержки MLOps, включая хранение данных в Azure Blob Storage, гибкие вычислительные ресурсы на виртуальных машинах Azure и интеграцию с различными инструментами разработки, такими как Azure DevOps и PyTorch.
В 2023 году «Сберстрахование» и GlowByte внедрили платформу MLOps, которая стандартизировала процесс развертывания ML-моделей в страховой сфере. Это ускорило развертывание моделей в 3 раза и повысило эффективность работы отдела Data Science за счет систематизации процесса разработки и внедрения новых инструментов.
Таким образом, организации, инвестирующие в разработку и использование платформ MLOps, могут ожидать повышения производительности и эффективности в работе с данными.
Рис 5, источник Файл:ML Ops Venn Diagram.svg — Википедия Переиздание (wiki2.org)
Тенденция № 5 Кадровые изменения
Изменяющаяся реальность в области данных приводит к изменениям в профессиональном пейзаже и требованиях к специалистам.
Роль Data Scientist'ов, которых когда-то называли «sexiest job of the 21st century» из-за их мастерства в различных аспектах работы с данными, становится менее привлекательной. Ряд изменений в сфере данных приводит к появлению альтернативных подходов к управлению ключевыми аспектами этой работы. Одним из таких изменений является расширение числа связанных ролей, которые могут решать отдельные задачи в работе с данными. Этот набор специалистов включает в себя Data Engineers для обработки данных, Machine Learning Engineers для масштабирования и интеграции моделей, коммуникаторов для взаимодействия с бизнесом, а также Product Data Managers для координации всего процесса.
Один из факторов, который влияет на снижение спроса на профессиональных специалистов по данным — это возрастающий интерес к науке о данных. Сейчас многие бизнес-эксперты с математическими навыками начинают разрабатывать модели и алгоритмы самостоятельно. Для многих пользователей ценность представляет возможность моделирования, предоставляемая, например, ChatGPT в рамках Advanced Data Analysis. С помощью простых промптов и обширного набора данных этот инструмент способен практически полностью автоматизировать различные этапы создания модели и объяснить их.
Конечно, есть множество аспектов в сфере данных, которые требуют профессионального подхода. Например, разработка новых алгоритмов или интерпретация сложных моделей остаются на острие.
Роль CDO (Chief Data Officer, директор по данным), хотя и становится все более распространенной в компаниях, уже давно характеризуется путаницей в отношении обязанностей.
Функции, выполняемые руководителями данных и аналитики, никуда не исчезли, скорее, они все чаще включаются в более широкий набор функций цифровой трансформации, которыми управляет «супертехнологический лидер», который обычно подчиняется генеральному директору. В 2024 году ожидается значительный рост потребности в таких технологических лидерах.
В сфере Big Data появляется новая роль — утилизатор цифрового мусора, который занимается сортировкой, систематизацией и удалением ненужных данных на физических и облачных носителях. Эта работа, хотя и связана с обязанностями дата-инженера и дата-аналитика, требует знаний в области структур данных, языков программирования, SQL и баз данных, инструментов для работы с большими данными, облачных технологий и основ машинного обучения.
Эти изменения отражают разнообразие и динамичность сферы данных, требуя от специалистов постоянного обновления и развития своих навыков.
Тенденция № 6 Устойчивое развитие бизнеса, ESG
ESG (environmental, social, governance, «природа, общество, управление») представляет собой набор правил и подходов к управлению бизнесом, направленных на обеспечение его устойчивого развития. В рамках концепции ESG ООН разработала резолюцию «Повестка дня в области устойчивого развития на период до 2030 года», в которой сформулировано 17 глобальных целей. Любая компания, независимо от её размера, может внести свой вклад в достижение этих целей на своём уровне. Для оценки эффективности достижения целей применяются критерии ESG.
Концепция ESG включает в себя принципы, такие как забота о окружающей среде, ответственное отношение к сотрудникам и клиентам, прозрачность в деятельности компании и участие в благотворительных инициативах.
Приверженность компании принципам ESG приносит ей ряд преимуществ, таких как государственные субсидии, особые условия кредитования, лояльность клиентов, привлекательность для сотрудников и возможность снижения налоговых обязательств. Соответствие этим принципам отслеживается через отчёты компаний и рейтинги ESG, составленные независимыми агентствами.
Примеры рейтинговых агентств в области ESG включают RAEX-Europe, Sustainalytics ESG Risk Rating, MSCI ESG Rating. Один из самых строгих рейтингов — S&P Global Scores (SAM). По данным рейтинга RAEX-Europe в апреле 2023 года в лидерах находились такие российские компании, как НЛМК, «Полюс» и «Уралкалий».
Каждая организация вправе самостоятельно определить направления развития и внедрения принципов ESG в свою стратегию. Обычно это включает в себя определение приоритетных областей, назначение ответственных лиц, выделение ресурсов и установку измеримых и реалистичных показателей эффективности (KPI).
Проблемы, связанные с отчётностью по ESG, часто решаются с применением технологий и методов, основанных на данных, из-за её фрагментированного и разнообразного характера по сравнению со стандартизированной финансовой отчётностью. Аналитики данных все чаще используют искусственный интеллект и машинное обучение для анализа данных ESG, что позволяет предоставлять инвесторам более детальную информацию.
Рис 6, источник ESG-стратегия (uralkali.com)
Тенденция № 7 Демократизация доступа к данным и безопасность
Демократизация данных является ключевой тенденцией в сфере больших данных, расширяя доступ к аналитике данных за пределы ИТ-отделов и вовлекая нетехнический персонал компаний. Этот сдвиг становится возможным благодаря платформам DaaS, которые упрощают сложные задачи анализа данных с помощью интуитивно понятных интерфейсов. Такие платформы делают доступ к данным более демократичным, позволяя сотрудникам из разных отделов принимать участие в процессе принятия решений.
Более широкий доступ к данным внутри организаций способствует формированию инклюзивной культуры данных, где различные точки зрения способствуют более глубокому анализу и пониманию данных. Поэтому большинство бизнес-лидеров считают демократизацию данных приоритетом, что отражает её растущую важность в корпоративной стратегии.
По мере увеличения объема и сложности данных становится все важнее умение визуализировать и интерпретировать их. Ключевые аспекты этой тенденции включают:
Превращение сложных данных в понятные: инструменты визуализации данных преобразуют сложные наборы данных в более доступные графические форматы;
Расширение возможностей принятия решений: визуальное представление данных помогает выявить скрытые закономерности и тенденции;
Интерактивные информационные панели: современные инструменты визуализации данных позволяют пользователям детализировать конкретные данные и проводить более глубокий анализ;
Использование данных для сторителлинга: визуализация является мощным инструментом для передачи информации из данных заинтересованным сторонам.
Следуя общим тенденциям в управлении и безопасности больших данных, в 2024 году особую важность приобретут несколько ключевых технологических достижений, таких как автоматизированное управление данными, управление данными в реальном времени и облачные решения для управления данными. Одновременно необходимо учитывать этические аспекты использования данных и обеспечивать их конфиденциальность и безопасность, чтобы обеспечить пользу обществу и соблюдать этические стандарты.
Подведение итогов
Будущее больших данных обещает быть захватывающим и наполненным потенциалом для трансформационных изменений в различных отраслях. Однако для того, чтобы воспользоваться этим потенциалом, потребуется внимательный и вдумчивый подход к управлению, анализу и использованию данных. Компании, способные адаптироваться к этим развивающимся тенденциям и интегрировать их в свои стратегии, будут иметь хорошие возможности для процветания в будущем, основанном на данных.