Arenadata заняла первое место в мире по вкладу в развитие ядра проекта с открытым исходным кодом Greenplum в 2022 г. среди международного сообщества (комьюнити) разработчиков. Как показали результаты исследования, проведённого аналитиками компании, доля PR (Pull Request, одобренных запросов на принятие изменений) в Greenplum со стороны Arenadata составляет 44% от числа всех внесённых. На втором месте располагается китайский технологический конгломерат Alibaba (15%).

Анализ данных

Аналитика Arenadata была основана на исследовании открытой информации с сайтов GitHub и LinkedIn. Были рассмотрены профили контрибьютеров и сопоставлены с представляемыми ими компаниями. В ряде случаев удалось установить только географическую принадлежность автора того или иного PR.

Вклад в развитие Greenplum в 2022 г.

Отметим, что Arenadata не впервые лидирует по числу PR в Greenplum: компания заняла первое место среди мировых контрибьютеров и в 2021 году, однако тогда принадлежность авторов изменений в ядро проекта была менее ясна.

Вклад в развитие Greenplum в 2021 г.

Самые важные
Можно выделить несколько наиболее важных PR, внесённых в комьюнити Greenplum разработчиками Arenadata, за последние пару лет:

· Zstandard (ZSTD) — алгоритм эффективного сжатия данных без дополнительной нагрузки на CPU. Наиболее эффективный алгоритм компрессии, который сегодня реализован в Open Source решениях для Big Data. При последовательном чтении и записи больших объёмов данных это позволяет снизить TCO (total cost of ownership). Arenadata реализовала поддержку ZSTD для колоночных таблиц в Arenadata DB 5 (Enterprise Edition). Позже это обновление появилось в Greenplum 6.0 (и в Arenadata DB 6, соответственно) и стало доступно всему комьюнити проекта Greenplum.

· Фильтр pushdown в PXF (Platform Extension Framework) — это фреймворк, позволяющий Greenplum параллельно обмениваться данными со сторонними системами. Arenadata реализовала в PXF фильтр pushdown для определённых форматов подключений. Pushdown даёт возможность перенести процесс вычислений на сторону системы источника данных. Такой алгоритм позволил многократно ускорить все этапы выполнения запроса на фильтрацию данных. Очень значимый функционал для Greenplum. Arenadata реализовала с ним много проектов. В частности, те из них, где компания разгружала данные с SAP Hana, из Oracle и реализовывала концепцию виртуального федеративного слоя, в котором обращение к многочисленным внешним системам происходит посредством Greenplum. Реализация pushdown-механизма позволила многократно ускорить фильтрацию данных во внешних запросах за счёт переноса процесса вычислений на сторону системы источника данных.

· Стабилизация Greenplum 6. По определённому стечению обстоятельств у Greenplum 6 было много проблем, связанных с новым функционалом: обновленный PostgreSQL 9.4, WAL репликация для зеркал, переработанный механизм расширеня кластера, обновленная ORCA с упором на OLTP нагрузку, и многое другое. Например, REPLICATED таблицы и BITMAP индексы принесли большое количество багов, которые долгое время выстреливали у заказчиков. Специалисты компании исправили многочисленные ошибки и научились в минимальные сроки быстро решать проблемы, которые мешали нормальной эксплуатации продукта в конкретном кейсе клиента. Arenadata умеет исправлять критические ситуации как на уровне кода ядра самого PostgreSQL, так и на уровне оптимизатора. Тот факт, что компания может влиять на оптимизатор, говорит об очень высоком уровне экспертизы команды, поскольку оптимизатор — наиболее критичная вещь в работе распределённой базы данных. Работа с ним подразумевает не только работу с исходным кодом, но ещё серьёзное использование математики и логики.

· Конфигурационный параметр с таймером. Разработчиками Arenadata был реализован конфигурационный параметр с таймером, который определяет, что клиент отсоединился во время выполнения запроса и прерывает в этом случае выполнение запроса.

«Для Arenadata важно быть частью сообщества Greenplum и оставаться сопричастной к росту этой Open Source технологии. Развивая собственную СУБД Arenadata DB, построенную на основе Greenplum, мы вносим существенный вклад в развитие проекта с открытым исходным кодом. И то, что мы являемся лидером по количеству PR в ядро Greenplum в мире среди комьюнити говорит о том, что наша работа важна для всего сообщества в целом», — отмечает Александр Ермаков, технический директор Arenadata.

Добавим, что вклад в развитие Greenplum можно разделить на две категории: изменения, вносимые мейтейнером технологии — компанией VMWare Tanzu, и PR от представителей международного сообщества (комьюнити). В данном случае приведена статистика среди независимых контрибьютеров без учёта изменений, вносимых со стороны WMWare Tanzu.

Arenadata DB — аналитическая, распределённая СУБД. Она предназначена для хранения и обработки больших объёмов информации — до десятков петабайт. ADB прекрасно справляется с задачами построения корпоративного хранилища данных (КХД), аналитики с помощью BI-инструментов, ad-hoc- запросов и Data Science уровня предприятия. По мере роста объёма данных можно просто добавлять новые сервера в кластер — обо всём остальном ADB позаботится сама.

Справка о компании

Arenadata (https://arenadata.tech) — вендор системного ПО для сбора и обработки данных, который создаёт продукты на базе свободного программного обеспечения с 2017 года. Компания является активным коммитером в Open Source, вносит вклад в развитие Greenplum, ClickHouse и Hadoop. ПО Arenadata является альтернативой системам Oracle, Teradata, SAP, IBM и Vertica. Все продукты компании объединены в платформу данных с общим центром управления. Это позволяет укорить и автоматизировать установку, настройку и обновление всех data-сервисов, а также организовать сбор, хранение и различного типа обработку данных в гибридной ИТ-инфраструктуре (bare metal, clouds, multi clouds). Техническая зрелость продуктов Arenadata позволяет быстро имплементировать код ПО в состав прикладных решений и программных продуктов других вендоров.