Arenadata обновила продукт для потоковой передачи и обработки данных Arenadata Streaming (ADS) https://arenadata.tech/products/arenadata-streaming/. Новая версия получила функциональность захвата изменений данных (change data capture, CDC) и сервис мониторинга на базе Prometheus. Кроме того, теперь Arenadata Streaming поддерживает концепцию «многослойного» хранения Kafka Tiered Storage и протокол согласования Kafka Raft.
Для реализации CDC в состав дистрибутива Arenadata Streaming включены два source-коннектора Debezium (https://docs.arenadata.io/ru/ADStreaming/current/concept/architecture/kafka-connect/debezium_overview.html) для сервиса Kafka Connect, предназначенные для захвата изменений в базах данных PostgeSQL (https://docs.arenadata.io/ru/ADSCONTROL/current/how-to/debezium/postgresql.html) и Microsoft SQL Server (https://docs.arenadata.io/ru/ADSCONTROL/current/how-to/debezium/mssql.html). Они собирают изменения данных в СУБД, записывая их в топики Kafka, а затем различные sink-коннекторы могут передавать эти данные в другие базы и хранилища. Предусмотрена возможность использовать доступные «из коробки» коннекторы Debezium, добавлять собственные и настраивать их из веб-интерфейса ADS Control — системы для управления кластерами потоковой передачи.
Новая версия Arenadata Streaming реализует концепцию Tiered Storage — «многослойного» хранения данных в топиках Kafka. Поступающие «горячие» данные располагаются в локальной файловой системе, а далее, согласно заданным политикам, переносятся во внешнюю систему, которая лучше адаптирована для долгосрочного хранения «холодных» данных. В качестве внешней системы Arenadata Streaming поддерживает HDFS* (https://docs.arenadata.io/ru/ADH/current/concept/hdfs-core.html) и S3.
«Концепция Tiered Storage позволяет сократить расходы и предоставить дополнительную гибкость, когда требуется хранение исторических данных. Благодаря ограниченному набору локальных сегментов снижается потребность в преждевременном масштабировании, уменьшается время на расширение и ребалансировку кластера, а также на его восстановление после сбоев и обслуживания», — комментирует Александр Анисимов, технический руководитель продукта Arenadata Streaming.
В Arenadata Streaming включён новый сервис мониторинга (https://docs.arenadata.io/ru/ADStreaming/current/get-started/online_install/monitoring/mon-service.html). Он разворачивает в ADS свой сервер Prometheus, который собирает и хранит метрики мониторинга кластера (системные, а также метрики сервисов Kafka, ZooKeeper, Kafka REST Proxy, Schema-registry, ksqlDB, NiFi, MiNiFi, Kafka Connect). Просматривать и анализировать собранные данные можно в веб-интерфейсе Prometheus или в веб-приложении Grafana.
Новая версия Arenadata Streaming поддерживает протокол согласования Kafka Raft (KRaft), который позволяет управлять метаданными внутри Kafka, устраняя зависимость от внешнего сервиса ZooKeeper. Благодаря KRaft использование Kafka становится проще, сокращается целевое время восстановления системы (RTO) и кратно увеличивается доступное число партиций, поддерживаемых одним кластером. В текущей версии продукта функционал предоставляется в режиме превью и не предназначен для использования в продуктивной среде.
По ссылке можно ознакомиться с полным списком изменений версии Arenadata Streaming 3.6.2.2.b1 (https://docs.arenadata.io/ru/ADStreaming/current/release-notes/release-notes.html#3-6-2-2).
Возможности Arenadata Streaming
Arenadata Streaming — масштабируемая отказоустойчивая система для потоковой обработки данных в режиме реального времени, адаптированная для корпоративного использования и построенная на базе Apache Kafka и NiFi. Продукт включает графический пользовательский веб-интерфейс для управления кластерами потоковой передачи (ADS Control, ADSC), поддержку расширенной безопасности (Arenadata Platform Security, ADPS), а также ряд дополнительных инструментов для реализации репликации, проверки качества данных и других необходимых для продуктовой эксплуатации функций.
Arenadata Streaming позволяет:
− в реальном времени строить потоковые конвейеры данных, надёжно передающих данные между системами или приложениями;
− в реальном времени разрабатывать потоковые приложения, преобразующие потоки данных или реагирующие на них;
− хранить потоки записей отказоустойчивым долговечным способом;
− разграничивать права доступа к потокам данных.
На Arenadata Streaming получено свидетельство о государственной регистрации программы для ЭВМ. Продукт включён в единый реестр российских программ для электронных вычислительных машин и баз данных.
--------------------------------------------------------
* Минимальная версия Arenadata Hadoop для импорта HDFS при настройке многоуровневого хранилища — ADH 3.3.6.2.b1.