Azure Databricks представляет собой результат уникального совместного проекта компаний Microsoft и Databricks, который реализует созданное на Apache Spark решение по аналитике от Databricks в «облаке» Microsoft Azure. Компания Databricks была основана создателями Apache Spark с целью помочь клиентам в обработке большого количества «облачных» данных. Apache Spark является открытой инфраструктурой кластерных вычислений с открытым кодом, запускаемой поверх решения Scala, что обеспечивает интерфейс и основу для программирования целых кластеров с интегрированной устойчивостью к сбоям и параллелизмом.
В конце 2014 года продукт Databricks установил рекорд по производительности сортировки больших объемов данных. Этот совместный проект и интеграция прозрачно соединяют производительность и избыточность Apache Spark с системой защиты Azure и большим разнообразием предложений для хранения данных, обработки, аналитики и лучшей в своем классе службы построения отчетов Power BI. Подойдет ли Azure Databricks для вашей компании?
Быстрое освоение
При помощи Azure Databricks можно разработать свое первое решение за несколько минут. Находясь на портале Azure Portal, нужно просто выбрать Databricks в области Analytics — и вы готовы к установке своего первого рабочего пространства, созданию кластера и импорта рабочих тетрадей Notebooks. Azure Databricks упрощает управление кластером и его настройку. Использование параметров Databricks Serverless и выбор Autoscaling не вызывает вопросов и позволяет автоматически масштабировать рабочие приложения и источники данных по мере надобности. Создавать и клонировать кластеры очень легко, что позволяет осуществить разделение обработки, если такая потребность возникает. Все, начиная с создания вашего первого кластера до системы защиты, унифицировано и является настолько комплексным, насколько этого можно ожидать от «облачной» платформы Microsoft Azure.
Взаимодействие и интеграция
Azure Databricks обеспечивает единое совместное рабочее пространство как для тех, кто желает узнать все о потребителях изнутри, так и для тех компаний, которые хотят быть на должном уровне в условиях конкуренции. Azure Databricks решает вопросы обработки данных от развернутых сетей или позволяет компаниям находить способы более эффективной обработки через анализ данных, математическое и компьютерное моделирование, искусственный интеллект (AI) и машинное обучение (ML). В этом рабочем пространстве специалисты по информации могут преобразовывать статические и потоковые данные, прозрачно интегрированные из таких источников данных, как Azure SQL DB, Kafka on HDinsight, Azure SQL Data Warehouse, CosmosDB, Azure Data Lake, Azure Blob Storage и Azure Event Hub. В этом же рабочем пространстве специалисты по обработке и анализу данных могут разрабатывать модели для AI и ML, а аналитики могут превращать эти модели в отчеты, схемы и графики в Power BI. Кроме того, они могут написать собственные SQL-запросы в рабочие тетради Databricks, чтобы визуализировать данные в Power BI или Tableau для самостоятельной бизнес-аналитики. Источники данных не ограничиваются только предлагаемыми в Azure. Azure Databricks может работать и с данными, которые взяты из Couchbase, ElasticSearch, CSV-файлов, JSON-файлов, Redis и т. д.
Безопасность
Смысл всех перечисленных функций и простоты использования сводится к нулю, если среда является небезопасной. Azure Databricks использует инфраструктуру безопасности службы каталогов Microsoft Azure Active Directory (AAD). AAD является многоабонентской «облачной» службой каталогов и службой управления удостоверениями и объединяет в себе службы каталогов, доступа к приложениями и защиту идентичности. Кроме того, Azure Databricks можно связать с любым вариантом Windows Server Active Directory для формирования гибридных сред, службы которых работают как в локальной сети, так и в «облаке» Azure. Это обеспечивает безопасность рабочего пространства для всех совместно работающих с данными сотрудников. Система безопасности особенно важна в осуществлении любой корпоративной обработки или при сборе данных в силу чувствительности извлекаемых данных, и поддержка надежной службы AAD для высокопроизводительной платформы аналитики сегодня актуальна как никогда. Те, у кого есть административный доступ, могут легко предоставлять и закрывать доступ на детальном уровне, поэтому на производительность сотрудников система безопасности никак не повлияет.
Узнать больше
Если вы ищете оптимальный вариант для совместной, высокопроизводительной, безопасной и гибкой платформы аналитики данных, то вам стоит присмотреться к Azure Databricks. У Microsoft есть много источников, где можно узнать больше о Azure Databricks, а еще компания предлагает возможность попробовать ее в действии бесплатно. Получить более подробную информацию о том, как быстро запустить Azure Databricks, можно по адресу: https://docs.microsoft.com/en-us/azure/azure-databricks/.