Apache Spark

Databricks покупает разработчика средств исследования данных 8080 Labs

Стартап, создавший облачную платформу распределенной обработки неструктурированных данных на базе Apache Spark, стремительно развивается: в 2022 году его оборот может превысить 1 млрд долл.

Универсальная платформа обработки больших данных

На российском рынке остро ощущается потребность в платформах обработки больших данных, однако почти отсутствует локальная экспертиза. Появление дистрибутива Arenadata Hadoop, сертифицированного ODPi и собранного российскими разработчиками, призвано заполнить этот пробел.

Инструменты анализа графов

Программы поиска оптимальных маршрутов давно стали обыденностью, однако нахождение кратчайшего пути — не единственный практический результат теории графов. Сегодня имеется множество инструментов, позволяющих решать задачи графовой аналитики, каждый из которых эффективен в определенных ситуациях.

Кластерный анализ против нештатных ситуаций

Неполадки в работе телекоммуникационной сети часто возникают в результате нештатных ситуаций, которые не вызывают нарушений и остаются незамеченными, что впоследствии может привести к ухудшению качества сервисов или к сбоям. Обнаружение таких ситуаций с помощью кластерного анализа дает возможность принимать превентивные меры, позволяющие исключить сбои.

SAP HANA Vora прокладывает мост между традиционными хранилищами данных и Hadoop

Особенность Vora — возможность использования традиционных методов оперативной аналитической обработки и языков программирования для анализа всех доступных на предприятии данных.

Фонд Apache запустил новый проект с открытым кодом для Больших Данных

По утверждениям участников проекта Apache Arrow, он позволит увеличить производительность при решении аналитических задач в сто с лишним раз.

В бесплатную версию платформы Databricks включен курс по Apache Spark

Как объясняют в Databricks, бесплатный вариант оптимален для разработчиков, ученых и специалистов по данным, а также для любых ИТ-специалистов, желающих освоить Spark.

Talend: открытый код — новая норма для систем обработки Больших Данных

Благодаря приверженности идеям Open Source, экосистема Hadoop и Apache Spark, важнейших на сегодня технологий в мире Больших Данных, развивается быстрее, чем если бы технология принадлежала только одному разработчику.

Пять вещей, которые необходимо знать о Hadoop и Apache Spark

Иногда в мире Больших Данных их считают конкурентами, но чаще преобладает точка зрения, согласно которой они дополняют друг друга.

В MapR создали систему анализа потоков данных и конвергентную платформу на базе Hadoop

Streams дает возможность создавать потоки путем «подписки» на источники данных. Подписчиками могут быть как люди, так и машины. Например, отдел ИТ может подписаться на поток данных из журналов операций, чтобы автоматизировать обнаружение аномалий, указывающих на проблемы.

Splice Machine объединит OLTP и OLAP

Версия реляционной СУБД Splice Machine 2.0 сочетает в себе масштабируемость Hadoop и присущую Spark скорость обработки данных в оперативной памяти.

IBM Insight 2015: экономика познания

На ежегодном форуме IBM обсуждалось, как бизнесу извлечь выгоду из окружающих его данных.

Анализ данных социальных сетей

Социальные сети могут стать источником дополнительных данных о клиентах, однако для его использования требуются специализированные инструменты. Открытые технологии из стека Hadoop позволяют строить платформы, способные в режиме массовой обработки извлекать ценную информацию для обогащения профилей клиентов.

Анализатор данных в памяти SAP Vora работает с Hadoop

В компании добавляют, что HANA Vora будет полезен организациям, которым надо анализировать большие объемы данных в контексте бизнес-процессов, в том числе предприятиям, работающим в финансовой сфере и в отраслях услуг связи, здравоохранения и производства.

Аналитика реального времени для ситуационного центра

Система управления кластером Hadoop YARN значительно повышает надежность и гибкость технологии MapReduce, позволяя в оперативной памяти проводить распределенную потоковую обработку данных, а значит, строить аналитические системы реального времени, используемые, например, в ситуационных центрах.

Анализ работы телекоммуникационной системы

Эффективность анализа данных о функционировании телекоммуникационного оборудования определяется возможностями системы сбора и обработки этих данных, объемы которых могут увеличиваться экспоненциально. Как выполнить глубокий анализ поведения сетевого оборудования в условиях лавинообразного роста показаний телеметрии?

Blazent предлагает управлять ИТ-операциями на основе анализа Больших Данных

Корпоративные клиенты компании смогут оперативно получать информацию о состоянии и эффективности функционирования своих ИТ-систем.

IBM готовит Spark для машинного обучения

Корпорация передала сообществу Spark предназначенный для машинного обучения язык программирования SystemML и намерена предлагать Spark вместе с сервисом IBM Bluemix.

Oracle возвращает Большие Данные администраторам баз данных

Сегодня, когда многие предприятия осознали ценность анализа Больших Данных, самое время привлечь к этому процессу администраторов баз данных и хранилищ данных.

Наследник Hadoop ускоряет эволюцию анализа данных

В 2014 году программное обеспечение Apache Hadoop совершило революцию в области Больших Данных, а в 2015-м Apache Spark обещает вытеснить Hadoop благодаря своим более развитым средствам анализа.

Мы используем cookie, чтобы сделать наш сайт удобнее для вас. Оставаясь на сайте, вы даете свое согласие на использование cookie. Подробнее см. Политику обработки персональных данных