В Google оснастили BigQuery возможностью выполнения запросов сразу к нескольким таблицам данных |
«Объединение таблиц терабайтной величины для анализа данных всегда представляло собой весьма сложную задачу и требовало наличия хороших навыков работы с MapReduce, мощного оборудования и большого запаса времени, – указал, анонсируя обновление, менеджер по продукту Google BigQuery Джу-Кей Квек. – Сегодня с помощью BigQuery можно перейти к бизнес-анализу, используя SQL-подобные запросы. При этом вы тратите гораздо меньше усилий и получаете значительно более высокую скорость, чем раньше».
В Google утверждают, что использование BigQuery вместо Hadoop поможет пользователям сэкономить деньги, поскольку в этом случае они оплачивают только обрабатываемые запросы, а не ресурсы, выделяемые для поддержки всех компонентов Hadoop.
Сервис BigQuery, запущенный в 2010 году, позиционировался Google как интерактивное средство анализа больших объемов данных. С помощью BigQuery пользователь передает набор данных Google, после чего получает возможность выполнять запросы к ним посредством соответствующего API.
Обновленная версия расширяет уже имеющийся функционал сервиса. Новый оператор JOIN позволяет объединять результаты запросов к нескольким источникам данных. Ранее инструкцию JOIN можно было применять лишь к наборам данных размером не более 8 Мбайт. У новой конструкции JOIN EACH никаких ограничений на размеры данных нет.
В результате эффективность использования сервиса Google в качестве замены Hadoop MapReduce повышается. Многие задания Hadoop проектируются для объединения больших объемов данных, полученных из двух или более источников. Но для этого разработчикам приходится описывать процессы MapReduce с нуля, а это требует больших затрат времени. Инструкция JOIN EACH позволяет быстро получить единый результирующий набор данных из двух больших таблиц с общим ключом.
«С учетом всех этих нововведений вы можете объединять таблицы и выполнять агрегированный анализ многотерабайтных наборов данных с использованием SQL-подобных запросов или интегрированных инструментов, предлагаемых независимыми разработчиками, – указал инженер-программист Google Майкл Манучери, принимающий участие в проектировании облачных платформ компании. – Писать сложный код для этого не придется».
Обновленная версия сервиса BigQuery предлагает улучшенный способ группировки результатов запросов. Оператор GROUP BY EACH увеличивает число отдельных элементов, которые могут быть сгруппированы в результирующем запросе. Правда, при этом увеличивается и потенциальная стоимость обработки такого запроса.
В обновлении BigQuery появилось еще несколько новых функций. Улучшена поддержка отметок времени: теперь у клиентов есть возможность импорта временных отметок из других систем и включения отметок времени в запросы. Кроме того, пользователи могут добавлять колонки к уже существующим таблицам, определять закладки для наборов данных, к которым они имеют доступ, и получать автоматические электронные уведомления о предоставлении им доступа к новому набору данных.