Компания Google ввела в действие предварительную версию полностью управляемого сервиса Cloud Dataflow, позволяющего создавать конвейеры для обработки произвольных объемов данных — их загрузки (в том числе из внешних источников), преобразования и анализа. Одна и та же модель программирования используется для создания конвейеров, обрабатывающих данные в пакетном и поточном режимах. Настраивать и сопровождать низкоуровневую инфраструктуру организации конвейера и обработки данных пользователю не требуется.
Примеры применения — анализ высказываний о каком-либо продукте в социальных сетях в реальном времени; контроль журналов операций на аномальную активность, могущую свидетельствовать об инцидентах безопасности.
Сервис построен на основе технологий анализа данных реального времени, применяемых в самой Google, — Flume и MillWheel. Первая агрегирует большие объемы данных, вторая обрабатывает с низкой задержкой. Сервис сопровождается SDK для построения конвейеров. Вначале будет поддерживаться только Java, впоследствии, возможно и другие языки программирования.