Deutsche Bank располагает 46 хранилищами данных, созданными за последние 20-30 лет. В них находятся петабайты данных, зачастую дублирующих друг друга. Извлечение данных и приведение их в порядок обходится очень дорого. Непонятно даже, какие именно результаты в банке хотят получить от анализа собранных данных, добавил Цзян. Но они наверняка будут ценными.
С аналогичными проблемами сталкивается налогово-таможенная служба Великобритании, рассказал на той же конференции представитель компании Capgemini. Решить их пока не удается. Практически все известные ему установки Hadoop работают с новыми наборами данных. Подключение современных средств анализа к имеющимся базам данных — задача пока не решенная, отметил он.