Еще в июне компания Informatica включила в свою платформу коннектор для кластерной платформы с открытым кодом Hadoop, предназначенный для перемещения данных между кластерами Hadoop и другими хранилищами данных. Результатом развития этой технологии стал пакет HParser – анализатор неструктурированных данных, способный переводить их в более структурированный вид для использования в задачах, решаемых на Hadoop. В HParser входит набор библиотек для разбора различных типов данных, от широко распространенных стандартных документов XML до специфических форматов – HIPAA, используемого в медицинских приложениях, и ASN.1, часто применяемого для описания коммуникационных протоколов. Пакет поставляется в двух коммерческих версиях, HParser Industry Standards и HParser for Documents, и в бесплатной, распространяемой компанией Hortonworks. Эта компания была учреждена Yahoo в июне и на днях представила свой вариант дистрибутива Hadoop.
Аналитики высоко оценили появление HParser. В его состав входят графические инструменты разработки процедур разбора данных, что может значительно облегчить внедрение HParser и Hadoop в корпоративной среде.