Результатом развития этой технологии стал пакет HParser — анализатор неструктурированных данных, способный переводить их в более структурированный вид для использования в задачах, решаемых на Hadoop.
В HParser входит набор библиотек для разбора различных типов данных, от широко распространенных стандартных документов XML до специфических форматов HIPAA, который используется в медицинских приложениях, или ASN.1, часто применяемого для описания коммуникационных протоколов. Пакет поставляется в двух коммерческих версиях, HParser Industry Standards и HParser for Documents, и в бесплатной, распространяемой компанией Hortonworks. Эта компания была учреждена Yahoo в июне и на днях представила свой вариант дистрибутива Hadoop.
Аналитики высоко оценили появление HParser. В его состав входят графические инструменты разработки процедур разбора данных, что может значительно облегчить внедрение HParser и Hadoop в корпоративной среде.