Много лет занимаюсь построением статистических моделей и анализом всевозможных данных. Для этого очень важно получать как можно больше различной информации — тогда модели точнее. Не менее важно получать данные из самых разных источников — это обогащает взгляд исследователя. Data Hunter — то решение, которое позволяет мне, как аналитику данных, управлять сбором данных из открытых источников и которое я могу настраивать под свои задачи. «Почему в названии написала «Peraspera Data Hunter»?» — спросите вы. Все очень просто: Data Hunter — часть платформы Peraspera, в которую входит много удивительных помощников, делающих жизнь аналитиков легче и интереснее. Так что я теперь — настоящий охотник за данными, и в моих руках уникальный инструмент, позволяющий легко добывать больше данных с меньшими затратами. Мы с Data Hunter — большая сила. Мы понимаем, каким образом собираются данные из каких источников и насколько успешно проходит этот сбор. То есть мы понимаем, можно ли собранные данные обрабатывать дальше или надо поискать и собрать эти данные по-другому.
Именно возможность реализовать свои аналитические хотелки быстро, без всякого программирования создавая разные краулеры и отправляя их на охоту как свору натасканных на определенного зверя охотничьих собак, и отличает эту систему от обычного программирования на том или ином модном языке, используемом в работе аналитика данных. Уж слишком много времени при использовании, например, Python проходит от момента определения нужных источников данных до получения нужного результата, да к тому же и язык программирования изучать надо, и знания для настройки параметров поиска и сбора нужны совсем другие.
Я впервые воспользовалась Data Hunter для поиска информации о некоторых персонах из предоставленного мне списка. Инструмент новый, поэтому поначалу чувствовала себя не очень уверенно, но попробовать свежеразработанный Data Hunter в бою очень хотелось. Администратор помог подключить краулеры, а я уже их настраивала, указывала, что надо искать. Так, сначала выполнила поиск по жестким критериям совпадения, а потом провела поиск только по одному параметру, изменив запрос. Надо сказать, что ничего сложного в этом не было.
Искать надо было сразу в нескольких источниках — поисковиках и базах, к которым у нашей компании есть официальный доступ. Большинство поисковых платформ, которые я тестировала, работают либо с определенными внешними источниками, либо только с внутренними данными. А тут мало того, что есть возможность совместить поиск по нескольким внешним источникам, так еще и сразу же можно подключать внутренние источники, которые мне нужны. Для этого разработано большое количество различных параметров и настроек, позволяющих легко задавать поисковые запросы и объединять их в логические группы.
Скоро приступаю к новому проекту, где мне впервые понадобится новый источник данных. Теперь знаю, что для его подключения мне потребуется помощь программиста и администратора, которые под мои нужды создадут соответствующий краулер или спайдер и запустят его. Хотя работа не быстрая, она дает возможность расширять набор подключенных к моему охотнику источников и обновлять их, то есть охотничьи угодья безграничны. Сейчас вот жду возможности поисследовать портал открытых данных торгов по банкротству — вероятно, скоро и там можно будет поохотиться.
Чуть подробнее о настройках и интерфейсе, ведь всегда интересно заглянуть поглубже. Поделюсь своими впечатлениями.
Сейчас, на первом этапе появления Data Hunter, мне пришлось пройти некоторое обучение и получить от администратора информацию о том, какие краулеры уже подключены, какие из них мне нужны и что они умеют делать. Заодно пришлось понять структуру внутренних баз данных. Пока для общения с администратором пришлось идти проверенным путем: использовать нашу корпоративную систему взаимодействия. Но очень скоро появится внутренняя охотничья диалоговая система. Без нее никак, ведь администратор — важный человек в этой работе, хранитель ценных знаний.
Отдельная история — термины, используемые в процессе охоты. Да, у нас, у охотников, есть свой язык. Есть термины общего характера, а есть чисто наши — охотничьи, специальные. Поэтому потребовалось изучать инструкцию, руководство пользователя и сборник терминов и определений. В моем проекте появились никем не опознанные звери в виде отдельно стоящих терминов, с которыми пришлось побороться. Теперь все хорошо, но я понимаю, что такая работа имеет все шансы не заканчиваться никогда. Развивается охотник — растут и его запросы. Кто знает, что еще придумает разработчик Data Hunter.
Чем я уже пользовалась? На текущий момент во время выполнения задачи поиска по персонам я воспользовалась настройками для создания краулеров, постановки задач, запуска задания по расписанию и получения конечного результата сбора данных, которые выгрузила в эксель.
Очень полезным оказался справочник, где в одном месте собраны возможности по множественной настройке поисковых запросов, которые впоследствии можно использовать в автоматическом режиме.
А пока без помощи администратора никуда. Еще я воспользовалась Data Hunter для решения принципиально другой задачи — поиска не по персонам, а по предприятиям или государственным учреждениям. Перспектива использования открытых данных в аналитических моделях — как раз в разработке независимых систем мониторинга в тех случаях, когда есть много поднадзорных объектов и необходимо проверить достоверность предоставляемых ими сведений. Хочется поохотиться на более крупную дичь, тем более что это — тема моей диссертации, которую я недавно успешно защитила.
Автор статьи: Людмила Жукова, бизнес-аналитик, кандидат экономических наук