Начнем не с начала, а с конца. С ответа на вопрос о том, кому может понадобиться такой инструмент. Perаspera Data Hunter, наш охотник за данными, или сокращенно PDH (так уж получилось…), может пригодиться многим. Это могут быть бизнес-аналитики, системные аналитики, аналитики данных, специалисты в области ИБ, технические специалисты. То есть все специалисты, вне зависимости от сферы их деятельности, кому необходимо работать с большими массивами различных данных. При этом неважно, собираются ли эти данные из открытых внешних источников, из внутренних источников, а может, из тех и других. Инструмент также будет интересен компаниям и командам разработчиков, которые решают технические и технологические задачи, связанные с обработкой больших данных, потому что PDH можно использовать в качестве «движка» — настраиваемого ПО промежуточного слоя, откуда можно выбирать нужные функции и создавать собственный интерфейс для их использования.
Несколько слов о том, что нового есть у нашего охотника. Отличительная черта PDH — наличие функции управления, позволяющей выполнять заранее подготовленные задания по поиску и сбору нужных данных как разово, так и по расписанию, подключать новые краулеры, участвующие в сборе нужных данных из нужных источников. То есть PDH использует старый проверенный принцип запуска пакетных заданий в режиме эксплуатации, при этом позволяя аналитикам творить свою магию.
Уважаемые аналитики, представьте ситуацию, когда вам надо найти целевые онлайн-ресурсы и скачать из них данные. Что вас ждет? Поисковый словарь состоит из нескольких сотен, а иногда и тысяч поисковых слов и выражений, и при этом он постоянно меняется. Кроме того, для решения разных задач, как правило, требуются разные словари. Источников данных для поиска и сбора у вас несколько десятков или сотен, а сами данные на целевых онлайн-ресурсах и во внутренних базах постоянно изменяются. Кому-то, в зависимости от специфики соответствующей бизнес-задачи, нужно искать и собирать данные круглосуточно, по расписанию, т. е. с использованием отлаженного и утвержденного процесса, а кому-то требуется проверить некую аналитическую гипотезу, т. е. поработать с данными разово. Как не запутаться во всем этом? Как понять, на какие кнопки в каком случае нажимать, особенно если речь идет о плановой работе с данными или подготовке к ней? Кстати, проверка гипотез часто приводит к разработке тех самых эксплуатационных процессов, о которых мы сказали выше.
А вы, администраторы, обеспечивающие техническую и технологическую стороны решения подобных задач? Вам не позавидуешь, потому что сетевая инфраструктура имеет свойство меняться, целевые онлайн-ресурсы меняют свою структуру и дизайн, кластер серверов, где запускаются и работают краулеры, как правило, загружен неравномерно в силу странной привычки пользователей работать, когда им удобно. Все это, конечно, сказывается на работе краулеров и загрузке админов. Прибавим сюда тот факт, что представителям разных департаментов необходим разный набор краулеров, который тоже требует обновления в силу изменения бизнес-задач. Ну и наконец, в случае необходимости решения новых бизнес-задач с использованием одного или нескольких новых источников данных, нужно создавать новые краулеры, которых и так может быть много. Как следствие, предсказуемо увеличивается объем работ как минимум по поддержке всего парка краулеров. Вопрос о том, как быть, если нужны новые краулеры, оставим за скобками.
Другими словами, всеми действиями, связанными с профессиональным поиском и сбором данных, необходимо эффективно и результативно управлять, особенно в тех компаниях, где объем подобных работ велик. Иначе эта деятельность в какой-то момент зайдет в тупик, станет неэффективной или даже неуправляемой. Очевидный факт: в современном цифровом мире управление невозможно без использования соответствующего инструментария, который в руках даже не очень умелого пользователя поможет ему добиваться нужного результата с минимальными сложностями.
Наша компания одной из первых в России начала работать с большими данными, поэтому мы столкнулись с такой ситуацией давно. Кроме того, с некоторого момента пришлось отказаться от зарубежных инструментов. Это было больно, потому что сложилось довольно длительное и тесное сотрудничество в области больших данных с крупнейшей американской корпорацией. Но жизнь не стоит на месте, и проектную работу мы продолжали уже на базе своих наработок. В какой-то момент поняли, что количество не переходит в качество, стали думать, что делать дальше. Проанализировали все проекты в поисках здравого смысла и своих лучших практик. Так и родился наш охотник за данными, который породил, в свою очередь, создание целой платформы, потому что хотелось обрабатывать нужные данные от момента сбора до момента получения конечного результата их обработки, каким бы он ни был. Но сначала родилась методология, позволившая структурировать всю нашу деятельность и довести работу над платформой и PDH до логического конца. Мы использовали весь этот комплекс, включая PDH, для решения множества бизнес-задач. Например, для проведения различных расследований по методам OSINT, KYC, для формирования датасетов в процессе машинного обучения (ML), для проведения глубокой аналитики с использованием внутренних данных, обогащенных внешними. Искали мошенников, выявляли лидеров общественного мнения, так называемых ЛОМов, признаки деструктивного поведения, различные тенденции. И это только часть примеров потенциального применения DH. Конечно, мы идем дальше, совершенствуем и развиваем то, что придумали и сделали. И мы с удовольствием предлагаем вам помощь, чтобы вы не повторяли наших ошибок. Приходите, смотрите, изучайте, используйте наш опыт и наши продукты.