Наука о данных (data science) очень быстро становится одной из самых востребованных специализаций в ИТ. Актуальность этого сегмента обусловлена во многом тем, что его исходный материал – структурированные и неструктурированные данные – производится рекордными темпами. Сейчас анализом данных, доступным когда-то лишь таким гигантам Интернета, как Google и Amazon, занялись организации всех мастей и размеров, и возможным это стало благодаря появлению мощных и недорогих инструментов для исследования данных – спектр их варьируется от Microsoft Excel до Python и Hadoop.
Наука о данных открывает перед профессионалами прекрасные карьерные возможности, позволяя им очень хорошо зарабатывать. В отличие от давно устоявшихся технологических функций (например, администрирования баз данных), наука о данных является совсем молодой областью. А это, в свою очередь, предполагает увеличение открытости по отношению к новым профессионалам и тем, кто желает приобрести дополнительные навыки.
С чего можно начать свой путь в ученые по данным?
Кто приглашает и сколько предлагают
Даже беглого взгляда на объявления с предложением работы в LinkedIn достаточно, чтобы понять: спрос на ученых по данным весьма высок. В январе 2016 года было опубликовано 3500 объявлений о вакансиях. Диапазон предлагаемых должностей простирается от старшего ученого по данным до ученого-аналитика и инженера по Большим Данным. В числе работодателей – и гиганты Интернета, и известные финансовые фирмы, включая Amazon (более 70 вакансий), Booz Allen Hamilton (более 70), Bloomberg, Oracle, Commerce Bank и Capital One.
Тем, кто намерен заниматься наукой о данных, обещают очень приличную зарплату. По результатам опроса O’Reilly Media «2015 Data Science Salary Survey», средний годовой заработок ученого по данным в США составляет 104 тыс. долл. И это только начало. В отчете Robert Half Technology 2016 Salary Guide говорится, что в 2016 году зарплата ученых по данным варьируется от 109 тыс. долл. до 154 тыс. долл.
Шестизначные зарплаты и значительное число открытых вакансий побудили ряд компаний направить в эту область специальных рекрутеров. Университеты и профессиональные ассоциации наперебой предлагают разнообразные программы по обучению анализу данных и навыкам работы с ними.
Что ищут работодатели
Компания Microsoft известна своими продуктами, которые приносят ей миллиарды долларов, а также приверженностью к исследованиям и разработкам. Новые разработки требуют активного привлечения ученых по данным и экспертов по машинному обучению. По информации LinkedIn, Microsoft пригласила на различные должности более 400 ученых по данным, причем некоторые из них имеют докторские степени. Компания активно нанимает специалистов в области исследования данных путем прямой вербовки, при этом предпочтение отдается опытным профессионалам.
«Прием на работу в Microsoft ученых по данным в настоящее время выливается в весьма волнующий процесс, потому что они имеют возможность пройти собеседование сразу в нескольких подразделениях», – делится своим видением перспектив, открывающихся в области исследования данных, специалист Microsoft по подбору персонала Робин Макмахон, специализирующаяся на наборе специалистов по данным и по машинному обучению. Ученые по данным работают в Microsoft над созданием целого ряда продуктов, включая Azure, Xbox и Bing.
Data scientist – это ученый, человек, который живет в мире математики и готов день и ночь изучать компьютерные системы
«В области исследования данных нас интересуют различные знания и навыки, – добавила Макмахон. – Наличие публикаций в этой сфере является для кандидата отличным способом выделиться из числа всех прочих». Microsoft регулярно направляет специалистов по подбору кадров на конференцию Strata для встреч с профессионалами. Научная степень в сфере информатики приветствуется, но не является обязательной.
При достаточной настойчивости и упорстве карьеру в области науки о данных можно начать, даже не проходя официального обучения.
«Стремление к самообразованию и страсть к исследованию данных – вот отличительные черты профессионалов в этой сфере, – отметил Джереми Стэнли, вице-президент по науке о данных в Instacart, специализирующейся на электронных продажах бакалейных товаров и услугах доставки. – Лично я предпочел бы дать кандидатам несколько заданий, а не ограничиваться одним лишь чтением резюме. Прежде всего меня интересуют имеющиеся у них навыки решения поставленных задач и способность качественно написать программный код».
По словам Стэнли, процесс приема на работу в Instacart включает выполнение обязательного домашнего задания и проверку навыков работы в команде.
Помимо хорошей математической подготовки и знания компьютерных технологий, ученый по данным должен понимать, какое влияние данные оказывают на клиентов и продукты
Помимо хорошей математической подготовки и знания компьютерных технологий, ученый по данным должен понимать, какое влияние данные оказывают на клиентов и продукты. «Умение задавать правильные вопросы и стремление к постоянному обучению имеют очень важное значение для людей, желающих добиться успеха на своем нынешнем месте или ищущих новую работу», – пояснил Стэнли.
История одной карьеры: от гостиничного бизнеса к науке о данных
Джейд Бейли-Ассам несколько лет назад поставила перед собой цель стать ученым по данным и за прошедшее время сумела добиться неплохих результатов. Получив степень бакалавра гостиничного бизнеса, Бейли-Ассам начала свою карьеру в крупном отеле Wynn Las Vegas. В университете она занималась информационными исследованиями, и это помогло ей лучше узнать технологии и способы их применения в бизнесе.
«В 2009 году я получила назначение в Wynn, где занималась изучением социальных медиа, – вспоминает она. – В ходе реализации этого проекта меня заинтересовало направление обработки естественного языка и смыслового анализа». В то время смысловой анализ, который довольно часто используется сегодня в маркетинге для оценки и обобщения отзывов о компании, представлял собой довольно сложную задачу.
Одним из популярных приемов сейчас является анализ больших объемов комментариев в социальных сетях (например, сообщений Twitter) с разбиением их на категории (с положительными и отрицательными отзывами). Некоторые компании уже выпускают соответствующее программное обеспечение, использующее средства обработки естественного языка.
Чтобы развить свои навыки, Бейли-Ассам поступила на заочное отделение Института исследования данных Колумбийского университета. Перед тем как начать обучение, она прошла несколько математических курсов университетского уровня, которые помогли ей получить дополнительные знания в новой области. «Изучение классов алгоритмов стало отличным введением в эту тему, – заметила Бейли-Ассам. – Применять компьютерные подходы, разбивая задачу на несколько простых частей, бывает очень полезно. Учеба в Колумбийском университете помогла мне лучше справляться со своей работой. В одном из недавних проектов требовалось подготовить для клиента данные с использованием Adobe Analytics. После нескольких попыток мне удалось выработать структурированный подход к решению задач и успешно завершить проект».
Сегодня, работая в компании McKinsey & Co., Бейли-Ассам очень часто принимает участие в аналитических проектах, реализуемых в интересах клиентов.
«В реальной жизни мы то и дело сталкиваемся с информационными пробелами, разрывами и дополнительными трудностями, обусловленными качеством обрабатываемых данных, – подчеркнула она. – Поэтому надо развивать у себя навыки очистки данных. Данные HTML, например, сначала следует очистить с помощью сценария, написанного на VBA. Только после этого можно приступать к их анализу с использованием Microsoft Excel или других инструментов». Помимо Excel и Access, в состав набора инструментов Бейли-Ассам входят Python, R и разнообразные API для сбора данных.
«Если вас интересуют вопросы науки о данных, нужно заранее задуматься о совершенствовании своей компьютерной и математической подготовки, – указала Бейли-Ассам. – Важно понимать, что наука о данных является относительно новым направлением, поэтому здесь нужна гибкость. Для начала можно обратить внимание на курс введения в науку данных Coursera».
Сертификация как подтверждение квалификации
Сертификация – хорошо известная возможность для карьерного продвижения в сфере ИТ, и наука о данных не является исключением.
«Статус сертифицированного аналитика (certified analytics professional, CAP) говорит работодателю о том, что человек прошел независимую проверку своих знаний и навыков в области анализа», – пояснила Полли Митчелл-Гатри, старший менеджер SAP и председатель совета по сертификации аналитиков в Institute for Operations Research and the Management Sciences (INFORMS), разрабатывающем программу CAP.
Со времени утверждения этой программы в 2013 году сертификат CAP получили уже 300 профессионалов.
INFORMS предлагает нынешним и будущим специалистам в области анализа данных широкое многообразие различных ресурсов, в том числе несколько аналитических конференций, библиотеку публикаций и постоянно совершенствующиеся образовательные программы. Присоединение к этой организации, изучение ее публикаций и участие в конференциях открывают дополнительные возможности по части освоения профессии и поиска новых перспектив.
«Программа CAP хорошо подходит как для математиков с научной степенью, так и для людей, не обладающих такими глубокими техническими знаниями, поскольку она охватывает весь процесс анализа, – отметила Митчелл-Гатри. – Математик может оказать серьезную помощь в построении модели и устранении пробелов при постановке и описании задачи».
Программа CAP охватывает несколько направлений, в том числе решение бизнес-задач, постановку аналитических задач, построение модели и управление жизненным циклом. Сертификация CAP базируется на анализе навыков и умений, необходимых для проведения анализа в реальных условиях.
Большое значение имеет и нейтральная по отношению к конкретным поставщикам природа CAP. «Умение использовать то или иное приложение и навыки программирования являются необходимым, но недостаточным условием для успешного анализа данных, – подчеркнула Митчелл-Гатри. – Объединение знаний специализированного программного обеспечения с методологией CAP в руках профессионалов в области анализа становится очень мощным оружием».
Спрос со стороны работодателей на конкретные сертификаты, в том числе и на CAP, свидетельствует об их рыночной ценности. Как правило, крупные организации ищут специалистов, имеющих сертификаты CAP. Сертификат CAP включен, например, в обязательные требования в объявлениях о вакансиях, размещенных компаниями Sports Authority, Accenture и FedEx. «Спрос на аналитиков, как прогнозируется, сохранится на высоком уровне, поэтому я ожидаю, что число номинантов на получение сертификата CAP будет лишь увеличиваться», – заметила Митчелл-Гатри.
И это неудивительно, ведь наука о данных сулит немало плюсов.
– Bruce Harpham. Career boost: Break into data science. InfoWorld. February 25, 2016