Цифровизация на сегодняшний день охватывает практически все отрасли экономики. Государство заинтересовано в цифровой трансформации и выступает инициатором в законодательной сфере, так как цифровизация обеспечивает прозрачность всех процессов. Проект «Искусственный интеллект», утвержденный в 2020 году, продлен до 2030 года.

В феврале 2024 года в ходе оглашения послания Федеральному собранию президент Российской Федерации Владимир Путин поручил утвердить национальный проект «Экономика данных» также на период до 2030 года, в рамках которого объединены действующие инструменты поддержки развития цифровой экономики, в целях выстраивания единого механизма внедрения передовых разработок искусственного интеллекта и высокотехнологичных проектов.

Профессиональное сообщество уже готово поддержать экономику данных. В 2021 году Минцифры был запущен проект «Цифровые профессии» в рамках федерального проекта «Кадры для цифровой экономики», в связи с анонсированием дефицита кадров в ИТ-отрасли. В проекте представители категория «инвалиды» могли получить образовательные услуги с 100% скидкой. Бизнес также запускает собственные инклюзивные инициативы, одной из таких инициатив стал запуск бесплатного обучающего курса по разметке данных, разработанного совместно с NtechLab, и MTS AI и «Нетологией», для людей с расстройствами аутистического спектра (РАС).

Чтобы искусственный интеллект научился распознавать речь или изображения, ему нужно показать тысячи, и даже десятки тысяч примеров (чем больше — тем лучше), где ту же задачу решил человек. Подготовка таких наборов данных и называется разметкой данных.

Проект позволяет решить сразу три важных задачи. Во-первых, спрос на профессиональных разметчиков данных постоянно растет и наблюдается их дефицит с ростом применения ИИ. Во-вторых, проект выполняет важную социальную роль по адаптации людей с РАС, возможности выпускникам программы стать востребованными. Наконец, работа разметчика предполагает долгий и однообразный труд, требующий внимания, усидчивости, способности обнаружить свои ошибки. Для большинства сотрудников действия строго по инструкции и без разнообразия воспринимаются тяжело, но не для людей с РАС. В силу специфики функционирования когнитивных функций именно шаблонная работа дается им легче всего, и они становятся лучшими разметчиками. Таким образом, особенности РАС в каком-то смысле становятся конкурентным преимуществом в разметке данных.

С максимальной поддержкой

Обучающий материал включает различные форматы с разными каналами коммуникаций, и за счет этого удалось сделать качественный курс с полным погружением в практику. Сначала слушателям с помощью обучающих видео дают теорию: что такое разметка данных, кто такой разметчик и какая у него роль в производстве продуктов ИИ. Затем идет синхронная часть, когда человек имеет постоянную поддержку эксперта. Он смотрит вебинары, может задать вопросы и получить немедленные комментарии. Как выяснилось, многие с удовольствием задают вопросы в чате, хотя, казалось бы, не всем это может быть комфортно. После каждого вебинара студент выполняет домашнюю работу, получает обратную связь и планомерно движется дальше. В целом, за весь курс слушатель должен обучиться разметке видео и изображений, а также разметке аудио и текста. В конце он выполняет итоговые задания.

В завершении курса у программы предусмотрен «карьерный блок», который очень важен, поскольку людям с РАС довольно трудно коммуницировать. За счет карьерного блока слушателей готовят и позволяют адаптироваться к тому, что их ждет в компании или на фрилансе, как им найти работу. Людям требуется понимать, как работает большая ИТ-компания, какова их роль, как общаться с сотрудниками, с коллегами, с начальником.

«Я бы не сказала, что этот курс простой. Но его отличие от «обычных» курсов в довольно низкой нагрузке, максимальном разъяснении и даже «разжевывании» материала, и вдобавок есть конспекты – то есть слушатель учится в очень удобном и довольно медленном формате. Вместо двух недель обучение занимает два месяца», – отмечает Наталья Перепелкина, менеджер продуктов направления B2G в «Нетологии». Из «фишек», которых нет в обычном курсе, можно выделить многоступенчатую систему отбора: кандидатов тестируют на психологическую готовность к обучению, на наличие навыков общения с компьютером. Только после того, как становится ясно, что человеку действительно будет полезен этот курс, он начинает обучение.

Для обучения выбраны самые популярные программы для разметки данных, актуальные для рынка, – CVAT и Label Studio. Со своей стороны, организаторы сделали, чтобы у человека не было с ними никаких проблем: разработаны подробные инструкции и сделан бесшовный переход между инструментами, что очень удобно.

Самое главное, что на этом курсе оказывается невероятно много поддержки со стороны экспертов. В этом большая заслуга МТС AI и NtechLab, потому что это бесплатный проект, когда люди работают просто «за спасибо», но готовы отвечать студентам круглосуточно. Получается практически индивидуальное обучение, когда каждый окружен заботой.

Масштабирование опыта

«Мы никогда не работали в таком формате до того момента, как в проекте «Цифровые профессии» не появилась эта целевая аудитория. Нам требовалось обучить несколько тысяч людей с инвалидностью, причем совершенно разной, на наших курсах. Мы с этой задачей справились, но одно дело – адаптировать существующий курс, делая его инклюзивным, и совсем другое – разрабатывать его заново для очень специфической аудитории», – говорит Перепелкина.

Разметка данных: когда «особенности» становятся конкурентными преимуществами
Наталья Перепелкина: «Конечно, люди с РАС совершенно разные, и изначально было понятно, что кому-то подойдет этот курс, а кому-то – нет. Но если человеку нравится работать с компьютером и цифрами, то это точно история для него, и это очень хороший шанс попробовать себя в ИТ и, возможно, начать двигаться дальше»

В прошлом году NtechLab – крупная компания, занимающаяся производством систем искусственного интеллекта, пришла в «Нетологию» с историей о сотруднике с РАС, который невероятно хорошо справляется с задачами разметки данных. Предложение состояло в масштабировании этого опыта. Подключив к проекту МТС AI, у которой тоже были подобные кейсы, специалисты взялись за дело. Курс создавался именно с расчетом на людей с расстройствами аутистического спектра. Научно доказано, что эти люди справляются с разметкой данных точнее, чем все остальные. Более того, им нравится выполнять монотонную работу, им это комфортно.

«Конечно, люди с РАС совершенно разные, и изначально было понятно, что кому-то подойдет этот курс, а кому-то – нет. Но если человеку нравится работать с компьютером и цифрами, то это точно история для него, и это очень хороший шанс попробовать себя в ИТ и, возможно, начать двигаться дальше», – подчеркивает Перепелкина.

Перспективы для дальнейшего развития проекта можно признать огромными. С развитием ИИ объем разметки данных непрерывно растет, поэтому будет требоваться все больше и больше исполнителей. Это работа, требующая большой усидчивости и концентрации, способности на протяжении длительного времени выполнять рутинные задачи, и компаниям очень важно найти хороших исполнителей на длительный срок.

Первые результаты

На данный момент завершено обучение четырех потоков. При этом выяснилось, что показатель доходимости курса (Completion Rate) – процент слушателей, успешно завершивших обучение, составляет 50-60%. Это гораздо выше аналогичного показателя обычных курсов в NtechLab, который не превышает 30-40%.

«Это значит, что мы хорошо попали в целевую аудиторию: люди понимают, зачем они учатся, и мы грамотно адаптировали под них «айтишный» курс. Они показывают хорошие результаты, и теперь важно, чтобы каждый человек, который хочет найти работу, ее нашел», – говорит Перепелкина. Показательно, что работу хотят найти многие выпускники. После карьерного блока обучения они обретают веру в себя и не боятся идти дальше, подавая заявки на стажировку. С одним из выпускников начал сотрудничество Сбер, и это может стать сигналом для рынка.

Чувствовать себя востребованным

«Я бы хотел продолжить заниматься разметкой данных. Главное – чувствовать себя востребованным», — говорит Герман Сысуев, выпускник курса для людей с РАС, сотрудничающий c платформой TagMe.

Для него обучение уже не было сложным: ранее он, работая в проекте Газпрома, занимался разметкой данных, поэтому часть материала была знакома. Занятия на курсах проводились два раза в неделю и длились по семь часов. В целом по времени обучение заняло три месяца.

«Мне очень понравилось получать новые знания, позволяющие найти свое место в жизни. Особенно полезным был материал блоков, связанный с разметкой видеоданных, а также сравнением текстов», — отмечает Сысуев. Кроме того, было интересно изучать решение CVAT для разметки видео и изображений и Label Studio для обработки аудио и текста. Запомнилось и чуткое отношение преподавателей, а также процесс подготовки дипломной работы. А в качестве пожеланий Сысуев предлагает добавить в занятия больше интерактива и наглядности, семинаров, а также визуального сопровождения.

Взаимовыгодная история

Проект коллаборации компаний «Нетология», MTS AI и NtechLab по подготовке людей с расстройствами аутистического спектра к профессиональной деятельности по разметке данных стала лауреатом премии Data Award 2023 в номинации «Данные без границ», учрежденной Сбербанком.

«Доступность данных является краеугольным камнем развития искусственного интеллекта, поскольку на эффективность работы моделей AI влияет не только качество алгоритмов, но и качество данных, включая их разметку. Мы видим, что конкуренция перемещается именно в сторону данных и их подготовки. Поэтому в рамках премии Data Award Сбербанк поддерживает проекты, устраняющие барьеры работы с данными», — уточнила Мария Поликанова, управляющий директор Департамента управления данными Сбербанка, руководитель Стратегического комитета Ассоциации больших данных.

Однако востребованы ли выпускники учебного курса? И возможно ли применение полученных ими знаний на практике?

«Мы пригласили некоторых выпускников данного курса для участия в пилоте по разметке данных на платформе TagMe», — рассказывает Александр Потемкин, исполнительный директор — начальник Центра компетенций по подготовке данных для машинного обучения Сбербанка. Разметка данных – наша ключевая компетенция, обеспечивающая работу приложений Сбера, использующих искусственный интеллект. Для нас важны скорость и точность разметки данных. А данных у нас очень много. Поэтому мы приглашаем к сотрудничеству всех, кто хочет и умеет размечать данные. Мы довольны сотрудничеством с выпускниками коллаборации. Они продемонстрировали хорошую подготовку и высокую мотивированность».

Для отрасли и общества

Проект транслирует уникальный пример коллаборации участников рынка в целях реализации социально-значимых проектов, нацеленных в то же время на повышение эффективности бизнеса в области работы с данными. Примечательно, что конкурс на получение премии Data Award фокусируется не только на классических проблемах – управлении данными и развитии систем искусственного интеллекта, но и дает импульс развития новым направлениям. Его организаторы надеются, что с каждым годом участие в Data Award будут принимать все больше проектов, направленных на реализацию социально-значимых инициатив в сфере развития искусственного интеллекта и работы с данными.