Анна Серебряникова возглавляет Ассоциацию больших данных с момента ее основания в 2018 году. Ассоциация объединила крупных отечественных владельцев больших данных с целью создания в стране благоприятных условий для развития технологий и продуктов в этой сфере. На протяжении многих лет Анна занимала руководящие позиции в российской телекоммуникационной индустрии, а не так давно начала развивать компанию nlogic, которая разрабатывает решения на базе технологий искусственного интеллекта по автоматизации работы с любыми типами документов.

25 февраля Анна Серебряникова вместе с коллегой по nlogic Ксенией Дроздовой выступит на конференции «Качество данных — 2021», которую организует издательство «Открытые системы».

Мы побеседовали с Анной Серебряниковой о проектах nlogic, о том, какие требования к качеству данных предъявляют системы искусственного интеллекта, и, конечно, о наиболее важных задачах, которые решает сегодня Ассоциация больших данных.

Что может ИИ в документообороте

-Вы много лет проработали в телекоме. Как появилась идея компании nlogic, почему выбрана именно такая область применения искусственного интеллекта?

Работа в телекоме операционным директором дала мне возможность понять основные направления развития корпораций на ближайшие пять лет. Для крупного бизнеса и для государства сегодня на первый план выходит задача цифровой трансформации, а один из главных ее стимулов — стремление повысить операционную эффективность. Проект nlogic позволяет оптимизировать работу с документами во всех сферах деятельности организации.

Так родилась идея. Почему ставка была сделана на искусственный интеллект? Потому что это самая передовая и перспективная технология для извлечения смыслов из любой документации.

- Какие возможности дает ИИ в работе с документами?

Технологии искусственного интеллекта позволяют отслеживать ключевые для бизнеса параметры, которые отражаются в документообороте, повышать прозрачность процессов и контролировать состояние дел в режиме реального времени. Деятельность любой компании базируется на работе с документами — от заключения договоров, выставления счетов, подписания закрывающих документов до рассмотрения споров, претензионной работы и т. д. Ключевая проблема состоит в том, что документов очень много и они создаются различными подразделениями. Поэтому в большинстве компаний встает задача контроля статуса платежей и обязательств.

Продукты, которые разрабатывает nlogic, автоматизируют и оптимизируют юридически значимый документооборот. Наши инструменты помогают повысить качество и ускорить обработку документации в любом бизнес-процессе, благодаря чему время сотрудников высвобождается для решения творческих и интеллектуально более сложных задач.

- Что именно добавляют решения nlogic в документооборот: помогают находить нужные в данном контексте или неявно связанные документы, оцифровывают, исправляют, улучшают, структурируют документы, распознают, оптимизируют процессы?

Мы делаем все из перечисленного. Наши продукты обеспечивают полный цикл работы с документами: распознавание, генерацию электронного документа и его автозаполнение данными из исходного документа, автопостинг данных в целевые системы компании, соотнесение справочников и классификаторов и многое другое.

- Не возникает ли проблема недоверия к результатам работы ИИ, если речь идет о юридически значимых документах?

Сегодня искусственный интеллект — это в первую очередь рекомендательные системы, то есть предполагается, что на выходе человек проверит, насколько правильно отработали алгоритмы. Уже есть примеры полностью электронного документооборота для простых бизнес-процессов, без участия человека. Но в случае сложного процесса, например контрактных переговоров или претензионной работы, результат будет верифицировать специалист.

- На какие компании рассчитаны ваши решения?

Подобными проектами интересуется весь крупный бизнес, государство. Трудно кого-то выделить. Известно, что телеком, банки всегда на переднем крае инноваций, но сейчас нет такой отрасли, где не были бы заинтересованы в использовании технологий искусственного интеллекта. Посмотрите на программы цифровой трансформации, которые сейчас принимаются для всех ведомств в России. В каждой так или иначе предусмотрено внедрение ИИ.

- А с какими проблемами вы сталкиваетесь в реализации своих проектов? С чем они связаны: с технологиями, законодательством, незрелостью заказчиков?

Поскольку рынок новый и бурно развивается, то в той или иной степени присутствуют все эти факторы. Во-первых, качество данных. Развитию искусственного интеллекта в этой области поможет внедрение всеобъемлющего электронного документооборота, для которого качество входящей документации имеет принципиальное значение.

Второе — это необходимость перестраивать бизнес-процессы внутри компании. Сначала мы думали, что сможем внедрять коробочные решения, но опыт показывает, что без перестройки бизнес-процессов использование технологий ИИ не дает максимально возможного эффекта с точки зрения повышения операционной эффективности. Поэтому мы работаем не только над технологиями, но и над формированием новых бизнес-процессов у заказчиков (иногда самостоятельно, иногда с привлечением партнеров), а это более трудоемкая деятельность. Но это тоже особенность развивающегося рынка.

Что касается недоверия к технологиям, то многие компании уже достаточно с ними поэкспериментировали. Еще год назад мы сталкивались с завышенными ожиданиями: заказчики порой рассчитывали на то, что ИИ полностью заменит человека. Сейчас, как мне кажется, все компании, которые развиваются в этом направлении, понимают, что внедрение ИИ — поступательный процесс. Этапы завышенных ожиданий и первоначальных разочарований многими уже пройдены, и компании, которые внедряют такие проекты, способны реально оценить, какого эффекта можно достичь с применением технологий искусственного интеллекта.

Если говорить о законодательстве, то для проектов на базе ИИ в первую очередь важна возможность получать так называемое мультисогласие на обработку персональных данных. Это регуляторная проблема, решением которой мы занимаемся в Ассоциации больших данных.

- Какие требования предъявляют проекты на базе ИИ к качеству данных?

В работе с искусственным интеллектом первый шаг — это правильный датасет. Это означает, во-первых, широкую выборку различных вариантов документов, с которыми предстоит работать ИИ, во-вторых — разнообразие этой выборки. Искусственный интеллект как ребенок: ему нужно учиться на разных примерах. Если примеры одинаковы, то из этого трудно извлечь много пользы. Третья характеристика правильного датасета — исторический срез, то есть нужно иметь возможность посмотреть, как люди работали с данным бизнес-процессом до внедрения ИИ. Из этой информации можно получить немало полезных инсайтов о том, как строить проект на базе ИИ. Люди изобретательны, и этой изобретательности нужно обучить искусственный интеллект.

- Применение ИИ в документообороте — насколько развито это направление на российском рынке? Есть ли у вас конкуренты?

Конкуренция, безусловно, есть, и она растет. Когда мы организовывали nlogic в конце 2018 года, конкурентная среда была намного слабее, а за последние два года появилось много подобных проектов. Этим занимаются как крупные компании, так и стартапы.

И это очень хорошо. Во-первых, формируется доверие к технологиям. Во-вторых, есть с кем соревноваться, что очень важно для нового бизнеса. Конкуренция продвигает компанию вперед.

Ценность объединенной экспертизы

- Есть ли в деятельности Ассоциации больших данных направление, связанное с искусственным интеллектом?

Такое направление есть — это машинное обучение, без которого невозможно работать с большими данными. В Ассоциации мы работаем в первую очередь с большими массивами данных. Эти массивы уже накоплены внутри компаний — участников АБД, и все эти компании так или иначе работают в направлении развития ИИ для своих задач. И конечно, те датасеты, которые мы формируем в наших песочницах, тоже пригодны для проектов на базе ИИ.

- В принятой Ассоциацией Стратегии развития рынка больших данных до 2024 года описываются несколько возможных сценариев — от пессимистичного до «сценария мечты». По какому сценарию идет это развитие сейчас?

Реализуется средний сценарий. Из достижений я могу назвать законодательство о регуляторных песочницах, очень важное для работы с данными. Мы в Ассоциации планируем несколько проектов в рамках регуляторных песочниц. Например, уже идет проект «Собственное дело» — создание рекомендательного сервиса для малых и средних компаний по открытию или развитию своего бизнеса. Этот проект реализуется на объединенных данных из различных отраслей. Мы считаем, что это прорывная история с точки зрения доступности аналитики больших данных для бизнеса самого разного масштаба (подробнее о проекте см. в статье «Открой свое дело! А искусственный интеллект поможет», проект «DobroData. Данные на службе добра». — Н.Д.).

Задача объединения данных из различных источников — очень интересная и сложная, в том числе с точки зрения качества данных. Необходима сквозная разметка данных, но при этом нужно соблюдать законодательство и, например, оставлять персональные данные внутри контура доноров — организаций, которые данные предоставляют. Нужно учиться объединять данные на синтетических идентификаторах.

Еще две большие темы в области законодательства, над которыми мы работаем в Ассоциации, — это персональные данные и обезличивание. К сожалению, там все двигается не так быстро, как хотелось бы, но, тем не менее, идет в правильную сторону. Методики обезличивания сочетают технологические и организационные методы защиты данных. Это мировой тренд, к которому нам в России тоже нужно присоединиться. Одна из наиболее важных задач нашей Ассоциации на этот год — работа с обезличенными данными, причем без потери качества, что очень важно.

Кроме того, есть большая европейская инициатива по созданию так называемых посредников данных — доверенной среды для работы с данными. Здесь мы тоже видим перспективы и рассчитываем на то, что сможем аналогичные предложения обсудить с нашим государством и впоследствии включить в регуляторику.

- Насколько Ассоциация способна влиять на регуляторные процессы?

Мы стараемся обеспечить максимально широкие возможности для диалога с государством, в первую очередь для того, чтобы предоставить экспертизу лицам, принимающим решения в госуправлении. В АБД мы можем четко рассчитать, какой экономический эффект способна обеспечить правильно налаженная работа с большими данными по каждому из направлений. Ни один из больших проектов в части регуляторики по данным не проходит без нашего экспертного мнения, что говорит о востребованности экспертизы АБД на государственном уровне.

АБД — уникальная площадка по качеству собранных компетенций, потому что наши участники — лидеры рынка работы с данными. Наша объединенная экспертиза очень ценна. И, по моему мнению, Ассоциация предоставляет качественную поддержку государству в принятии решений.

- В целом, какие у Ассоциации есть механизмы взаимодействия с государством?

Представители Ассоциации активно участвуют в рабочих группах по совершенствованию законодательства в сфере технологий, которыми руководят или в которые входят представители различных государственных органов. Также АБД часто сама инициирует взаимодействие с госорганами по различным аспектам использования данных. Например, мы организовали открытый круглый стол на тему доступа бизнеса к государственным данным, в котором приняли участие многие ведомства. Членами АБД являются Аналитический центр при Правительстве РФ и Центр стратегических разработок, которые активно участвуют в проектах Ассоциации. Я вхожу в состав большого количества рабочих групп в рамках АНО «Цифровая экономика» — это тоже площадка для диалога между бизнесом и государством.

Кроме того, представители различных министерств принимают участие в нашем совете по совершенствованию практик работы с данными. Это общественный совет, который рассматривает заявления компаний о присоединении к Кодексу этики использования данных и готовит для включения в «Белую книгу» кейсы, демонстрирующие, как правильно работать с данными в различных областях.

Так что я не могу пожаловаться, что государство нас не слышит. Проблем с построением диалога у нас нет.

- АБД объединяет крупные компании. Есть ли смысл в представительстве в Ассоциации малого бизнеса? Ведь многие интересные и важные сервисы на данных разрабатывают именно небольшие компании.

Для взаимодействия со стартапами и малым бизнесом у АБД есть песочница и сервисы, которые мы можем предоставить инноваторам и стартапам. Такие сервисы выделены в специальное направление в рамках реализации нашей стратегии развития рынка.

Кроме того, в прошлом году мы решили, что нам нужны участники из максимально широкого спектра отраслей, которые не будут членами Ассоциации, но смогут подключаться к интересующим их темам и проектам АБД. И в начале весны мы планируем кампанию привлечения таких участников. Так мы сможем расширить круг организаций, задействованных в работе по направлениям нашей стратегии.

- Тема качества данных является фундаментальной для любых проектов с использованием данных. Есть ли у АБД инициативы в этой области?

Мы в Ассоциации считаем, что ключевой составляющей качества данных является законная доступность данных для создания аналитических моделей. И это означает, что, с одной стороны, необходимы четко установленные регуляторные рамки, а с другой — нужно развивать доверие рынка к продуктам, которые строятся на базе аналитики больших данных. Ассоциация ведет работу в этом направлении в рамках целого комплекса инициатив по улучшению регуляторики, развитию технологий российской разработки, подготовки инфраструктуры для реализации таких проектов.

Логика документооборота

Ксения Дроздова, руководитель команды ML-разработки nlogic, рассказывает о технологиях, которые используются в проектах компании, и подходах к обеспечению качества данных.

«Наши решения основаны на двух больших направлениях искусственного интеллекта: обработка естественного языка и компьютерное зрение. В рамках этих направлений мы используем широкий стек алгоритмов машинного обучения, нейронные сети, а также развиваем классические инструменты обработки естественного языка — например, нашу библиотеку NER, которая решает задачу извлечения именованных сущностей (это адреса, имена, даты, деньги и пр.).

Кроме того, у нас есть отдельный модуль, который, в отличие от ИИ, отвечает за жесткую логику. В нем доуточняется работа моделей с использованием разных правил — например, происходит сверка распознанных значений со справочниками или проверяется корректность данных с помощью математических формул.

Успехи проектов с ИИ очень сильно зависят от качества исходных данных. Для себя мы сформулировали следующий подход к сбору данных. Если мы автоматизируем не новый бизнес-процесс, а процесс с накопленными данными, то самым оптимальным будет отгрузить все данные в сыром виде за какое-то продолжительное время, например за последний год. Так мы получим достаточное количество данных, будем уверены в их репрезентативности и сможем заранее проводить тестирование, максимально приближенное к продуктивной эксплуатации.

Если нет возможности передать накопленные данные, требования к датасету будут включать три пункта. Во-первых, достаточное количество данных. При этом абсолютное значение зависит от проекта: где-то достаточно ста примеров, где-то не хватит тысячи. Во-вторых, разнообразие, под которым мы понимаем предоставление многообразия форм, в которых могут быть представлены данные в автоматизируемом процессе. И третье — качество. Строгое описание требований к качеству данных зависит от проекта. В наших проектах по автоматизации работы с документами нужен неиспорченный читаемый текст, то есть документы в хорошем разрешении, без полос, черных пятен и прочих артефактов».

 

Об Ассоциации больших данных

Ассоциация больших данных (АБД) создана в России осенью 2018 года. Сегодня участниками Ассоциации являются «Яндекс», Mail.Ru Group, Сбер, «Газпромбанк», группа «Тинькофф», «МегаФон», «Ростелеком», oneFactor, группа QIWI, «Билайн», МТС, фонд «Сколково», ВТБ, Аналитический центр при правительстве Российской Федерации, Центр стратегических разработок. Основная цель Ассоциации — создание условий для развития технологий и продуктов в сфере больших данных в России.

АБД работает над формированием единых принципов и стандартов обработки, хранения, передачи и использования больших данных. В 2019 году была принята Cтратегия развития рынка больших данных РФ до 2024 года и подготовлен Кодекс этики использования данных.

Среди ключевых задач Ассоциации — развитие новой отрасли больших данных в России, усиление влияния технологий больших данных на эффективность основных отраслей экономики страны, формирование благоприятного правового режима для функционирования продуктов на основе больших данных.