Цифровизация не происходит мгновенно, а представляет собой достаточно продолжительный период преобразования модели управления организацией и управления данными. При выборе стратегии, методов и инструментов преобразования следует учитывать определенные тенденции.
Data Science: генерация новых знаний
Один из признаков старта цифровизации в компании — появление в ее штате специалистов по Data Science. Еще пять лет назад таких специалистов в производственных компаниях было очень мало, а сейчас они работают повсеместно, создавая новые знания, анализируя уже имеющиеся у организации данные, выявляя в них скрытые закономерности и предлагая бизнес-инициативы на основе данных.
Бизнес-гипотезы преобразуются в знания о предметной области, которые затем необходимо включить в систему управления знаниями компании, однако из-за «организационной инерции» внедрение происходит с разной скоростью. Тем не менее, как и до цифровой трансформации, исследования, направленные на повышение эффективности бизнеса, должны выполняться в тесной связи с бизнес-процессами. В противном случае результаты устаревают и не удается реализовать в бизнесе достигнутые преимущества.
Наличие исследователей данных в организации ускоряет внутренние процессы, связанные с анализом, и у компании имеются все основания, для того чтобы привлечь математиков, внедрить их в отдельные подразделения или создать единую службу Data Science, работающую по сервисному принципу.
Нейросети: анализ накопленных знаний
Глубинные нейронные сети позволяют решать многие прикладные задачи, связанные с анализом неструктурированных (текстовых, растровых, медиа-) данных. Недавно появилась принципиально новая нейросетевая архитектура — трансформеры, которые, благодаря распаралелливанию вычислений, обучаются значительно быстрее, чем ранее известные рекуррентные искусственные нейронные сети. Например, модели для обработки текстов на естественном языке GPT-3 от компании OpenAI и их русскоязычный аналог, разрабатываемый «Сбером», способны решать такие неалгоритмизируемые задачи, как машинный перевод и автоматическое аннотирование (реферирование).
Начиная с 1960-х годов считалось, что нейросети — лишь собирательный образ для семейства матричного представления коэффициентов и методов аппроксимации многомерных поверхностей. Другими словами, фактически это только набор чисел и формул. Однако в 2012 году случился прорыв: нейронные сети научились сами создавать признаки (features) из данных (появились глубинные сети), а не только строить нелинейную функцию для интерполяции признаков, созданных специалистами по машинному обучению. Стоит отметить, что нейросети сами по себе не могут накапливать знания и в процессе цифровизации организации выступают как один из инструментов для моделирования инженерных, экономических, контентных и других типов данных (структурированных и неструктурированных).
Для успешного применения нейросетей нужны компетентные сотрудники (математики, специалисты по анализу данных), вычислительные мощности и данные для обучения (необходимого качества, достаточного объема), а для этого требуется наладить процесс их сохранения в нужном формате.
Оцифровка неявных знаний
Цифровизация сопровождается тенденцией оцифровки неявных знаний — знаний «в головах сотрудников». Все знания компании должны быть оцифрованы — как явные, так и неявные. Последние не могут быть легко переданы другим (например, знание иностранного языка или владение методикой обработки петрофизических исследований). Такие знания уходят из организации вместе с сотрудниками, поэтому нуждаются в оцифровке для дальнейшего применения другими специалистами. Машинный перевод с одного языка на другой — пример оцифровки неявных знаний переводчика. Задача машинного перевода решалась на протяжении десятилетий и потребовала миллиардов примеров для обучения компьютерных моделей. Этот опыт нужно учитывать при оцифровке неявных знаний экспертов. Другой подход к оцифровке таких знаний — оцифровка не их самих, а эвристических правил, которые эксперт использует для принятия решений. Но такой подход обладает меньшей точностью и может быть неприемлемым для инженерно-конструкторских процессов.
Для оцифровки экспертных знаний сотрудников организации необходимо собирать и хранить большое число данных, которые требуются для моделирования неявных знаний [1].
Вспомнить все: извлечение знаний из архивов
Создание архивов данных для последующего извлечения из них знаний — важная особенность цифровизации, однако многие организации не имеют культуры накопления данных для последующего анализа. Архивы превращаются в базы знаний, если они обогащаются исторической информацией с помощью процессов слияния данных (data fusion). При этом архивы документов сами по себе не являются знаниями. Например, если архив протоколов собрания не обогащен информацией, на основании которой приняты решения, не разнесен по каталогу, не привязан к стратегии компании (эти данные можно обобщенно назвать исторической информацией), то ценность такого архива мизерна. Необогащенные архивы целесообразнее «забыть», так как их интерпретация может отнять много ресурсов и ввести в заблуждение.
Первым шагом к обогащению архивов исторической информацией является создание семантической сети для поиска по архиву. Далее необходимо привязать сущности архива ко времени и таксономии предметной области. Архив документов с выделенными и связанными сущностями может служить для получения озарений.
Коннекционизм
Рассмотрение знаний организации как системы взаимосвязанных информационных элементов базируется на концепции, называемой «коннекционизмом». Возможность получения знаний из системы определяет ее когнитивность. Наличие и качество связей между данными обусловливает степень зрелости когнитивности системы. Например, архив документов с построенными семантическими и прямыми связями между документами, позволяющими осуществлять навигацию, значительно легче познаваем, чем архив без таких связей.
Все данные компании, как уже имеющиеся, так и новые, необходимо автоматически связывать. Для этого проводится корпусный анализ документов, выделение бизнес-сущностей, автоматическое определение семантических связей и зависимостей, а также построение онтологических моделей методами нейронных сетей, машинного обучения, обработки естественного языка.
Знания и информационная безопасность
Цифровизация означает и новые принципы информационной безопасности, которая трансформируется (расширяется) до безопасности знаний. Знания организации, которые не нужно охранять, малоценны для бизнеса. Знания, участвующие в принятии бизнес-решений, не должны искажаться ни злоумышленниками, ни недобросовестными сотрудниками. «Должная добросовестность» в отношении знаний (knowledge due diligence) — важная тенденция цифровизации.
Права доступа необходимо разграничивать на уровне знаний, а не информационных материалов. В частности, семантический поиск (в том числе и ранжирование поисковой выдачи) должен проводиться с учетом прав конкретного пользователя. При анализе данных для обнаружения в них скрытого смысла также требуется учитывать ограничения и привилегии различных ролей и категорий.
Поиск знаний с учетом семантики
Повсеместное внедрение инструментов поиска — основная тенденция цифровизации. Корпоративный поиск становится все более «семантическим» благодаря постепенному подключению отдельных инструментов для учета семантики запроса и сопоставления с семантикой источников информации. В управлении знаниями поиск играет одну из ведущих ролей. Задача семантического поиска — найти именно то, что пользователь имел в виду, даже если его запрос неточный или неполный. Такой поиск в полной мере еще не реализован, хотя и существует в ограниченной форме. Но уже на данном этапе он способен ощутимо повысить эффективность поиска информации, что является одной из главных целей цифровизации в сфере управления знаниями.
К полноценному семантическому поиску движутся крупнейшие поисковики Сети, отслеживающие запросы и реакции миллиардов пользователей, а также корпоративные поисковые системы, которые могут быть обогащены инструментами, учитывающими семантику знаний компании.
К семантическому поиску можно идти по двум направлениям: научить машину самостоятельно понимать, что пользователь имел в виду, либо предоставить пользователю инструменты для уточнения семантики своего запроса: фасетную классификацию, тематические фильтры (на основе «мягкой» кластеризации), подсказки при вводе запроса. Чтобы лучше «понимать» намерения пользователя, система, помимо слов запроса, может учитывать дополнительные факторы — например, атрибуты корпоративного пользователя (подразделение, должностные инструкции, локализацию) [2]. Анализ запроса может включать сопоставление с тезаурусами и онтологиями предметной области. Система может отслеживать закономерности в потоке поисковых запросов пользователей и учитывать их при ранжировании результатов. Такие элементы семантического поиска не требуют какой-либо специализированной базы данных и вполне могут быть реализованы в рамках реляционной модели.
Повсеместный искусственный интеллект
Стратегической целью для многих компаний является использование в цифровизации преимуществ сильного искусственного интеллекта для получения знаний. Сильный искусственный интеллект — это составляющая прикладной интеллектуальной информационной системы, способная распознавать естественный язык и обладающая моделью принятия решений (проверки гипотез). Интеллект делят на «сильный» и «слабый». Первый способен не просто обработать информацию, но и понять ее смысл. Считается, что сильный интеллект обладает следующими возможностями: принятие решений, использование стратегий, действие в условиях неопределенности; представление знаний; планирование; обучение; общение на естественном языке. С другой стороны, для поиска ответа на вопрос пользователя оператору контакт-центра нужен не сильный интеллект, а быстрый, точный и формализованный ответ. Таким требованиям соответствуют системы управления знаниями, но для этого необходимо представить знания в определенном виде.
С точки зрения искусственного интеллекта знания следовало бы определить как представляемую в определенной форме информацию, ссылаясь на которую можно сделать различные заключения с помощью логических выводов на основании имеющихся данных. Применительно к сфере управления знаниями самым важным свойством сильного интеллекта является именно представление знаний. Понимать их смысл компьютеру помогают структурирование данных на основе онтологических моделей, содержащих описание концепций и отношений между сущностями, и формализация логических условий на специальных языках.
Машинное понимание естественного языка затрудняется множественностью трактовок и синонимией. Но в ограниченной предметной области и в рамках специальной задачи пространство трактовок сужается, и здесь искусственный интеллект приближается к сильному.
Уже сейчас системы выстраивают смысловые связи между единицами знаний с помощью векторных представлений текстовых документов, производят тематический анализ документов, определяют упоминания объектов (сущностей). Онтологическое моделирование предметной области позволяет «общаться» с системой на естественном языке — например, в рамках систем «вопрос-ответ» или поискового интерфейса.
***
Перечисленные тенденции в управлении знаниями затрагивают как новые технологии, так и способы их внедрения в реальные бизнес-процессы компании. Учет этих тенденций поможет оценить текущее состояние процесса управления знаниями в организации, а также наметить примерный план проекта цифровой трансформации в части обращения с накопленной и создаваемой информацией. Важно, что реализация разных изменений в соответствии с указанными тенденциями требует различных подходов: для одних преобразований нужно освоить новые технологии, а значит, привлечь специалистов и развернуть вычислительную инфраструктуру, а для других — в первую очередь изменить бизнес-процессы. Однако, так или иначе, важную роль во всех перечисленных направлениях цифровизации играет организация системы сбора и хранения всех данных, создаваемых компанией.
Литература
1. Федор Краснов. Нефтегазоразведка без Больших Данных // Открытые системы. СУБД. — 2015. — № 4. — С. 40–41. URL: https://www.osp.ru/os/2015/04/13047972. (дата обращения: 12.08.2021).
2. Федор Краснов, Ирина Смазневич. Секреты поиска в корпоративной сети // Открытые системы. СУБД. — 2021. — № 1. — С. 50–51. URL: https://www.osp.ru/os/2021/01/13055812. (дата обращения: 19.08.2021).
Федор Краснов (fkrasnov@naumen.ru) — директор департамента семантических систем, Ирина Смазневич (ismaznevich@naumen.ru) — бизнес-аналитик департамента семантических систем, компания Naumen (Москва).
DOI: 10.51793/OS.2021.69.40.002