Искусственный интеллект для масштабируемой персонализации

Проблема персонализации стала темой обсуждения многих мероприятий, докладов и научных исследований. Появляются сотни технологических решений и сервисов, а соответствующие продукты уже сформировали свой отдельный рынок. Для директора по аналитике (или директора по данным) ключом к реализации возможностей персонализации, открывающихся благодаря доступности колоссальных объемов данных о клиентах, стало внедрение масштабируемых средств аналитики. Однако, несмотря на огромные инвестиции и широкий круг доступных технологий, предприятия по-прежнему испытывают сложности, когда дело касается персонализации взаимодействия с клиентами и сотрудниками. В ходе испытаний проекты иногда приносят убедительные результаты, но при запуске в промышленную эксплуатацию нередко оканчиваются провалом, так как требуется слишком большое участие человека на этапах разработки гипотезы, моделирования и подготовки данных, тестирования и оптимизации. Поддерживать сразу множество аналитических приложений оказывается непрактично и дорого, поскольку в большинстве случаев до момента получения полезных результатов проходит слишком много времени.

Новые подходы, основанные на использовании искусственного интеллекта и машинного обучения, позволяют ускорить процесс персонализации при меньших затратах ресурсов и получить на выходе более полезные с практической точки зрения сведения о клиентах, которые можно применять без чрезмерных трудозатрат на их добычу.

Слишком много данных, слишком мало знаний

Современные приложения обладают широкими функциональными возможностями, но в некоторых отношениях оказываются недостаточно развитыми, в частности, они не могут генерировать и автоматически проверять большое количество гипотез на всем объеме получаемых сегодня данных. Число гипотез и моделей ограничено возможностями человека, привлекаемого для их настройки, в связи с чем большая часть возможных процедур анализа упускается.

Пример — задача оптимизации запасов для авиакомпании с целью обеспечения максимальной выручки без ухудшения качества обслуживания пассажиров, влияющего на их лояльность. В рамках сценария персонализации можно учесть недавний опыт и историю покупок пассажира, чтобы предложить повышение класса обслуживания, однако применение традиционных аналитических процессов (составление, тестирование и оптимизация различных сценариев) здесь нецелесообразно, поскольку, чтобы получить оптимальный результат обработки и моделирования, требуется слишком большой объем ресурсов.

Нехватка времени и внимания

Покупательская активность в онлайн-магазинах, по всем прогнозам, будет расти. Кроме того, сегодня все больше бизнес-операций совершается с помощью мобильных устройств, а их пользователи все больше времени проводят на сайтах электронной коммерции. В связи с этим требуется постоянно повышать уровень персонального обслуживания, чтобы предлагать покупателям наиболее привлекательные для них варианты выбора на устройствах с ограниченным размером экрана. У интернет-магазинов появляется больше данных для анализа и персонализации, однако период времени, в течение которого эти знания можно применить, становится все меньше. По мере роста онлайн-активности потребителей и корпоративных покупателей необходимо повышать эффективность и скорость персонализации этих взаимодействий. Сегодня становится все сложнее успевать выполнить анализ до принятия покупателем решения, одновременно обрабатывая растущий объем данных по клиентам (рис. 1).

Искусственный интеллект для масштабируемой персонализации

Рис. 1. Выручка отрасли электронной коммерции (в млрд долл.) и время, затраченное на покупки на различных устройствах. Успевать выполнить анализ, пока покупатель принимает решение, и параллельно обрабатывать все больше данных по клиентам становится все сложнее

В 2017 году объем онлайн-сделок во всем мире превысил 2,1 трлн долл., это на 26% больше, чем двумя годами раньше, а время, в течение которого можно повлиять на покупательское решение, сократилось до 5-7 минут в зависимости от типа используемого устройства. За этот период необходимо успеть применить к имеющимся сведениям о покупателе всю аналитику, чтобы персонализировать взаимодействие с ним.

Персонализация при омниканальном маркетинге

При измерении эффективности различных каналов маркетинга, включая цифровую рекламу, социальные СМИ и телефонные опросы, организация может располагать такими исходными данными, как: показатели удовлетворенности клиентов; вероятность того, что клиент будет рекомендовать товары или услуги другим; высказываемое отношение к продукту или бренду; показатели эффективности (например, доля переходов по ссылке из сообщения электронной почты, посещаемость сайта, конверсии, уровень текучки, статистика продаж по категориям); демографические сведения о клиентах (возраст, пол, этническая принадлежность, уровень благосостояния, образования, местонахождение).

Организация может использовать следящие URL для выяснения параметров, определяя корреляцию между маркетинговыми кампаниями и ростом событий конверсии, включая сделки электронной коммерции, регистрации для получения контента, запросы дополнительного общения с представителем компании и пр. Сведения о переходах по сайту дают дополнительную информацию для прогнозирования последующих действий или предпочтений, связанных с конкретными сегментами покупательской аудитории и сценариями использования.

Общая совокупность входных данных при этом состоит из сведений, поступающих из большого числа различных систем, а конверсия является последним этапом потенциально длинной серии действий и взаимодействий. Каждый этап улучшает или ухудшает представление покупателя о бренде и уровне обслуживания, в конечном счете определяя вероятность конверсии.

В связи с этим можно предложить и проверить ряд важных гипотез, в том числе о том, какой конкретно контент наиболее эффективен для привлечения клиентов в рамках омниканальной стратегии; как тон обращения (шутливый, строгий и т. д.) влияет на последующие действия клиента; как меняется покупательское поведение в зависимости от продуктовой линейки, канала, сайта, демографического сегмента, намерения пользователя; как история взаимодействий влияет на вероятность конверсии в будущем.

Время и усилия, затрачиваемые на проведение анализа вручную, могут не окупиться за счет соответствующего увеличения выручки — моделирование и проверка гипотез требуют долгих циклов разработки, отстающих от темпов развития рынка: тенденции покупательского поведения меняются быстрее, чем удается применить результаты анализа. Даже если моделирование и тестирование проводятся оперативно, перед анализом еще могут потребоваться значительные усилия на сбор, очистку, интеграцию и структурирование данных. Такая предварительная обработка данных удлиняет процесс и увеличивает общие затраты на программы аналитики и персонализации. Кроме того, возможна потеря нюансов при передаче моделей от разработки в производство или от специалистов по исследованию данных к аналитикам по операционной деятельности. Соответствующие трудности вкратце иллюстрирует рис. 2.

Рис. 2. Проблемы проектов персонализации

Переход от исследований к рабочему применению сложен в любых средах и отраслях, от фармацевтики до производства, а решение везде одно и то же — стандартизация процессов и многократное использование компонентов и моделей для улучшения КПД и получения других преимуществ за счет эффекта масштаба. Иными словами, чтобы получить желательные преимущества, необходимо спроектировать и разработать «фабричную» аналитическую модель.

«Крафтовые» модели данных и ученые-умельцы

Крафтовое пиво и хлеб мини-пекарен создаются умельцами, не щадящими времени и усилий на их изготовление. Модели персонализации во многих интернет-магазинах первого поколения вручную создавались похожим образом «умельцами» — исследователями данных. Если у вас достаточный бюджет, вы можете покупать суперкары за миллионы долларов, спроектированные по индивидуальному заказу, но большинство довольствуется серийными товарами, имеющими превосходные характеристики. Так и наука о данных, прогнозная аналитика и приложения машинного обучения сегодня становятся более доступными по цене, приобретая возможности, которые соответствуют по своему уровню приложениям предыдущих поколений, стоившим на порядки дороже.

Из каких элементов состоят современные «фабрики» персонализации? Важнейшее значение для масштабируемой системы персонализации имеют качество и происхождение источников данных. Если доверять им нельзя, приходится тратить немалые усилия на очистку, извлечение, преобразование, загрузку и другие действия с данными для обеспечения возможности их интеграции в аналитические модели. Именно на этом этапе обычно начинаются сложности, а в итоге исследователи тратят время на операции, связанные с информационной архитектурой (очистку, структурирование и интеграцию), вместо решения более ценных аналитических задач, для работы с которыми их и наняли (рис. 3). Такую «гигиену» необходимо проводить для обеспечения достаточной чистоты и надежности данных, чтобы их можно было использовать для решения конкретных задач бизнеса — например, для цифрового маркетинга.

Рис. 3. Распределение времени исследователей данных. Значительная его часть расходуется на ручную работу, связанную с информационной архитектурой, а не на более ценные аналитические задачи

Как облегчить работу исследователей данных

Иногда в компаниях не видят альтернативы использованию труда исследователей данных для решения рутинных задач. Ведь чтобы можно было доверять результатам работы программ персонализации, необходимо провести всестороннюю проверку точности данных, обеспечить требуемое их качество и согласованность. Но эти обязательные этапы нужно выполнить еще до того, как за дело возьмется исследователь. За них должны отвечать отделы компании, создающие данные, а также служба ИТ, предоставляющая необходимую инфраструктуру руководства в сотрудничестве с бизнесом. Другими словами, исправлять проблемы и приводить информацию к корпоративным стандартам нужно ближе к источнику уже на этапе «обслуживания данных» (data stewardship), а не расходовать на это дорогостоящие усилия исследователей.

Важно также разработать согласованные правила именования и определения данных, что позволит упростить поиск и доступ к информации. Метаданные необходимо гармонизировать и оптимизировать, удаляя нестандартные и лишние термины и поля в рамках процессов обеспечения качества. Наряду с этим необходимы официальный глоссарий компании и набор справочных метаданных (в форме каталога, словаря или репозитория).

Многие проблемы, связанные с очисткой данных, считаются хорошо изученными и легко преодолимыми. Но это не всегда так — для ряда вполне стандартных случаев требуется изменение правил владения данными, процессов и в конечном счете культуры организации с переходом ответственности от ИТ к бизнесу (или как минимум партнерства с бизнесом). Чтобы преодолеть путь от рождения гипотезы до ее проверки, подтверждения и применения в качестве бизнес-инструмента, требуется проделать значительный объем работы, в том числе по управлению процессами и контентом. В рабочей аналитической среде немало усилий будет потрачено на подготовку данных и контента, тонкую настройку приложения и конфигурирование, то есть на задачи, связанные с информационной архитектурой, без которых персонализация невозможна.

Масштабирование прикладной аналитики

Время, за которое покупатели делают свой выбор, продолжает сокращаться, а спрос на масштабируемые решения по персонализации растет. Исследователи данных вынуждены активно искать средства автоматизации подготовки данных, действующие ближе к источнику. При этом требуется разрешить ряд проблем.

Многие проекты в организациях, осуществляемые различными группами или отделами, начинаются с одних и тех же входных данных, и если их не консолидировать и не централизовать, то подготовительную работу каждый раз придется проводить заново. Это замедляет скорость реагирования отделов, обслуживающих различные этапы взаимодействия с покупателем, из-за чего мнение покупателя о компании ухудшается.

После того как данные подготовлены, а модели (например, оптимизирующие предложения для определенного сегмента клиентуры) отлажены, требуется потратить немало усилий на переход от «песочницы» исследователя к подготовке решения и к его рабочему применению. Много времени отнимает встраивание процессов и технологий в среду взаимодействия с покупателем. Пример — определение верных составных частей предложения для различных сегментов клиентуры и предоставление их через сайт и мобильные приложения.

Причина в том, что среда разработки сильно отличается от рабочей. Исследователи данных чаще всего не занимаются определением потребностей клиентов в различных сегментах рынка, не создают контент и специальные предложения. Различаются и технологические среды. Исследователь может создать модель с помощью аналитического инструмента в «песочнице», а ИТ-отделу, чтобы запустить приложение в рабочую эксплуатацию, приходится перекодировать переменные и модели с помощью более масштабируемого инструментария для Hadoop.

Рабочие данные варьируются в более широких пределах, чем тестовые, вследствие чего исследователям заново приходится проверять их на модели. Когда проект переходит в окончательную рабочую стадию, многие аналитические сведения оказываются в документах, хранящихся в различных репозиториях, в кодах различных версий приложений и головах специалистов. По мере текучки персонала значительная часть этих знаний вообще теряется.

Платформы персонализации на основе искусственного интеллекта

Платформы искусственного интеллекта и машинного обучения предлагают много новых возможностей обработки данных и персонализации, позволяя строить и оптимизировать весьма крупномасштабные аналитические модели. В частности, разработаны механизмы, реализующие основные этапы подготовки данных и преобразования задач бизнеса в аналитические модели.

Путь данных от источника к практическим знаниям состоит из множества этапов, часть из которых может выполнить такая платформа. Прежде всего данные должны пройти предварительную обработку для нормализации, учета отсутствующих сведений и проверки точности. Далее выполняется проектирование признаков (feature engineering) для определения или создания переменных. Будучи компонентом информационной архитектуры, эти этапы требуют активного участия человека. Остальные стадии включают выбор признаков (отбор подмножества всех имеющихся признаков для упрощения модели и более быстрого получения результатов), построение модели и подготовку к рабочему использованию.

Не все аспекты проектирования признаков можно автоматизировать, но существует ряд методов, позволяющих на систематической основе генерировать многие признаки. Например, при создании признаков с применением схемы задается общая структура различных объектов предприятия, состоящая из клиентов, продуктов, поставщиков, концепций кампаний и др. Впоследствии закономерности и особенности поведения можно время от времени сравнивать с референтными группами, коллегами по отрасли или другими срезами данных. Кроме того, для создания признаков без знаний в конкретной области можно применять глубинное обучение; при этом вводимые человеком данные, основанные на знании проблемной области, используются для расширения модели путем создания дополнительных признаков.

Прибегая к систематическому проектированию признаков совместно с автоматизированными и полуавтоматическими методами построения, можно более быстро и экономично создавать сотни прогнозных моделей. Платформный подход также позволяет в значительной степени автоматизировать этапы от разработки до ввода в эксплуатацию. Семантический уровень для моделей, источников данных и аналитических сведений обеспечит пользователям возможность выполнять поиск и повторно использовать входные данные и результаты.

Конечный результат — «демократизация» возможностей исследования данных в организациях вместо сосредоточения соответствующих функций в нескольких хорошо финансируемых отделах с высококвалифицированными сотрудниками. Тем самым высвобождается время исследователей, что позволяет им создавать больше моделей. А специалисты по бизнес-аналитике и бизнес-пользователи получают возможность на повседневной основе применять знания, предоставляемые исследователями. Таким образом, данные становятся услугой, используемой для создания алгоритмов. Платформа выполняет функцию оркестровки данных и технологий, решающих задачи бизнеса. На этом уровне интерпретируются «сигналы» от данных, обрабатываемых алгоритмами, которые генерируют результаты для одной или более технологий, задействованных в зависимости от выходных данных.

На этом «сигнальном» уровне выполняется вся обработка больших объемов данных, в том числе поступающих в реальном времени сведений о действиях на сайтах и в социальных СМИ, показаний датчиков, а также операционных и транзакционных данных. Такая схема помогает стандартизовать и консолидировать источники, обеспечив подготовку данных для аналитической рабочей среды, где выполняются отладка и тестирование алгоритмов. Кроме того, такой подход позволяет упаковывать алгоритмы для экспорта в рабочие системы без потерь избирательности. На рис. 4 приведено сравнение системы на основе сигнального уровня с традиционным стеком для создания моделей персонализации и получения аналитических знаний.

Рис. 4. Традиционный и платформный подходы к персонализации

Недавно в компании Netflix усовершенствовали механизмы персонализации, позволяющие предоставлять каждому пользователю рекомендации по просмотру контента согласно его предпочтениям. Зная вкусы индивидуальных пользователей, Netflix теперь может коррелировать эти сведения между миллионами пользовательских «сигналов», обновляя движок рекомендаций с учетом знаний, получаемых каждую минуту. Благодаря использованию схемы с сигнальным уровнем, исследователи данных Netflix непрерывно получают новые сведения о клиентах и тестируют гипотезы без перестройки аналитических моделей для каждой из них.

Получение пользы от данных — одна из приоритетных задач директоров по маркетингу. Но во многих организациях у маркетологов нет опыта применения средств искусственного интеллекта и машинного обучения для работы с данными. Платформа с сигнальным уровнем способна помочь директору по маркетингу оптимально задействовать ограниченные кадровые ресурсы, организовав многократное использование решений, разрабатываемых в компании. Обязанность директоров по данным — приумножать, улучшать данные и повышать отдачу от информационных активов. Для этого требуются механизмы, обеспечивающие предварительную подготовку данных и преобразование в формат, удобный для применения бизнес-пользователями. Эту задачу и помогает решить платформный подход.

***

Задача предварительной обработки данных состоит в их оптимизации, которая позволяет независимо от дальнейшего использования с помощью средств искусственного интеллекта или машинного обучения, работающих на сигнальном уровне, обеспечить подготовку к применению в бизнес-приложениях. Такой подход позволяет рациональнее использовать рабочее время исследователей данных благодаря обеспечению независимости входных данных от сценариев их применения, а также подготовке аналитических моделей к эксплуатации с помощью стандартизованных алгоритмов, доступных в форме библиотек функций искусственного интеллекта. Система сохраняет реализованные процессы для повторного использования, избавляя от многократного моделирования и разработки одноразовых алгоритмов. По мере роста объема аналитических знаний и обработки отзывов, поступающих от эксплуатационного отдела, платформа с сигнальным уровнем становится корпоративной непрерывно обучающейся системой, которая развивается по мере обнаружения влияния различных параметров на решение задач бизнеса.

Литература

M. Lazar, Click. Buy. Done. These ‘M Commerce’ Statistics Show that Smartphone Shopping Is Viral. Huffington Post blog, 22 Au

Сет Эрли (seth@earley.com) — генеральный директор Earley Information Science.