Объем продаж технологий предсказательной аналитики (Predictive Analysis, PA) или прогнозной аналитики ежегодно увеличивается на 8-10%, и ясно, почему так происходит: PA позволяет рассчитывать будущее, что является самым важным для бизнес-аналитики. О РА еще можно сказать, что это подмножество области, называемой разработкой, или добычей данных (data mining), поскольку прогнозирование существующих и будущих тенденций строится на сведениях, содержащихся в уже накопленных данных. В основе РА лежат самые разные методы моделирования: кластеризация, деревья решений, регрессионное моделирование, нейронные сети, добыча текстов (text mining), проверка гипотез и др. Все эти разные методы объединены основной, давно известной идеей, сформулированной Ванневаром Бушем в 1945 году в статье As We May Think, где он описал приложение к своему гипотетическому компьютеру memex: «Важно не просто извлечь данные, но включить их в процесс получения знаний". Таким образом еще в те годы он поставил задачу, решаемую компьютерами на протяжении всех последующих десятилетий, — задачу трансформации данных в информацию и далее в знание. Потребовалось более 60 лет, чтобы этот, казалось бы, тривиальный тезис из предвидения стал превращаться в реальность. По сути, РA является одним из инструментов для осуществления той трансформации, которую предсказал Буш.
Компьютерная история чрезвычайно запутанна, и в ней не часто обнаруживаются проявления разума, возвращающие естественный ход эволюционному процессу, происходящему в информационных технологиях. К числу таких редких прецедентов следует отнести постепенное формирование критического отношения к трехбуквенным сокращениям — акронимам (three-letter acronym, TLA), которые с 80-х годов господствуют в ИТ, деформируя развитие отрасли. В результате, вместо того чтобы решать кардинальные проблемы пользователей, производители предлагают бизнесу одну за одной очередные серебряные пули, обзывая их той или иной TLA и действуя по принципу: "Есть новая TLA — нет проблем". И вот мы имеем системы учета ресурсов (Enterprise Resource Management, ERP), управления цепочкой поставок (Supply Chain Management, SCM), учета отношений с клиентами (Customer Relationship Management, CRM), управления жизненным циклом изделий (Product Lifecycle Management, PLM), предприятие, движимое данными (Data Driven Enterprise, DDE), работающее в реальном времени (Real-Time Enterprise, RTE), управляемое с учетом контента (Enterprise Content Management, ECM) или знаниями (Enterprise Knowledge Management, EKM), с оценкой производительности (Business Performance Management, BPM), на базе процессов (Business Proccess Management, BPM) и предоставляемых бизнесу сервисов (Business Service Management, BSM).
Эволюция ИТ: от продуктов до услуг
Об облаках сейчас много говорят и пишут, причем часто приходится слышать неквалифицированные скептические воззрения, порожденные недопониманием сущности происходящей сегодня «сервисной революции» в ИТ. |
Бизнес годами охотно и безропотно проглатывал все эти обещания, однако в недрах любой, страдающей внутренними пороками системы рано или поздно рождается кризис: в середине прошедшего десятилетия обнаружилась порочность бесконечного процесса порождения TLA, приведшего к тому, что большая часть инвестируемых в ИТ средств уходит сегодня на поддержание существующей инфраструктуры. Переосмысление сложившейся ситуации привело производителей в ужас — они осознали, как сами себе построили ловушку, названную "крест ИТ", из которой имеется несколько выходов, и основной упор делается на сервисную модель. Уже сейчас некоторые перспективно мыслящие компании стремятся отказаться от имиджа поставщика ERP, CRM или прочих TLA, подчеркивая свою способность решать комплексные проблемы. Но беда в том, что наследие, оставленное многолетним доминированием маркетинга над наукой, заметно мешает тому, чтобы назвать вещи своими именами.
PA и data mining
К созданию моды в информационных технологиях, по мнению Ларри Эллисона, немало причастны "ИТ-кутюрье" — отраслевые аналитики, которые свято следуют одному из известных постулатов канцлера Бисмарка: «Говорите правду, одну только правду — но не всю правду». Излишняя откровенность явно повредила бы их бизнесу, основанному на публикации дозированной правды. Это их усилиями порождаются бесконечные новые названия, скрывающие простую истину, постулированную еще Бушем, а именно то, что любые информационные системы в конечном счете решают одну и ту же задачу — вне зависимости от конкретного TLA их функция сводится к выборке нужного подмножества из всего множества корпоративных данных с последующим преобразованием этих данных в форму, удобную для восприятия человеком. Если называть вещи своими именами, то следует признать, что любые системы служат для преобразования сырых данных в полезную информацию. Преобразования могут быть самыми разными, от простых запросов к базе данных до сложнейшей процедуры поиска скрытых закономерностей, составляющих суть РА. Закономерность обращения к анализу этого типа очевидна, ведь с увеличением разнообразия, качества и количества накапливаемых данных и с повышением мощности доступных вычислительных ресурсов открывается возможность для более серьезной, чем прежде, аналитической работы с данными.
Стремление каким-то образом извлечь скрытые данные вовсе не новость, близкие подходы называли управлением знаниями (knowledge management), обнаружением знаний (knowledge discovery), приданием смысла (sense making). Более техничным является data mining — разработка, вскрытие данных, интеллектуальный анализ данных. Разработка данных находится на границе нескольких областей знаний: управление базами данных, искусственный интеллект, машинное обучение, распознавание образов, визуализация данных и др., а PA является одной из ветвей разработки данных. В русскоязычной версии Википедии можно найти следующее определение: "Прогнозная аналитика охватывает множество методов из статистики, интеллектуального анализа данных и теории игр, анализирует текущие и исторические факты для составления предсказаний о будущих событиях". С ним можно согласиться с поправкой на то, что прогноз может быть нацелен не только в будущее, но и рассматриваться как снятие неопределенности в текущей ситуации. В англоязычной литературе наибольшее распространение получил термин Predictive Analysis. От других аналитических подходов прогнозный анализ отличается приближенностью к выбору решений, а не к мониторингу и оперативному управлению.
До сих пор область PA была элитарной, доступной серьезным математикам-статистикам и специалистам по количественному анализу, но, как обычно бывает, со временем область демократизируется — появляются новые и более доступные широкой публике по цене и сложности инструменты. Для более активного распространения PA складываются объективные условия, поскольку накапливаются огромные объемы неструктурированных данных, для работы с которыми создаются содержательные методы анализа текстов и технологии для работы с большими данными типа MapReduce и Hadoop. С определенным допущением можно сказать, что традиционные средства BI переходят на потребительский уровень и становятся ширпотребом, а PA занимает их авангардное место и образует площадку для конкуренции. Сейчас критически важно, кто первым предложит средства, которыми смогут пользоваться бизнес-аналитики и другие специалисты в прикладных областях, непрофессионалы по работе с информацией. Такие средства должны быть ориентированными на пользователя, не требовательными в работе с ними, обладать способностями к самообслуживанию и быть интегрированными с существующими технологиями BI, а также с инструментами, в том числе с хранилищами данных, поддерживаемыми классической аналитикой.
Бизнес начинает переосмысливать роль данных, и примером тому служит ставшая популярной, опубликованная в феврале 2011 года в Harvard Business Review статья "Как превратить ваши старые данные в золото бизнеса" (How to Turn Old Data into Business Gold). Понятно, что дело не столько в самих данных, сколько в технологиях, способствующих получению дополнительной информации. Для использования РА в качестве средства для извлечения этого «золота» и составления прогнозов есть несколько оснований. С одной стороны, имеются проверенные аналитические методы, основанные на математике, теории вероятностей, статистике, базах данных, прогнозном моделировании, отдельных дисциплинах искусственного интеллекта, например машинного обучения. С другой — у представителей "реального мира" складывается положительное отношение к аналитическим методам: около 90% внедривших приложения предсказательной аналитики положительно оценивают полученные результаты, а средняя оценка экономической эффектности проектов РА составляет 145%. О том, что "лед тронулся", свидетельствуют несколько событий: в середине 2009 года в состав корпорации IBM вошла компания SPSS; стала проводиться конференция Predictive Analytics World, ориентированная на приложения предсказательной аналитики для целей бизнеса; IBM провела первый корпоративный форум IBM Business Analytics Forum.
Практика предсказательной аналитики
Первые попытки использовать математические средства моделирования для предсказания будущего экономических систем отмечены задолго до появления более известных сегодня BI-систем. Методы предсказательного моделирования были предложены в начале 60-х, а популярный в корпоративных информационных системах термин BI появился 20 лет назад. В силу разных причин до недавних пор предсказательное моделирование и BI были разграничены, хотя служат они общей цели – обеспечить понимание того, что происходит сейчас, сделать предположения о будущем и определить, какие действия следует предпринимать. Сегодня сложились условия для сближения этих двух областей — BI-системы становятся более интеллектуальными и получают функционал, необходимый для прогнозирования, а в результате конвергенции двух понятий сложилось направление, которое получило название "предсказательная аналитика" (predictive analysis).
Одним из производителей решений в области предсказательной аналитики является компания KXEN, продукты которой построены на основе статистической теории обучения, разработанной Владимиром Вапником, и работают на объемах наблюдений, позволяющих создавать устойчивые прогнозные модели, в условиях ограниченных данных и с учетом множества переменных. На базе теоретических наработок KXEN рынку предлагается ряд продуктов, предназначенных для решения таких задач, как анализ и сегментация клиентской базы, управление оттоком клиентов, интеллектуальный анализ, интерпретация данных и предсказательная аналитика. Эти продукты могут применяться телекоммуникационными компаниями — оптимизация тарифной сетки, банками — предсказание дефолта по кредитным картам, сбытовыми компаниями — определение структуры спроса и разработка ценовых предложений.
Одним из новых направлений в предиктивной аналитике KXEN является построение Complete Customer Dashboard (CCD) – таблиц или графиков, отображающих актуальный индивидуальный статус по любому клиенту: фактические данные о клиенте, полученные из системы CRM; набор расчетных данных -прогнозируемая прибыльность клиента, сегмент, лучшее следующее действие для данного клиента (Next Best Action, NBA), вероятность оттока и др.
Для обеспечения индивидуального подхода в KXEN могут учитываться несколько тысяч атрибутов поведения клиента, что позволяет создавать уточненные предложения для каждого клиента; например, телекомунникационная компания Belgacom узнала о склонности клиентов преклонного возраста оформлять подписку на услуги цифрового телевидения, и теперь департамент маркетинга модифицировал услугу, добавив бесплатную установку и настройку оборудования.
Подход CCD отличается от метода группировки клиентов по общему признаку. Например, если вы работаете в банке с миллионом клиентов и после некоторых манипуляций c электронными таблицами узнали, сколько из этих клиентов находятся в неактивном состоянии, сколько проживают в центральном регионе, у скольких на данный момент имеются невыплаты взносов по кредиту, то вы можете спланировать маркетинговую кампанию. Конечно, в любом банке все эти факторы учитываются, но часто бывает, что к моменту начала кампании данные уже устаревают и часть неактивных клиентов ушли к конкурентам, часть проживающих в центральном регионе уехали в отпуска, а часть невыплат по кредиту уже погашена. Без учета этих факторов результативность маркетинговой кампании будет ниже ожидаемой. С помощью предиктивной аналитики можно предусмотреть и нейтрализовать факторы, мешающие успеху кампании.
В решениях KXEN обрабатывается множество фактических данных – любое событие для каждого клиента, будь это пополнение счета или появление задолженности, учтено. Часть этих данных отображается в CCD и составляет "фактический блок", но предиктивная аналитика так бы не называлась, если бы показывала только данные "по факту". Для предсказания вероятности события учитывается множество факторов, например в проекте для UniCredit Bank при расчете одной из моделей использовалось более 700 параметров. Модели, построенные на основе анализа прошлых кампаний, содержат ряд условий, необходимых для осуществления новой маркетинговой кампании, а продукты KXEN поочередно примеряют эти условия к каждому клиенту из выборки и на основе моделей формируют список наиболее полно отвечающих условиям. Таких условий может быть несколько десятков, и KXEN, оценивая каждого клиента, предлагает оптимальный вариант работы с ним: одному предложить кредит наличными, другому – кредитную карту через контактный центр, а третьего пока не трогать.
CCD являются мощным инструментом как при разработке стратегии, так и при планировании отдельно взятой кампании. KXEN позволяет перестраивать модели – анализировать результаты кампании по предыдущей модели и интерпретировать их для создания новой. Высокая эффективность моделирования позволяет произвести расчет рекомендуемой для заемщика суммы кредита, вероятности дефолта (начальной и текущей), вероятности просрочки платежей, вероятности досрочных выплат. Таким образом, KXEN используется не только для принятия решения о выдаче или невыдаче кредита, но и для дальнейшего сопровождения заемщика, позволяя банку предупреждать избыток ликвидности в случаях массовых досрочных выплат и заблаговременно менять условия кредитования при вероятности просрочки платежей.
Спрос на системы предсказательной аналитики непрерывно растет, и во многом это объясняется изменением отношения к подобным системам со стороны бизнеса: если еще несколько лет назад аналитическая система считалась роскошью, то сейчас она доступна средним и малым компаниям. Экономия средств и увеличение отдачи от различных акций уже сами по себе демонстрируют эффективность использования систем предсказательной аналитики.
Сергей Докукин (sd@ksema.ru), эксперт компании "Ксема" (Москва).
Аналитики о РА
По мере распространения аналитических методов работы с данными лица, принимающие решения в бизнесе, все чаще обращаются к технологиям бизнес-аналитики, и очередным шагом в этом направлении может стать распространение методов РА. Об этом свидетельствует документ Magic Quadrant for Business Intelligence Platforms, опубликованный Gartner в январе текущего года и интересный не столько порядком расстановки производителей в магическом квадранте, сколько констатацией произошедших стратегических изменений и тенденциями на будущее. После передела рынка аналитики (SAP купила Business Objects, Oracle — Hyperion, а IBM — Cognos) не последовала логичная полоса стабильности, а, наоборот, обострилась конкуренция. Наметился поворот от традиционной аналитики (ad hoc analysis — ситуативного анализа, называемого еще core analytics, CA) к прогнозной аналитике. Среди основных выводов Gartner отмечается сдвиг от анализа, в основе которого лежит констатация, к анализу, нацеленному на прогнозирование и оптимизацию решений. Еще в 2009 году ситуативный анализ доминировал, но уже в 2010 году проявились новые тренды, подтверждаемые деятельностью таких компаний, как SAS и особенно IBM после приобретения SPSS и интеграции с платформой Cognos BI. Аналитики Gartner подчеркивают, что в бизнес-процессы все больше встраиваются средства бизнес-аналитики, и это естественным образом усиливает потребность в системах поддержки принятия решений и, следовательно, в PA.
Компания Forrester Research опубликовала отчет The Forrester Wave Predictive Analytics And Data Mining Solutions, Q1 2010, в котором дается расстановка сил на рынке решений прогнозной аналитики. Эксперт из Forrester Research Борис Эвелсон пишет: "В ближайшие пару лет PA станет ареной сражения между поставщиками BI, поскольку по функциональности их предложения из CA сейчас почти не различаются. Мы должны оставить в прошлом технологии типа пультов управления (dashboards), которые позволяли узнать, что мы сделали вчера, и получить возможность знать, что происходит в бизнесе в текущий момент и чем нам грозит будущее". Лидерами, по версии Forrester Research, являются в порядке убывания влияния: SAS Institute, SPSS (IBM), KXEN, Oracle и TIBCO.
Предсказательное моделирование в проектировании
В процессе проектирования обычно происходит сравнение различных технических решений по структуре и характеристикам создаваемого объекта, работающего в тех или иных условиях. В аэрокосмической промышленности такими характеристиками могут быть аэродинамические и прочностные параметры, в нефтегазовой индустрии — параметры, описывающие геологическую структуру и гидродинамические свойства месторождения, в биотехнологиях — показатели, численно характеризующие "полезность" разрабатываемого препарата.
Для оценки характеристик проектируемого объекта, в дополнение к натурным испытаниям, сегодня применяются методы компьютерного моделирования на основе вычислительных экспериментов с математическими моделями объекта и окружающей его среды. Традиционно в них используются модели, основанные на "физике процессов", описывающие процессы и явления, происходящие при функционировании объекта. Как правило, это сложные дифференциальные уравнения в частных производных с граничными условиями, для которых зачастую неизвестны ни теоремы о существовании и единственности решения, ни характер зависимости решения от параметров и граничных условий. Численные методы решения таких уравнений имеют значительную вычислительную трудоемкость расчетов, а также процесса подготовки исходных данных и расчетных сеток. Например, при проектировании современного самолета рассматривается до 100 тыс. вариантов компоновки, а для анализа прочностных характеристик его силовых элементов необходимо провести несколько миллионов численных экспериментов, в каждом из которых вычисляются характеристики самолета для нескольких десятков различных параметров режима полета и окружающей среды.
Ответом на эти сложности стало развитие нового направления математического моделирования — метамоделирования, в котором рассматриваются математические модели, базирующиеся на данных. Основа таких моделей — машинное обучение (machine learning) на множестве прототипов входных и выходных данных (результатов натурных и/или вычислительных экспериментов, проведенных с различными объектами рассматриваемого класса). Построенные модели фактически имитируют (заменяют) как источники получения данных, основанные на некоторой исходной модели, так и сами модели, созданные по результатам изучения физики процессов, поэтому такие адаптивные модели иногда называют метамоделями (модели над моделями) или суррогатными моделями (Surrogate Model). Как правило, суррогатные модели имеют более высокую вычислительную эффективность, чем исходные модели; например метамодели для расчета аэродинамических характеристик, построенные по результатам экспериментов с помощью исходной CFD-модели (Computational Fluid Dynamics), основанной на численном решении дифференциальных уравнений аэродинамики, увеличивают скорость вычислений в сотни тысяч раз при относительной погрешности не более 1%.
Еще недавно инженер-разработчик был ограничен в объеме вычислительных экспериментов, которые он мог провести на математических моделях для улучшения своего технического решения. Результатом каждого такого эксперимента была таблица, соотносящая многомерные входные данные с многомерными выходными данными. Цель инженера — нахождение точки (набора входных параметров, описывающих проектируемый объект) для проведения следующего эксперимента. При этом, очевидно, предполагается, что анализ уже проведенных экспериментов "подскажет" точку, в которой характеристики проектируемого объекта будут лучше полученных до сих пор. Когда количество экспериментов невелико, то решение о выборе "точки" для проведения следующего эксперимента принимается, как правило, исходя из опыта и здравого смысла разработчика, но с появлением высокопроизводительных компьютеров ситуация кардинально изменилась. Возникает естественное желание заменить табличный способ представления результатов на функциональный, представив результаты в виде некоторой зависимости, или построить аппроксиматор, позволяющий известными математическими методами проводить оптимизацию и предсказывать значение для точки следующего эксперимента.
Рассмотрим задачу проектирования композитного силового элемента авиалайнера, так называемого стрингера, описываемого некоторым набором из 20 параметров. Это означает, что любой объект исследуемого класса полностью может быть определен 20 параметрами, а обратное неверно. Таким образом, можно предположить, что в двадцатимерном пространстве лишь незначительная часть точек пространства является "физичной» в смысле рассматриваемой нами задачи (описывает некоторый физически воспроизводимый стрингер). Многообразие этих точек и надо параметризовать вектором меньшей размерности.
Сократив размерность, можно решать задачи построения аппроксимации неизвестной функциональной зависимости критерия (или критериев) качества от параметров проектируемого объекта. Построение многомерных аппроксимаций (регрессий) является очень давней математической задачей, и за последние 200 лет в теории аппроксимаций получена масса содержательных результатов, в том числе реализованных в виде стандартных пакетов прикладных программ, таких как линейная регрессия, кригинг, методы, построенные на радиальных базисных фукнциях, нейронных сетях и их комбинации. К сожалению, в повседневной практике инженеров-разработчиков эти и другие аппроксимационные методы до последнего времени применялись редко и, что самое важное, не "полевыми инженерами", а исследователями. Дело в том, что все названные методы предполагают, что данные экспериментов подчиняются некоторым закономерностям, вообще говоря разным для разных методов. Например, кригинг построен на предположении, что из близости входных данных следует и близость выходных, что не выполняется для зависимостей с высоким значением градиента. Таким образом, в перечне решаемых в процессе предсказательного моделирования задач возникает еще одна — кластеризация данных, (разделение на основе анализа входных данных первоначальной области проектирования на подобласти, в каждой из которых выбирается собственная модель данных и, как следствие, собственный метод аппроксимации).
Предлагающиеся сегодня коммерческие продукты ModelCenter от Phoenix Integration, modeFRONTIER от Esteco, Isight/SIMULIA от Dassault Systemes для решения задач предсказательного моделирования, основанного на данных, содержат лишь некоторые элементы полной технологии. Обычно в этих пакетах имеются программы, реализующие стандартные методы аппроксимации и оптимизации, такие как RBF (Radial Basis Function), кригинг, линейная регрессия и некоторые алгоритмы оптимизации (методы первого и второго порядка, стохастические и др.). К сожалению, даже набор программ, реализующих все известные методы, например, аппроксимации, не дает удовлетворительного решения для инженера-разработчика, поскольку не содержит ответа на главный вопрос: а что же все-таки нужно использовать в данном конкретном случае?
Александр Кулешов (kuleshov@iitp.ru) — директор Института проблем передачи информации им. А. А. Харкевича РАН; Александр Бернштейн (a.bernstein@cpt-ran.ru) — заведующий лабораторией когнитивных методов анализа данных и моделирования, Институт системного анализа РАН (Москва).
Прошлое и будущее PA
Как и многие другие технологии, прогнозная аналитика родилась не в бизнесе и стала применяться не для бизнеса. Пониманию родословной PA поможет знакомство с близким по смыслу понятием Actionable Intelligence. Словарь сил специального назначения НАТО интерпретирует его как "проверенные разведданные", а в бизнес-литературе его представляют как информацию, необходимую для принятия решений. И в том и в другом случае необходимо иметь достоверные сведения для последующего использования. Сейчас PA активнейшим образом используется службами, обеспечивающими национальную безопасность. В армии США, например, на аналитике специализируется управление поддержки разведки (The United States Army Intelligence Support Activity, USAISA или ISA), принимающее участие в разработке антитеррористических и других военно-политических операций, а в Великобритании существует аналогичная служба под названием 14 Field Security and Intelligence Company.
Управление знаниями и информационные технологии
Впервые идея бизнес-аналитики была предложена специалистами Gartner Group в конце 80-х, но особую популярность она приобретает только сегодня. «Управление знаниями» — дисциплина более универсальная, отличающаяся более широкой полосой охвата и основанная на интегральном подходе к созданию, накоплению, и в некотором смысле управлению знаниями, хранящимися в виде документов различного рода, а также знаниями, принадлежащими сотрудникам предприятия. |
Если отвлечься от способов получения первичных данных, то достоверные сведения (actionable intelligence) могут быть получены с использованием средств разработки, позволяющих понять скрытое содержание и выявить не вполне очевидные тенденции. А далее, для того чтобы выработать на основании этих сведений прогнозы или предсказания, требуются достаточно точные и достоверные модели. Следующий шаг — предсказательная аналитика, представляющая собой совокупность технологий, методов и алгоритмов для составления прогнозных моделей, позволяющих распространить на будущее накопленные (в том числе исторические) данные, свойства, проявившие себя в прошлом и имеющие тенденцию к сохранению в будущем. Выбор тех или иных алгоритмов и методов моделирования определяется спецификой данных, технологическими и финансовыми ресурсами, временными ограничениями и массой других факторов.
Использование PA в бизнесе отличается тем, что позволяет извлечь дополнительную информацию, а следовательно и выгоду из той части интеллектуального капитала, которая заключена в уже накопленных корпоративных данных: особенность любой сделки, история отношений с каждым из клиентов и партнеров, случаи, связанные с успехами и неудачами, и многое другое, что часто остается лишь в голове опытных менеджеров, а для предприятия в целом потеряно. Если же все эти данные сохранять и обрабатывать, то возможно организовать процесс "обучения" не отдельного человека, предприятия в целом. Агрегирование опыта в сочетании со средствами PA служит повышению "интеллекта предприятия".
Область применения РА практически безгранична — пределом может быть только недостаток знаний, специалистов и средств. Из всех видов бизнеса раньше других по понятным причинам РА занялись в сфере страхования — чем точнее прогноз, тем меньше риск. Главная задача страховщиков состоит в создании прогнозной модели поведения клиентов — любая работа на рынке сопряжена с риском, поэтому опыт страховщиков может быть перенесен на другие области. Методы РА взяли на вооружение также провайдеры телекоммуникационных услуг и прежде всего услуг мобильной связи, которым необходимо прогнозировать поведение клиентов. Столь же очевидна рациональность применения методов РА в любых видах массового обслуживания клиентов. Но есть и менее очевидные области, где без предиктивной аналитики не обойтись, к числу таких относится обработка сложных событий (Complex Event Processing, CEP). Здесь тоже возникают плохо детерминированные ситуации, когда необходимо прогнозировать события. Еще неожиданнее применение РА в промышленности при расчете надежности оборудования (оценка наработки на отказ) в реальных условиях, когда меняются потоки поставок комплектующих, меняются условия работы поставщиков и другие внешние обстоятельства. Примером могут служить массовые отзывы бракованных автомобильный.
Поставщики и продукты
SAS — один из лидеров PA. Все решения SAS основываются на единой аналитической платформе, а главный аналитический программный продукт Enterprise Miner специально создан для выявления в огромных массивах данных информации, необходимой для принятия решений. Разработанный специально для поиска и анализа скрытых закономерностей в данных, Enterprise Miner включает в себя эффективные методы статистического анализа, полную методологию выполнения проектов раскопок данных и удобный графический интерфейс пользователя. Важной особенностью Enterprise Miner является его полная интеграция с другими продуктами SAS, предназначенными для подготовки данных к анализу, их предварительной визуализации и анализа, доставки результатов через отчеты и инструментальные панели.
У корпорации IBM были собственные решения для PA, и прежде всего продукт DB2 Intelligent Miner for Data, широко используемый банками и финансовыми организациями. Положение IBM усилилось после приобретения компании SPSS (Statistical Package for the Social Science) — признанного лидера в РА, специально созданной в 1968 году для математической поддержки прикладных исследований в социальных науках. Пару лет назад название программного обеспечения SPSS было изменено на PASW (Predictive Analytics SoftWare), а сейчас объединенный с ПО от IBM пакет PA включает в себя статистический пакет IBM SPSS Statistics, средства моделирования IBM SPSS Modeler и сбора данных IBM SPSS Data Collectiontudes для выполнения аналитики с помощью IBM SPSS Deployment.
Компания KXEN (Knowledge Extractions Engines) была создана в 1998 году для разработки средств экстрагирования знаний из данных. Ее основной продукт для PA — KXEN Analytic Framework представляет собой набор прогнозных и дескриптивных моделей, достаточный для создания аналитических моделей. Решение KXEN предназначено для выявления закономерностей в накопленных данных, построения описательных и предсказательных моделей и интеграции их в рабочие процессы клиента.
Компания TIBCO вошла в число производителей аналитического ПО благодаря приобретению компании Insightful, поставляющей ПО для анализа данных и текстов на базе платформы Insightful S-PLUS 7 и продукта Insightful Miner.
Компания Fair Isaac, основанная в 1956 году, является пионером в области кредитного скоринга и создала систему оценки кредитных рисков на базе численных статистических методов. В США скоринг заключается в присвоении баллов по системе FICO score для принятия решения об одобрении или отказе в выдаче кредита. Специально для целей РА создан продукт Model Builder 2.1.
StatSoft специализируется на аналитическом ПО, в том числе и на PA для персональных компьютеров. Компания начала свою деятельность в 1984 году с использования Apple II и компьютеров на базе операционной системы CP/M. Основной продукт — пакет Statistica.
На рынке работает еще несколько компаний, предлагающих решения PA, и наиболее известны среди них Unica с продуктом Affinium Model и Angoss Software с продуктами KnowledgeSTUDIO и KnowledgeSEEKER.
Системы клиентской аналитики
Широкое применение методик клиентской аналитики весьма актуально для компаний с большой клиентской базой, работающих на массовом рынке: эти организации ставят перед собой задачу повышения эффективности маркетинга за счет индивидуального подхода к каждому клиенту. Сегодня наиболее интересным методом клиентской аналитики является интеллектуальный анализ данных, включающий прогнозирование ухода клиента, определение его предпочтений, прогнозирование отклика на маркетинговые кампании.
Стандартный проект по клиентской аналитике можно разделить на предпроектное обследование, формирование набора данных, необходимых для анализа, построение модели по отклику на маркетинговые кампании, формирование структуры самой маркетинговой кампании и интеграцию с каналами взаимодействия с клиентами. Результатом такого проекта является “живая” система, позволяющая в режиме реального времени строить входящие и исходящие маркетинговые кампании. Один из крупнейших телекоммуникационных операторов разработал и внедрил модель оценки будущей доходности (Predictive Live Time Value, PLTV), которая позволяет стимулировать продажи выгодных компании продуктов и услуг, причем без потери уже имеющихся клиентов. Система, как “шахматный робот”, позволяет продумывать шаги клиента и предлагать ему наиболее предпочтительный выбор. За счет сформированного перечня транзакций клиента взаимодействие с ним происходит именно по тем событиям, которые могут изменить его клиентский профиль. В компании внедрена также математическая модель, позволяющая прогнозировать не только вероятность ухода клиента, но и реальные причины, которые повлияли на это решение.
Решения по клиентской аналитике интересны и банкам, которые, помимо методологии прогнозирования доходности PLTV, используют технологии анализа неструктурированной информации из процессинговой системы, способствующие повышению точности прогнозирования отклика на маркетинговые предложения. Если накапливать только “поведенческую” информацию о клиенте в количественном виде (число совершенных транзакций, их суммы), то этого недостаточно для понимания того, на что клиент тратит свои средства. Инструмент IBM SPSS Modeler помогает дополнить профиль клиента информацией о местах основных трат: крупная розничная сеть, бутик, продуктовый магазин класса “преимум”. Таким образом, сведения об остатках на счете, динамике их изменения, просрочках или досрочных погашениях дополняются данными по территориальным и “качественным” предпочтениям клиентов.
Другая группа задач клиентской аналитики – сегментация клиентской базы для формирования схожих по основным признакам групп клиентов. К примеру, в розничных сетях можно сформировать группу “молодых отцов” или “любителей дорогих алкогольных напитков”. Создание таких профилей клиентов позволяет компании увеличивать лояльность потребителей, которым предлагается именно то, что они, скорее всего, захотят приобрести. Например, клиент розничной сети имеет карту лояльности, которая идентифицирует его при совершении покупки, а на основании истории покупок клиенту предлагается купить дополнительные товары со скидкой.
Кроме того, при помощи методов глубокого анализа данных можно понять особенности потребления клиентов и отношение покупателей к маркетинговым программам, выявить целевые группы. Это дает возможность разрабатывать эффективные программы лояльности, которые не будут сводиться лишь к предоставлению скидок, а станут учитывать особенности каждой группы покупателей.
Олег Данильченко (oleg.danilchenko@ru.ibm.com) – специалист по решениям SPSS, IBM в России и СНГ, (Москва).
***
В 2005 году Gartner предложила очередной TLA-акроним, на этот раз EFM (Enterprise Feedback Management — "управление предприятием по обратной связи"), оптимистично предполагая, что к 2008 году решения EFM будут установлены по меньшей мере на 40% предприятий, но прогноз не оправдался. Под EFM понимали формальные средства для сбора данных и анализа отчетности, что было явным упрощением — мгновенно появились десятки компаний — поставщиков решений а-ля EFM, которые предлагали что-то вроде серверов обратной связи (feedback server). Идея EFM абсолютно верная, ее рациональность не вызывает возражений, но анализ данных должен быть достаточно глубоким, а для этого и требуются технологии типа РА.