Термин «бизнес-разведка» обозначает широкую категорию технологий, связанных со сбором, хранением, анализом и обеспечением доступа к информации с целью принятия оптимальных деловых решений. Методы ведения бизнес-разведки весьма близки к используемым в традиционной разведывательной деятельности. Сначала определяются требования к параметрам объектов (потенциальных источников угроз) для планирования и организации разведки. Затем рассматриваются возможные источники информации для проведения бизнес-разведки (как правило, используются несколько альтернативных или доверенные источники — СМИ, внутрифирменные, банковские и правительственные отчеты, прогнозы). Далее разрабатывается модель угроз и система управляющих воздействий при их обнаружении.

Для оценки эффекта от внедрения систем бизнес-разведки необходимо ясно представлять возможности подобных решений. Их использование, в частности, позволяет:

  • постоянно отслеживать и анализировать сведения о бизнесе конкурентов;
  • организовать мониторинг потоков с информацией о действиях конкурента (ценовая политика, слияния и поглощения, рекламные объявления и анонсы, отзывы об их изделиях и т.п.);
  • раскрывать планы конкурентов;
  • изучать потенциальный спрос на продукцию и услуги;
  • изучать реакцию рынка на отдельные свойства товаров и услуг (например, с помощью анализа тональности публикаций в прессе).

Приведем несколько примеров.

Ведение уголовных дел. В процессе изучения фигуранта описание его поступков может быть получено из разных источников — отчетов участковых, протоколов, оперативных и агентурных сообщений и др. Зачастую эти документы хранятся в различных фондах. У объекта может быть много контактов, как прямых, так и предполагаемых по косвенным признакам. Учетная информация об объекте тоже может храниться в разных базах данных. Получение всей совокупности сведений является очень трудоемким процессом, в котором используется специализированная система автоматического выделения фактов (А-факты), связей и ведения дел.

Проведение выборов. Кандидаты нередко собирают из открытых источников сведения о конкурентах и их окружении, для чего обычно используются поисковые системы. Ареал выделяемых персон зачастую включает в себя свыше 50 человек, а объем информации составляет сотни страниц. Ценность извлеченных сведений невысока, поскольку эксперт не может совместно проанализировать столь большое число фактов. В этих случаях применяется технология выделения А-фактов с целью накопления первоначальных досье объектов, причем задействуются ретрофонды открытой информации и Сеть.

Мониторинг мнения потребителей. Для получения объективной картины качества выпускаемой объектами или конкурентами продукции обычно используются периодические опросы либо экспертная обработка сообщений из Сети.

Оценка лояльности клиентов. Банки и страховые компании с целью минимизации рисков собирают в досье факты из всевозможных источников (регистрационные учетные документы, финансовые отчеты, налоговые декларации, базы данных зарегистрированной собственности и транспортных средств, СМИ, оперативные источники, аналитические системы).

Концепция информационных систем бизнес-разведки предполагает реализацию трех принципов:

  • использование единого информационного пространства взаимосвязанных фактов или гипотез вне зависимости от типа содержимого источников информации;
  • связь фактов или гипотез с релевантными источниками информации, то есть аргументированность фактов и гипотез;
  • применение исторически-пространственной информационной модели баз данных фактов и гипотез.

Все это означает наличие атрибутов времени и места для каждого факта или гипотезы, а также невозможность их безвозвратного удаления. Также разработчики систем бизнес-разведки сталкиваются с проблемами преобразования различных форм представления знаний. В частности, основная причина относительно малого объема рынка систем извлечения знаний и систем поддержки принятия решений состоит в том, что практически ни одна система аналитической обработки не выполняет формально-семантической интерпретации результатов своей работы (хотя бы за счет их семантического ранжирования). А это не позволяет без применения дополнительных программ преодолеть понятийный разрыв между результатами работы систем типа Knowledge Discovery и Data Mining и входом систем поддержки принятия решений.

Такой разрыв «сшивается» за счет того, что результаты работы программ интерпретирует эксперт-аналитик. Однако это приводит к тому, что добытые знания «упрятываются» в документы, теряется их аргументация, и они не могут быть повторно получены. В большинстве предприятий каждый новый аналитик проходит весь путь накопления профильных знаний заново, прежде чем он сможет стать экспертом. Собранные факты находятся в головах экспертов, хранятся в разных документах и базах данных, что не позволяет совместно анализировать разрозненные факты и объединять их в общее пространство фактографической информации, ведет к потере ценности полученных сведений и вложенных в их разведку средств.

Для управления пространством фактов в информационных системах бизнес-разведки используется подсистема обработки фактографической информации. На ее входе из различных источников формируется не только поток сведений об изучаемых объектах в форме количественных показателей, видеоклипов и документов, но и выделенный из них поток знаний (то есть аналитически обработанной, классифицированной и очищенной информации), основной формой представления которых являются факты и гипотезы. Естественно, факты проходят очистку, интеграцию и другие стандартные процедуры управления единым информационным пространством фактов (ЕИПФ).

Множественность значений факта обусловлена возможностью разной интерпретации одного и того же явления, а также противоречивостью, неточностью или нечеткостью поступающих из внешних источников сведений. Поэтому инфологическими особенностями информационной модели ЕИПФ являются поддержка множественных фактов об одном событии, наличие у факта атрибутов для его трекинга (идентификации автора, времени, источника факта) в целях его возможного повторного извлечения и поддержка множественных версий интерпретации фактов. Подсистема обработки фактографических данных находится на вершине иерархии информационной инфраструктуры компании, поскольку для генерации фактов использует сервисы разных систем анализа и доставки контента. С помощью своих программ извлечения знаний они получают факты из СУБД, хранилищ многомерных данных, Internet, подсистем аналитической обработки и моделирования, а также из прикладных систем, порождают гипотезы или сигнальную информацию.

Разберем концептуальную и базовую информационные модели системы бизнес-разведки, проиллюстрировав их на примере программы Xfiles, разработанной с использованием программных компонентов компаний Oracle, «Гарант-Парк-Интернет», Inxight, ABBYY Software House и Altova. К этому же классу систем можно отнести продукты компаний Clear Forest, «Мегапьютер Интеллидженс», Rsoft и «Гарант-Парк-Интернет».

Информационная модель системы

Основные понятия информационной модели системы Xfiles таковы.

Факт — событие (как правило, зафиксированное и произошедшее), сопровождаемое временной и географической метками, аргументирующей информацией, ссылками на источники и др. Факт может быть извлечен из текста документов либо определен экспертом. Он может определять как свойства объекта, так и его связь с другими объектами.

Гипотеза — аналитическое высказывание (полученное в результате аналитической обработки данных, например прогнозирования) относительно состояния атрибута досье, которое сопровождается аргументирующей информацией, ссылками на источники и др. Гипотеза может порождаться разными подсистемами извлечения знаний или экспертами.

Объект — сущность, информация о которой накапливается в системе. Объект имеет семантический фильтр для самоидентификации в тексте.

Тип досье — описание проблемной области, представленное в виде иерархии атрибутов. Для каждого объекта должен быть определен хотя бы один тип досье.

Досье — реализация типа досье для конкретного объекта.

Атрибут — структурный элемент типа досье, предназначенный для накопления фактов одного типа (биографические данные, сведения о поездках и др.). Атрибут имеет семантический фильтр для выделения «своих» фактов из потока документов. Один атрибут может входить в досье нескольких типов.

Связь — направленное или ассоциативное отношение определенного типа между объектами системы. Связь представляется специальным типом атрибута в каждом досье связываемых объектов.

Поскольку изучаемая предметная область зачастую довольно обширна, целесообразно использовать несколько досье для одного объекта. Например, одно досье может освещать бизнес-деятельность объекта, второе — его личную собственность, третье — медицинские данные и т.п. Такой подход дает возможность разным группам аналитиков «чувствовать» только профильную для них группу атрибутов, но лицо, принимающее решение, может анализировать все досье объекта и все его связи. На рис. 1 Объект X объединяет два типа досье (Тип досье А и Тип досье В) и содержит все семь атрибутов, а Объект Y имеет один тип досье (Тип досье В) и содержит четыре атрибута, причем Атрибут 4 одновременно входит в состав обоих типов досье.

Рис. 1. Фрагмент информационной модели

Актуализация базы данных досье производится путем ввода в нее новых фактов такого вида.

Факт: < идентификатор факта>, < значение факта>, < временной диапазон действия факта>, <место>, <источник факта>, <оператор>, <статус факта>;

Идентификатор факта: <идентификатор объекта>;

Идентификатор элемента досье — <идентификатор атрибута>, <идентификатор связи>.

Технологии обработки фактов

Один из наиболее важных, но и наименее достоверных источников информации для выделения фактов — масс-медиа. В связи с большой плотностью потока текстовой информации в современных фактографических системах интенсивно развивается технология автоматического выделения фактов, относящихся к объектам мониторинга. Она позволяет в режиме квазиреального времени «поднять» ретроспективные фонды документов за десяток лет и получить актуальное «сырое» досье на новые объекты, что практически нереально при использовании экспертной технологии выделения фактов. В XFiles реализована функция сбора А-фактов практически изо всех доступных типов открытых источников.

Для последующей оценки достоверности фактов, их обобщения и для формирования аналитических материалов используется экспертная обработка. Экспертные факты (Э-факты) вводятся авторизованным пользователем в интерактивном или пакетном режиме.

Для установления связи между объектами системы необходима пара профильных атрибутов в связываемых объектах. При наличии факта об определенном типе связи двух объектов в каждый профильный атрибут обоих объектов вводится ссылка на объект viz-a-viz. Этот процесс может выполняться автоматически и с участием эксперта. Если объекта — второго участника связи нет в базе данных, то, в зависимости от параметров системы, он создается автоматически либо гипертекстовая ссылка не создается.

В системе рассматриваются два типа связей: симметричные и асимметричные. Симметричная связь между объектами X и Y создается автоматически путем установления в одном и том же атрибуте досье каждого из объектов гиперссылки на второй объект. При автоматическом выделении этого факта из текста первичным объектом связи считается подлежащее, а вторичным — дополнение. Так, для атрибута Дружественные отношения в досье Персоны для объекта Орлов может фигурировать факт дружбы с объектом Петров. В этом случае у объекта Петров появится симметричный факт и ссылка на объект Орлов в этом же атрибуте.

Рис. 2. Визуальный интерфейс отображения связей

В случае асимметричной связи автоматическая репликация факта связи производится между различными атрибутами объектов. Например, при выявлении факта кредитования одним объектом другого для атрибута Сумма выданного кредита одного объекта активируемым будет атрибут Сумма взятого кредита другого. На рис. 2 связи отображаются в виде дерева, а детальные данные выделенной строки-связи — в виде конкретных фактов.

Формирование А-фактов

На рис. 3 представлен пример структуры источников информации, используемых для ведения досье.

 

Рис. 3. Пример структуры источников информации

Автоматическое выделение фактографической информации — это процесс выделения фактов для пар (объект, атрибут досье), которые находятся в состоянии автоматического мониторинга (рис. 4). В зависимости от типа атрибута и источника информации процесс может быть выполнен различными методами: с применением инструментов контекстного поиска, синтаксического анализа, методов распознавания образов, статистического анализа и др.

Рис. 4. Преобразование аномалий процессов, полученных в системе экономического мониторинга, в А-факты

В автоматическом выделении фактов в системе бизнес-разведки задействовано несколько программных компонентов.

Фактографический модуль предназначен для автоматического выделения фактов из информационных объектов, доставляемых источником данных. Может обрабатывать структурированные (числовые и символьные данные, пространственная информация из геоинформационных систем) и неструктурированные (видео, звук, текст) данные. Например, для текстового атрибута Покупка акций фактом является контрольный пакет акций, объектом связи — ОАО «ХХХ», а свойством факта — обстоятельство времени в мае 2004 года. С помощью семантико-лингвистических методов выделяются количественная информация, связанные с фактом объекты, обстоятельства места и времени. Выделенная информация очищается, нормализуется (например, приводится к единому формату даты в системе) и классифицируется. Она сохраняется в базе и используется для аналитической обработки, скажем для автоматического выявления прямых, косвенных и транзитивных связей между объектами, а также для построения семантических сетей объектов.

Источник данных доставляет контент для автоматической обработки фактографическим модулем. Все источники документов системы поддерживают набор программных интерфейсов, с помощью которых фактографический модуль выполняет запросы, получает контент и его атрибуты.

Задача управляет регламентом и настройками процесса автоматического выделения фактов из текстов.

Агент запуска задач управляет регламентом выполнения задач, производит их запуск и остановку. Агент определяет задачу, готовую к выполнению. По ее параметрам он устанавливает, какой фактографический модуль необходимо запустить и какие источники документов для этого использовать.

Для минимизации времени обработки потока документов используются контекстные фильтры, предварительно отделяющие потенциально «полезные» для выделения фактов документы. Они могут быть связаны с объектом мониторинга или атрибутами досье. Каждый атрибут досье может иметь фактографическое правило, определяющее синтактико-морфологический шаблон, по которому выделяются факт и его атрибуты в тексте. Шаблоны строятся специальным модулем на основе обучающих примеров-предложений. На его вход подается предложение, содержащее факт для определенного атрибута, а на выходе формируется шаблон факта для всех похожих предложений.

Технология выделения А-фактов из текста основана на использовании специальных семантико-лингвистических методов, которые позволяют получить А-факты, сопоставимые с экспертными по точности и полноте. Сначала строится дайджест объекта, который содержит все предложения документа, содержащие ссылки на объект. Затем создается информационный портрет документа на основе смысла элементов текста, извлекаемых средствами синтаксического анализа и синтеза. Далее он преобразуется в семантическую сеть, обеспечивающую инвариантность представления смыслов относительно ряда особенностей поверхностно-синтаксической организации текста.

Для решения задачи выделения А-фактов полное представление смысла текста в форме семантической сети избыточно; оно имеет большой объем (превышающий объем документа), а его утилизация требует высокопроизводительного оборудования и развитых нетривиальных средств для поиска и сравнения структур на графах. Будучи дополнен правилами для генерации канонической формы синтагм, синтаксический анализ-синтез позволяет описать каждый смысловой атрибут текста в виде строки, инвариантной к его грамматическому выражению в различных фразах. Например, фразам «Транспорт был арендован террористом у автобазы», «Террорист арендует у автобазы транспорт» и «Аренда транспорта террористом у автобазы» будут соответствовать одинаковые элементы смысла: «террорист арендует», «аренда транспорта», «аренда у автобазы».

Выделяемые связи между элементами смысла можно разделить на следующие основные классы:

  • связи между ситуациями и их участниками, например (сделать, покупка), (продажа, акции);
  • атрибутивные связи внутри именных групп, обычно называющих участников ситуации, например акт (террористический, боевиков), предприятие (прибыльное, город);
  • связи между ситуациями, например покупать (учиться), бороться (искореняя);
  • связи ситуаций с обстоятельствами или дополнительными атрибутами.

В последней технологической фазе извлечения А-фактов модуль фактографических правил на основе семантической сети дайджеста производит поиск шаблонов фактов и сохраняет структурированное описание выделенных фактов в базе данных системы. Еще раз подчеркнем, что выделенный факт — это не только контекст, но и его свойства. В XFiles алгоритм выделения фактов из текстов наиболее глубоко проработан для русского языка; для других языков могут использоваться источники документов, поддерживающие многоязычный поиск.

Технологии формирования досье

При коллективной работе зачастую несколько фактов вводятся в один атрибут одного объекта, после чего возникает необходимость в экспертной оценке достоверности введенных (возможно, противоречивых) фактов. Для этого в базе досье хранится дополнительная информация, подтверждающая факты в форме цитат из документов, а также прикрепленных к факту документов, почтовых сообщений, заключений экспертов, видеофрагментов и графических файлов. Каждый факт в системе имеет статус достоверный или недостоверный. На основе дополнительной подтверждающей информации из базы данных эксперт может принять решение об изменении статуса факта либо его удалить.

В системе реализован трекинг фактов — для любого факта пользователи имеют возможность вводить и просматривать комментарии и фрагменты контента, а также сами информационные объекты.

Технология пакетного формирования досье весьма актуальна в компаниях, имеющих распределенную систему офисов, каждый из которых может порождать информацию, например о действиях конкурентов в их регионе. При этом рыночная политика формируется в центральном офисе на основании в том числе досье на конкурентов. Для разметки удаленно сформированных сообщений, содержащих новые факты об объектах мониторинга, используется язык XML. Он удобен по нескольким причинам. Во-первых, состав атрибутов для каждого типа досье постоянно изменяется. Во-вторых, необходимо обеспечить возможность ввода новых типов досье. Встроенные в шаблон средства контроля над целостностью документа позволяют передавать только правильные факты. Автоматический ввод поступающих фактов производится с помощью программы-агента. Она выполняет мониторинг поступления новых сообщений, анализ корректности и структурный разбор XML-сообщения, формирование списка фактов, содержащихся в сообщении, и ввод фактов в базу данных.

Аналитическая обработка фактов

В системах бизнес-разведки обычно реализованы следующие базовые виды аналитической обработки фактов: построение исторической цепочки фактов для каждого атрибута досье объекта; автоматическое порождение досье на появившиеся в связях новые объекты. В случае появления в факте нового объекта — участника связи по определенному атрибуту досье по нему автоматически создается досье, и новый объект ставится на мониторинг; автоматическое выявление косвенных связей объекта с другими объектами (связи через третий объект или по общим диапазону дат и обстоятельству места, рис. 5); поиск наиболее коротких цепочек связей между заданными объектами; построение сети связей объекта (рис. 6); определение областей влияния объекта; выявление кластеров (плотных скоплений) связанных объектов (группировок); поиск релевантных объектов и связей по контенту фактов.

Рис. 5. Типы связей объектов

Рис. 6. Построение сети связей объекта 

Все виды аналитической обработки в XFiles могут дополняться ограничениями:

  • на атрибуты-связи (например, отображаются связи только по атрибутам Покупка и продажа акций и Банки-посредники операций);
  • на типы допустимых в цепочке связей (прямые, косвенные или любые);
  • на контент фактов; например, выделяются объекты, в атрибуте Акционеры которых содержится лингвистический шаблон Резник;
  • на длину цепочки связи объектов;
  • на временной диапазон существования связей;
  • на место совершения факта.

Сочетание возможностей

Информационная система бизнес-разведки для формирования досье базируется на технологиях извлечения знаний и использует в качестве источников все системы, применяемые в процессе подготовки и принятия решений. Обычно они интегрированы в корпоративный аналитический портал компании.

Растущая популярность таких информационных систем объясняется возможностью интеграции знаний, накапливаемых экспертами и программами-автоматами. Этим достигается сочетание возможностей автоматического сбора большого числа относительно «сырых» фактов из разных источников, их экспертной оценки и информационной поддержки принятия адекватных решений. Основанные на данном подходе системы бизнес-разведки компаний обеспечивают качественно новые конкурентные преимущества, безопасность и динамичное развитие бизнеса.

Сергей Киселев (kiselev@i-teco.ru) — заместитель директора департамента разработки информационно-аналитических систем компании «Ай-Теко» (Москва).