Электронные СМИ и различные сетевые медиа ежедневно публикуют миллионы фактов от информативно-глобального до эмоционально-личного содержания, многие из которых явно связаны, подтверждая и дополняя друг друга, образуя синергетическую композицию. Консолидированная совокупность фактов имеет более высокую ценность по сравнению с отдельными фактами, однако без эффективной фактоаналитической системы эта ценность может быть потеряна. В 2005 году началась работа над системой X-Files , предназначенной для решения задач анализа сообщений в отечественной прессе с целью получения информации о социальных проблемах и тональности оценок происходящих в России общественно-политических процессов. Однако направление фактографии тогда в стране отсутствовало, и технологии структурирования содержимого текста ограничивались лишь выделением сущностей. Учитывая, что консолидированная совокупность фактов обычно более ценна, чем отдельные факты, неудивительно, что сегодня начала активно развиваться новая отрасль информатики, в задачи которой входят автоматическое извлечение фактов из источников любого вида, их последующая обработка, анализ и интеграция для получения структур знаний более высокого порядка.

Факты представляют собой классифицированные события, как правило зафиксированные и произошедшие, дополненные выделенными свойствами (сущностями, объектами, темами), например временной или пространственной метками (ссылка на географическое место). Формализованное представление знаний через модель факта оказалось очень эффективным для реализации хранилищ фактов и на их основе решения задач бизнес-, конкурентной и аналитической разведок. Работы по созданию фактоаналитических программных систем сегодня активно ведут Amazon, Google, Microsoft, Yandex и ряд других компаний.

Модель фактоаналитической системы

На рис. 1. приведена общая функциональная схема фактоаналитической программной системы.

 

Рис. 1. Функциональная схема фактоаналитической программной системы

 

Поисковый компонент — поиск документов из различных источников, от веб-страниц до записей в корпоративной базе данных, потенциально содержащих релевантные факты. Параметры поиска задаются системой или оператором, а на выходе формируется массив документов.

Фактографический компонент — извлечение фактов из найденных документов и их регистрация в репозитории. Механизмы извлечения фактической информации определяются природой обрабатываемого документа (лингвистические для текстов на естественном языке, механизмы разбора для форматированных записей и т.п.) и предметной областью. Репозиторий можно представить простой таблицей, в которой поля содержат характеристики фактов (субъект, объект, время, место и пр.), а записи соответствуют обнаруженным фактам. В задачу компонента входит пополнение таблицы и поддержка ее «в чистоте» (например, предотвращение дублирования фактов).

Аналитический компонент — анализ накопленных фактов путем их простой фильтрации по интервалам характеристик вплоть до сложной семантической и онтологической обработки. Результатом могут быть списки, группы и цепочки фактов, а также «протофакты», возникающие в результате обобщений, – главное, чтобы результат имел практическую ценность для пользователя.

Презентационный компонент  набор средств визуализации и документирования данных, полученных от аналитического компонента: таблицы, графы, графики и т. п., а также средств генерации аналитических отчетов.

Управляющий компонент — объединение всех компонентов в единое целое, обеспечение передачи данных между ними, задание рабочих параметров, обработка нештатных ситуаций, организация взаимодействия с оператором.

До сих пор усилия разработчиков фактоаналитической поисковой системы были направлены главным образом на совершенствование поискового и фактографического компонентов, а особенности организации аналитического компонента либо тонут в маркетинговых презентациях, если речь идет о коммерческих продуктах, либо тщательно скрываются и в открытых источниках обсуждаются редко, если речь идет о серьезных системах, используемых в различных государственных структурах.

Роли участников процесса анализа фактов

В любой сфере человеческой деятельности, связанной с принятием решений, неизбежно возникают вопросы, на которые нет прямых ответов, — от глобального «Каковы планы США на Ближнем Востоке?» до банального «Где ты был сегодня ночью?». На практике ответ приходится искать косвенными путями — путем сбора и анализа релевантной информации. В процессе движения от вопроса к ответу четко выделяются три роли: заказчик – постановщик вопроса и получатель ответа; сборщик – тот, кто добывает единицы информации (факты), релевантные вопросу; аналитик – тот, кто перерабатывает сырую информацию в ответ для заказчика. Эти роли могут исполняться одним лицом либо возлагаться на отдельных специалистов и организации.

Сборщик и аналитик пользуются функциями поискового и аналитического компонентов фактоаналитической программной системы. Заказчик не общается со сборщиком и аналитиком напрямую, а взаимодействует с менеджером (управляющий модуль), который также контролирует сборщика и аналитика. Нетрудно дополнить эту схему регистратором, ведущим учет поступающих от сборщика фактов (фактографический компонент) и декоратором, оформляющим результаты работы аналитика в удобную для заказчика форму.

Модель информационной системы бизнес-разведки

Система корпоративной безопасности — важнейший инструмент управления предпринимательскими рисками. Ее задачи состоят не столько в сборе, обработке, оценке и накоплении данных, но и в их информационном анализе и синтезе управляющих воздействий.

В идеале фактоаналитическая программная система должна полностью взять на себя сбор и анализ, исключив службу сбора информации из рабочего цикла – заказчик вводит вопрос и получает ответ. Теоретически такое достижимо, однако вряд ли реализуемо в ближайшем будущем. Практически аналитический компонент фактоаналитической поисковой системы должен помочь аналитику стать блистательным экспертом, но, чтобы этого добиться, надо понять, в чем состоит работа аналитика. На вход аналитик получает факты в удобной для него форме (например: «Председатель правления концерна 'СеверСтройМаш' выехал на переговоры во Францию», а на выходе формирует умозаключения (тезисы) относительно свойств и связей объектов предметной области ("'СеверСтройМаш' на пути к заключению нового контракта"). При этом он привлекает свой предыдущий опыт («Год назад директор концерна был в Бельгии, и тогда был подписан контракт»), внешние знания общего характера («Бельгия находится в Европе») и специфичные для предметной области («Торговый оборот концерна 'СеверСтройМаш' составил 10 млрд руб»). Работа аналитика – фактологический анализ — заключается в производстве тезисов, которые при всем их кажущемся разнообразии обладают общей структурой, включающей три элемента.

Во-первых, тезис имеет содержание – онтологическое выражение, представляющее свойства и/или связи сущностей предметной области. Содержание тезиса является логическим высказыванием общего характера (например, «X приобретает для Y товар на сумму Z в момент T»), причем переменные этого высказывания имеют конкретные значения («СеверСтройМаш» закупит в октябре оборудование ABX на сумму 5 млрд»). Эти значения могут быть значениями базовых характеристик («СеверСтройМаш», «ABX» из шкалы характеристики «Коммерческие организации») или их логическими комбинациями («в октябре» означает «любая дата октября»).

Во-вторых, тезис имеет аргументацию – подмножество существующих фактов, на которых основано заключение эксперта. В формальных построениях такое подмножество задается классификацией (как правило, булевой) из двух классов, где «значащий» класс сводит факты, подтверждающие тезис. В более широком смысле аргументация включает в себя внешние знания и общую логику.

В-третьих, тезис имеет степень достоверности. Аналитик всегда сопровождает свои выводы оценкой уверенности их правомерности («могу уверенно заявить...», «есть некоторые основания считать...»). Этот элемент тезиса выражается числом от 0 до 1, причем один и тот же вывод может проходить с разной аргументацией (например, факты из разных источников) и с разной степенью достоверности (например, вывод «СеверСтройМаш точно закупит оборудование ABX» на базе фактов из открытых источников и на базе данных бизнес-разведки).

Процессная модель построения аналитических тезисов

Попробуем теперь выстроить модель процесса генерации тезисов на основе хранилища фактов. Для этого представим, что аналитик – это команда из двух персонажей. Первый (исполнитель) легко ориентируется в фактографической таблице, пишет запросы на SQL и делает прочую рутинную работу, связанную с операциями над фактами, однако не обязан постигать смысл этих операций. Второй (мыслитель), наоборот, знает, что делать с фактами, но не сведущ в компьютерных технологиях. Допустим, аналитическая команда получила от заказчика запрос на исследование коммерческих планов концерна «СеверСтройМаш» и между мыслителем и исполнителем происходит диалог типа: «Директор 'СеверСтройМаш' за последний месяц был три раза во Франции и два раза в Бельгии, а главный инженер два раза во Франции. Акции концерна поднялись на два пункта. Дочерняя фирма за этот месяц три раза получала кредиты, сразу за визитами директора во Францию». Можно предположить следующую модель взаимодействия мыслителя ( М ) и исполнителя ( И ) (рис. 2).

 

 

Рис. 2. Процессная модель взаимодействия мыслителя и исполнителя

 

Мыслитель выдвигает гипотезу (А1), которая представляет собой логическое высказывание над характеристиками фактов, например: «Что имеется про директора «СеверСтройМаш»?» выражается срезом фактографического пространства (множеством фактов) по заданному значению, скажем, «И. К. Петров», характеристики «Персоны», а также по имплицитно заданному диапазону характеристики «Время». На выделяемое этим срезом подмножество фактов (значащий класс в нашей формальной терминологии) имплицитно налагается условие типа «не меньше трех», полагая, что одно-два упоминания директора за три месяца – это в пределах нормы. И проверяет гипотезу (А2), исчисляя логическую формулу («три раза во Франции и два раза в Бельгии»). При этом он руководствуется нечеткой логикой — в случае невыполнения условий гипотезы М не однозначно заявляет «нет», а считает нужным сказать: «А в срезе за четыре месяца – выполняется».

Мыслитель оценивает результат проверки гипотезы (А3). Если, по его мнению, гипотеза состоятельна, то М развивает ее, накладывая более строгие (слабые) условия на логическую формулу гипотезы, например: «А сколько раз директор «СеверСтройМаш» был именно во Франции?» — тут подразумевается, что должно получиться не менее половины всех фактов по Европе вообще, тогда усиленная гипотеза опять отдается И на проверку (A2). На каждом такте цикла М решает, продолжить модификацию гипотезы, оставить ее в текущем виде (A4) или отбросить.

Исполнитель может выдвинуть свою гипотезу (D0), но не интуитивную, а техническую, основанную на математических свойствах некоторой группы фактов («Банк Китая три раза делал резкое повышение выпуска гособлигаций, сразу за визитами посла США в Оман»). М модифицирует гипотезу И (D1) и далее считает ее своей (D2-D3-D4).

Технологии извлечения знаний из текста

Основные знания аналитики получают в результате сравнения, анализа и синтеза информации из разрозненных фактов, размещенных в текстах. Как используются технологии извлечения знаний из больших текстовых массивов на русском языке?

Мыслитель объединяет состоятельные гипотезы, но не все сразу, а каким-то только ему известным порядком, основанным на интуиции, знаниях и опыте. Такие комбинации дают комплексные гипотезы (E1, при этом соответствующие логические конструкции дизъюнктируются), которые в свою очередь модифицируются и проверяются (E2-E3), доходя до окончательного вывода (Т).

Результатом всей этой работы становится тезис – логическое выражение финальной гипотезы, которая кажется М состоятельной, а также оценка ее достоверности (фактор, используемый М для оценки состоятельности) и подмножество фактов на срезе пространства Ф, образованного гипотезой.

Аналитическая обработка фактов

Современные системы аналитической обработки фактов используют специализированные хранилища фактов, выделение которых основано на:

  • извлечении тем, сущностей и их связей;
  • извлечении семантически классифицированных тем и сущностей с использованием предметных специализированных тезаурусов;
  • формировании нормализованных, семантически самоопределенных предложений;
  • выделении мнений и тональных высказываний;
  • определении тональности предложений и их семантической структуры;
  • извлечении слоганов и лозунгов.

Современные системы управления фактами реализуют языковую независимость фактов от языка исходного текста, что обеспечивает их совместный анализ и обработку.

Аналитические компоненты современных систем должны решать следующие задачи:

  • автоматическое выявление прямых и косвенных (через третий объект) связей объекта;
  • автоматическое построение гипотез о наличии связей объектов по общему месту и близкому времени совершения фактов (факты произошли с разными объектами в одном географическом месте или юридическом объекте и в близкое время);
  • определение типа связей между объектами факта и выявление групп объектов, связанных между собой общностью свойств фактов (например, место, время, связанные объекты, содержание фактов);
  • построение и анализ временных рядов групп объектов, определение динамики миграции ядер групп объектов, построение графов связей объектов для различных типов связей, многовариантная визуализация карт связей с масштабированием, навигация по обзорной карте графа;
  • сравнение карт связей объектов: объединение, пересечение, дополнение карт; выделение общих и отличающих разные карты связей и объектов;
  • поиск эффективных или кратчайших связей между заданными объектами и построение многомерных частотных распределений фактов;
  • построение и анализ временных рядов связей объектов, определение динамики изменения характера связей и состава объектов, выявление причинно-следственных связей между событиями, генерация устойчивых гипотез и тезисов в отношении анализируемых тем и объектов;
  • прогноз развития ситуаций и конкурентный анализ.

 

X-Files — управление фактографической информацией

Система X-Files предназначена для решения задач анализа сообщений в отечественных СМИ с целью получения информации о социальных проблемах и тональности оценок происходящих в России процессов. Результаты анализа представляются в форме досье – исторически упорядоченных фактов по каждому из направлений анализа. Шесть лет назад направление фактографии в России отсутствовало, а технологии структурирования содержимого текста ограничивались лишь выделением сущностей, однако за последующие годы ситуация изменилась, и система была дополнена рядом новых функций.

 

Рис. А. Автоматическое расширение описания объекта
Функция извлечения базовых типов тем и сущностей расширена на основные мировые языки. Функция ассоциативного поиска фактов дополнена сервисом автоматического расширения определяющих объект свойств, темами, выделенными из факта. На рис. А приведен пример расширения описания объекта путем добавления адреса его электронной почты на основании обнаружения в факте ФИО и адреса объекта.

В систему включена функция построения иерархической структуры кластеров фактов с общими свойствами, что позволяет выделять бизнес-группы, группы с общими интересами и др.

Для решения проблемы работы с разноязычными фактами была воплощена концепция моноязычного пространства фактов, текст которых переводится на базовый язык в соответствии с типом языка факта. В системе реализованы три типа языков. Базовый язык — язык, на который переводятся факты на других языках. Для первичных языков обработка текста производится на этом языке. Факты и их свойства, извлеченные из текста на первичном языке, обрабатываются и хранятся на нем, а текст предложения факта всегда переводится на базовый язык Для вторичных языков выделение свойств факта производится из текста на базовом языке после его перевода в соответствии с тематикой факта. Такой подход позволяет постепенно наращивать список языков первичного и вторичного типов, сохраняя ранее вложенные в семантические анализаторы инвестиции.

На рис. Б приведена технологическая схема обработки текста факта в зависимости от типа языка.

 

Рис. Б. Пример окна визуализации карты связей объектов

В новых версиях системы X-Files появилась функция объединения досье различных объектов на основе анализа степени близости их названий, а также схожести связей и характера фактов. Благодаря этой функции количество объектов может быть существенно уменьшено — многие из них похожи по названию и по проявлениям в фактах. Система автоматически строит гипотезы о похожести объектов, учитывая нечеткие связи между ними. Практически достоверные гипотезы объединяют досье различных объектов в единое.

Сегодня у аналитиков востребована также функция извлечения эмоциональной окраски фактов, которая используется для оценки имиджа объекта или отношения к проблеме, являющейся объектом досье. Результат выполнения функции (http://tm.i-teco.ru/tm/Default.aspx) может, например, выглядеть следующим образом: «Рассматривается и вариант возможности либерализации "переброса»  накопительной части пенсии в страховую, что, скорее всего, существенно уменьшит накопительную часть пенсионной системы, формирующуюся из обязательных взносов, или даже полностью ее ликвидирует — это также может быть частичной альтернативой повышению пенсионного возраста» (зеленым выделена позитивная окраска, красным – негативная, «жирным» — объект тональности).

Расширены инструменты визуальной аналитической обработки фактов. Например, функция визуализации карт связей объектов позволяет выполнять навигацию по объектам, окрашивать различные типы связей объектов, фильтровать веса и типы связей и объектов, погружаться в факты выбранной связи и в факты, относящиеся к выбранному объекту. Визуализация может быть выполнена на геоинформационной подложке (рис. Б).

В настоящее время реализована облачная версия системы X-Files, установленная в крупном ЦОД, выполняющем мониторинг Рунета.

 

***

Алгоритмический анализ фактов — актуальная тема, однако соответствующая отрасль информатики – компьютерная фактология — пока не имеет полного набора схем и методов решения стоящих перед пользователями задач. Возможно, в ближайшие годы следует ожидать качественного скачка результатов в этой области, что позволит не только структурировать практически не ограниченный по объему контент Интернета в форме фактов, но также решать задачи поддержки принятия решений на основе, например, фактологического анализа и экспертных самообучающихся систем.

Сергей Киселев (Kiselev@i-teco.ru), Григорий Топровер — сотрудники компании «Ай-Теко», (Москва).