На российском ИТ-рынке сегодня прослеживается тенденция к смещению спроса от обычных учетных систем в сторону систем анализа и поддержки принятия решений — современные программы автоматизации бухгалтерского, складского, управленческого учета и документооборота уже способны удовлетворить запросы самого взыскательного заказчика, однако в отношении информационно-аналитических систем этого утверждать пока нельзя. Рынок отечественных систем еще достаточно молод и активно формируется, заказчики успешно прошли этап накопления первоначального информационного капитала и теперь стоят перед проблемой его эффективного использования. Система АРИОН (автоматизации работы с информацией оперативного назначения) от компании «Сайтэк» — одна из типичных отечественных разработок в области бизнес-аналитики.
Назначение и идеология
Разработка информационно-аналитической системы АРИОН ведется компанией «Сайтэк» с 2001 года совместно с Институтом проблем информатики Российской академии наук (ИПИ РАН). Базой для системы послужили исследования российских ученых в области аналитической обработки информации и анализа текстов на естественном языке. Основная цель, декларируемая компанией-разработчиком, — предоставить пользователям эффективный и удобный инструмент для автоматизации информационно-аналитической деятельности.
Перед разработчиками системы стояли следующие задачи:
-
реализовать алгоритмы аналитической обработки информации и анализа текстов на естественном языке;
-
разработать удобный и понятный интерфейс пользователя;
-
обеспечить поддержку различных режимов аналитической обработки данных, используемых в реальных прикладных задачах;
-
разработать механизмы сбора информации из источников различных типов;
-
разработать правила извлечения и обработки данных для типовых предметных областей;
-
обеспечить интеграцию с различными информационными системами на базе современной программной платформы;
-
предоставить средства разграничения доступа и аудита, подготовки отчетов, истории запросов, оповещения пользователей и пр.
Иначе говоря, система задумывалась для решения задач, характерных для информационно-аналитической деятельности в целом в произвольной предметной области. Комплекс задач, для решения которых предназначена система, достаточно типичен: мониторинг ситуации по заданной проблеме на основе данных из различных источников, в том числе СМИ; расследование происшествий и страховых случаев; анализ деятельности организаций (клиентов, конкурентов, потенциальных партнеров, сбор и ведение досье); обработка больших информационных массивов и выделение из них значимых материалов (в частности, обработка обращений граждан и организаций, аналитическая надстройка над системами документооборота); автоматизация подбора соискателей для кадровых служб; определение рыночной стоимости объектов недвижимости и т.п.
Анализ данных из разнородных источников
АРИОН позволяет организовать сбор данных из Сети, файлов в различных форматах (xml, txt, pdf, doc, mdb и пр.), реляционных баз данных, электронных таблиц Excel, внешних информационных систем и электронной почты.
Настройка на конкретные источники осуществляется в конфигурационном приложении, позволяющем определить правила извлечения данных. Например, для сбора информации из Сети можно задать корневую страницу, фильтр по ключевым словам и глубину перехода по перекрестным ссылкам, либо выбрать поисковую машину (Yandex, Google и т.п.) и ввести ключевую фразу для поиска. Для таблиц Excel и реляционных баз данных определяется способ отображения столбцов таблицы на атрибуты объектов, создаваемых из них в системе, связи между объектами и фильтры по значениям полей. Для текстовых файлов задаются фильтры и правила извлечения информации лингвистическим процессором.
В структурированных источниках информация об объектах представлена в виде совокупности атомарных полей и готова к дальнейшей обработке, например, реляционные базы данных относятся именно к этому виду источников, хотя бывают исключения. Если почтовый адрес хранится в таблице в одном столбце, то перед обработкой может потребоваться разделить его на несколько отдельных полей (индекс, город, улица, номер дома и пр.), и тогда такой источник будет относиться к классу частично структурированных. К неструктурированным относятся полнотекстовые документы, структура которых заранее не известна, например, документы Word и Web-страницы. В системе Арион поддерживается сбор информации всех трех видов.
Для учета степени достоверности информации из конкретного источника в процедурах сбора и обработки предлагаются различные способы дифференциации по источникам. Первый способ — назначать различные процедуры обработки для разных источников. К примеру, информацию из достоверных источников можно подвергать глубокой обработке и фактографическому анализу, а материалы «желтой прессы» загружать в систему только для ознакомления и потом фильтровать. Второй способ заключается в том, чтобы на этапе отбора информации с помощью поисковых средств отсечь материалы заведомо недостоверных источников, оставив для анализа только полезную информацию. Наконец, третий способ — назначить источникам информации веса, которые затем будут учитываться при поиске, обработке и составлении отчетов.
Полнотекстово-фактографический дуализм
Обычно при решении практических задач аналитик работает как с текстовой, так и с формализованной информацией, используя разные инструменты: текстовые редакторы или специальные поисковые системы, табличные процессоры или базы данных. Поэтому приходится использовать несколько программных продуктов, что затрудняет синхронизацию изменений и, главное, чревато потерей связи между данными, представленными в различных формах.
В системе Арион изначально был взят курс на поддержку механизмов работы как с полнотекстовой, так и с формализованной информацией, а также смешанных режимов, позволяющих добиться эффекта синергии за счет одновременной обработки данных в разных формах.
Для работы с полнотекстовыми документами поддерживается набор стандартных функций, достаточный для построения информационно-поисковой среды: загрузка текстов в хранилище из различных форматов; автоматизированная рубрикация документов; поиск документа по атрибутам и вхождению в рубрики; поиск документа по содержанию (полнотекстовый поиск); составление дайджестов и информационных подборок; построение статистических отчетов по источникам информации.
В поисковом запросе пользователь может применять сложные конструкции, используя логические операторы, шаблоны выражений «?», «*», коэффициенты усиления отдельных условий и задавая расстояние между словами. Полнотекстовый поиск выполняется с учетом морфологии русского языка (искомые слова будут найдены независимо от падежа, числа, склонения, времени и пр.). При поиске учитываются синонимы и опечатки — соответствующие словари заполняются в настройках системы.
Для обработки формализованной информации в системе используется модель семантической сети, представляющая данные в виде объектов и связей. Информацию в таком виде принято называть фактографической (рис. 1). Объекты имеют тип и набор характеристик, связи между объектами характеризуются типом и окраской. Тип связи показывает, каким способом она было получена, например, «выделена из текста» или «установлена пользователем»; окраска связи описывает отношения между объектами. Для работы с фактографической информацией в системе предусмотрено несколько поисковых и аналитических режимов (например, поиск цепочек взаимосвязей между заданными объектами или построение досье), а также средства построения аналитических и статистических отчетов.
Одновременная работа с полнотекстовой и фактографической информацией поддерживается в режимах единого поиска и составления отчетности. Единый поиск позволяет отбирать из хранилища информацию, совмещая в одном запросе полнотекстовые и фактографические поисковые возможности. Результат такого отбора — набор релевантных объектов и документов, причем в аналитическом отчете будет содержаться как структурированная информация об объектах в табличной форме, так и тексты соответствующих документов.
Лингвистический процессор
Технология автоматического извлечения знаний из текстов (рис. 2) активно изучается уже много лет, но вот добиться приемлемых результатов ее коммерческого применения удалось считанным единицам стартапов. Технологии морфологического и синтаксического анализа текста изучены хорошо, однако на стадии логико-семантического анализа возникают серьезные проблемы, поэтому большинство лингвистических процессоров относится к узко специализированным и хорошо описанным формально предметным областям. В лингвистическом процессоре системы АРИОН предусмотрена возможность настройки на предметную область с помощью специального языка.
Лингвистический процессор обрабатывает полнотекстовую информацию в следующем порядке: графематический анализ — морфологический анализ — синтаксический анализ — выделение фактографической информации (логико-семантический анализ). На этапе графематического анализа текст разбивается на отдельные образцы специальных типов — лексемы (например, «слово_в_кавычках», «знак_пунктуации», «блок_буквенно-цифровой» и пр.). На этапе морфологического анализа проводится анализ всех слов текста. Для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки. Результатом морфологического анализа является сеть, состоящая из отдельных лексем с порядковым номером в тексте. Если слово имеет несколько вариантов разбора, то ему соответствуют несколько фрагментов сети с одним порядковым номером.
В процессе синтаксического анализа текста последовательно обрабатываются предложения, состоящие из последовательности слов, знаков препинания, а также специальных последовательностей символов в виде номеров, последовательностей латинских букв и пр. Результат этой обработки в дальнейшем используется при определении наличия и окрасок связей между выделенными объектами.
Логико-семантический анализ выполняется на основе специальных правил настройки предметной области. В системе существуют три вида правил, которые соответствуют трем стадиям логико-семантического анализа: выделение словарных понятий, выделение объектов и создание связей между объектами. На первой стадии используются словари терминов предметной области, например: словарь валют, словарь форм собственности организаций или классификатор административно-территориальных образований. На второй стадии задействуется вторая группа правил, на основании которой из текста выделяются объекты предметной области и заполняются значения их атрибутов. Наконец, на третьей стадии срабатывает последняя группа правил и создаются связи между выделенными объектами.
Полный цикл обработки информации
Последовательность обработки информации в системе АРИОН условно разбита на четыре этапа: сбор и предварительная фильтрация данных; отбор данных; аналитическая обработка; подготовка отчетности. При этом аналитику не навязывается жесткий порядок следования — с каждого этапа можно вернуться на предыдущие, либо пропустить ранние этапы и использовать, например, данные, собранные в процессе ранее решавшихся задач. На каждом этапе система поддерживает ряд инструментов, основные из которых представлены на рис. 3. При решении практических задач аналитик выбирает те инструменты, которые ему в данный момент необходимы.
Сбор и предварительная фильтрация данных
Интерфейс ручного ввода позволяет вводить в систему документы или отдельные объекты. Вводится либо текст документа, либо название файла, в котором текст содержится. Для ввода объекта необходимо выбрать его тип и заполнить значения атрибутов. Менеджер загрузки позволяет планировать и осуществлять сбор больших объемов данных, а также периодически обновлять информацию из различных источников по заданному графику. С его помощью для загруженных данных можно также назначать процедуры первичной обработки, например, выполнять фактографический анализ загруженного текста и идентификацию извлеченных из текста объектов. После выполнения всей цепочки можно просмотреть полную детализацию каждой подзадачи, вплоть до обработанных данных.
Средства идентификации позволяют определить, что вновь введенный объект уже содержится в фактографическом хранилище системы, и выполнить слияние старого и нового объекта исключив дублирование. Система позволяет задавать для каждого типа объектов несколько критериев сходства, на основе совпадения или похожести значений атрибутов и весовых коэффициентов. Если в отношении двух объектов нельзя с уверенностью сказать, что они совпадают, то между ними проставляется связь похожести, а решение об их слиянии принимает эксперт предметной области.
Отбор данных
Помимо полнотекстового поиска, в системе имеются возможности отбора фактографической информации и различные механизмы фильтрации.
Атрибутивный поиск является простейшим режимом фактографического поиска и позволяет находить объекты определенного типа, значения характеристик которого удовлетворяют условиям запроса. Например, можно отобрать из хранилища все объекты типа «Организация», которые имеют форму собственности «ФГУП» и наименование которых начинается с фрагмента «Строй…». Режим поиска по шаблону ситуации позволяет задавать в запросе условия поиска не только объектов, но и связей. Фактически поисковый запрос представляет собой шаблон той или иной ситуации, которую необходимо найти в хранилище, например, «найти имеющиеся факты контрабанды наркотиков из Китая».
Для упорядочения работы с большими массивами информации в системе имеется возможность разбивки документов по рубрикам и логическим разделам. Рубрикаторы, как правило, используются для классификации документов по тематическому содержанию. Логические разделы — более мощное средство, позволяющее полностью отделить определенную часть информации — в том числе и фактографической — в хранилище. Их удобно использовать, когда с системой работают несколько аналитиков и каждый занимается отдельной проблемой. Все эти средства можно использовать при отборе информации, указывая в поисковом запросе рубрики и логические разделы, в которых будет выполняться поиск информации. Также есть возможность в запросе задавать фильтры по дате создания объекта или документа и его статусу (обычный, архивный, незначимый).
Задача отбора данных может быть окончательным результатом работы пользователя. Наиболее частый случай — подборки событий из различных источников по определенной тематике и представление их руководителю.
Аналитическая обработка данных
Аналитические режимы позволяют решать сложные задачи поиска и модификации данных.
Режим поиска цепочек связей позволяет найти все (или кратчайшие) возможные цепочки взаимосвязей между двумя (или несколькими) объектами на определенную глубину. Режим предназначен, прежде всего, для проверки существования связи между объектами и выявления характера этой связи. Таким образом между объектами можно найти скрытые зависимости, которые выражены ассоциативно (например, два человека «незнакомы», но номера их билетов на рейс «Москва — Стамбул» следуют подряд).
Контекстный анализ позволяет найти все связи для заданного объекта — определить его окружение. Этот режим используется, в частности, при составлении досье на какой-либо объект интереса, например, на компанию партнера по бизнесу. Параметрами режима могут быть «глубина» поиска связанных объектов или условия на их значения (например, интересуют только связи с юридическими лицами за трехмесячный период).
Режим мониторинга позволяет оперативно отслеживать появление новой информации по интересующим вопросам. Любой объект в системе можно поставить на мониторинг, и при поступлении новой информации, имеющей отношение к данному объекту или к его окружению, заинтересованному пользователю будет приходить уведомление с кратким описанием свежих данных и со ссылкой для их просмотра.
Чтобы отразить в алгоритмах аналитической обработки информации специфику предметной области, используется механизм логического вывода. Он позволяет на уровне данных описывать причинно-следственные связи между объектами и событиями и получать принципиально новую информацию на основе имеющейся в хранилище. Процедуры логического вывода разрабатываются в каждом проекте индивидуально экспертом предметной области и специалистом по конфигурированию системы.
Подготовка отчетов
В системе поддерживаются три основных вида отчетов, которые составляются по предварительно настроенным шаблонам.
Дайджест — простой, но весьма практичный отчетный документ, представляющий собой подборку текстов по определенной тематике за некоторый период времени, упорядоченных по степени важности. Преимуществом дайджеста является то, что затраты времени на его составление крайне незначительны — достаточно выбрать нужную рубрику или задать поисковый запрос.
Аналитический отчет — агрегированная информация по определенной тематике. Элементами отчета являются информационные и сводные таблицы, семантические сети в виде графов, сводные графики и диаграммы. Аналитический отчет содержит данные, отобранные из хранилища в результате поиска и работы аналитических режимов. Компонентами отчета могут быть результаты статистического анализа (например, число встреч различных политиков между собой в разные периоды времени).
Досье — специальный вид аналитического отчета, содержащий всю имеющуюся в хранилище информацию по некоторому объекту интереса и разложенную по заранее определенным разделам, также дополненную графика и диаграммами.
Платформа и архитектура
Система построена на архитектуре тонкого клиента, что позволяет сократить затраты на развертывание и сопровождение, а также принципиально упрощает совместную работу информационно-аналитических сотрудников в территориально распределенных организациях. Например, первичная информация вводится на местах, а в центре выполняется ее всесторонний анализ. Для работы c системой через портал на клиентских компьютерах используется только браузер Internet Explorer, а вся обработка осуществляется на серверах.
Для интеграции со смежными системами применяется технология Web-сервисов. Посредством специального интерфейса обеспечивается обмен данными с другими системами на любой стадии обработки. Дополнительно поддерживается интеграция на уровне хранилища данных с помощью СУБД (выполнялась интеграция с системами Convera Retrieval Ware, Галактика Zoom, i2 Analyst’s Notebook).
Система может быть развернута на базе СУБД Microsoft SQL Server или Oracle на платформе Windows и Unix. Полноценная трехзвенная архитектура позволяет выполнять масштабирование на любом уровне обработки (СУБД, сервер приложений) путем наращивания процессорной мощности и использования кластерных решений. Сбор, хранение и обработка информации могут быть распределены по разным серверам. Например, ресурсоемкий фактографический анализ текстов может осуществляться на отдельном сервере.
Система состоит из нескольких независимых модулей и функциональных блоков. Пользовательский портал предоставляет интерфейс для ввода, поиска, анализа данных и подготовки отчетов. Лингвистический процессор извлекает фактографическую информацию из текста. Имеются еще выполненный в виде отдельного приложения АРМ-корректор, позволяющий пользователю контролировать и вручную корректировать результаты фактографического разбора текстов, и АРМ-эксперт, предназначенный для настройки и проверки правил фактографического разбора текстов. Специальная подсистема сбора информации настраивается на внешние источники данных с помощью специальных адаптеров и выполняет разовый или периодический сбор и предварительную фильтрацию. Менеджер загрузки планирует и выполняет сбор больших объемов данных с периодическим обновлением информации из различных источников по заданному графику. Подсистема управления запросами позволяет планировать и выполнять сложные поисковые запросы в фоновом режиме или в период низких нагрузок.
Выбирая конфигурацию, заказчик может приобрести только те блоки, которые ему нужны для выполнения конкретной работы. Например, подсистемы сбора информации, управления запросами, менеджер загрузки, лингвистический процессор требуются не для всех задач анализа данных. В системе предусмотрена функция разграничения доступа, управляющая правами пользователя на уровне режимов обработки и доступом к объектам и документам. Журнал учетных записей пользователей и групп интегрирован с технологиями Microsoft Active Directory и LDAP. Все действия пользователей протоколируются в системном журнале.
***
В системе АРИОН были реализованы все поставленные задачи и предусмотрена поддержка расширенных функциональных возможностей, однако непосвященному пользователю система может показаться сложной, и тогда потребуется пройти курс обучения. При дальнейшем развитии планируется дополнить систему вертикальными отраслевыми решениями «Типовая аналитическая система службы безопасности» и «Типовая аналитическая система кадровой службы».
Алексей Босов (AVBosov@ipiran.ru) — заведующий сектором Института проблем информатики РАН.
Денис Краюшкин (kraus@sytech.ru) — технический директор компании «Сайтэк» (Москва).
Рис. 2. Извлечение фактографической информации из текста
Рис. 3. Функциональная структура информационно-аналитической системы АРИОН
Требования к системе бизнес-аналитики
Полный цикл обработки информации. Аналитическая система должна позволять формировать и выполнять типовые последовательности операций для всех этапов обработки информации, начиная от сбора данных и заканчивая подготовкой отчетов.
Доступ к данным из разнородных источников. В системе должны присутствовать механизмы сбора данных из распределенных источников, а также возможности гибкой настройки на различные типы и форматы источников.
Автоматический анализ текстовых данных. Фактографическая информация (объекты учета, их взаимосвязи и факты предметной области) должна автоматически извлекаться не только из структурированных материалов, но также из текста.
Набор инструментов для работы с полнотекстовой и фактографической информацией. Аналитик должен иметь возможность варьировать способы представления и обработки информации в зависимости от вида решаемых задач и входных данных и обрабатывать одновременно и структурированные, и неструктурированные данные.
Развитые возможности визуализации. Должны поддерживаться различные, прежде всего графические, режимы просмотра и редактирования информации пользователем — графики, диаграммы, таблицы и т.д.
Поддержка совместной работы многих пользователей. Должна поддерживаться работа в многопользовательской среде с единым информационным хранилищем и возможностями удаленного доступа (например, из филиалов).
Поддержка больших объемов информации. Система должна хорошо масштабироваться на различных объемах исходных данных и интенсивности обновления источников информации.
Открытая архитектура. На любом этапе обработки информации должен обеспечиваться обмен данными со смежными системами.
Оперативный бизнес-анализ
www.osp.ru/os/2005/12/380628/
Технологии извлечения знаний из текста
www.osp.ru/os/2006/06/2700556/
Обнаружение знаний в хранилищах данных
www.osp.ru/os/1999/05-06/179852/
Модель информационной системы бизнес-разведки
www.osp.ru/os/2005/05-06/185595/
BI 2.0: прообраз новой архитектуры бизнес-аналитики
www.osp.ru/os/2007/05/4260805/