Примером соответствующего инструментария может служить программный продукт ClaraBridge компании ClaraView.
Некоторое время назад нашему коллективу поступил заказ на разработку дополнительных модулей к программному продукту ClaraBridge американской компании ClaraView. Последняя специализируется на консалтинге и технологиях бизнес-анализа (Business Intelligence, BI), и в первую очередь — на анализе потоков информации. В сопровождавшей заказ документации упоминались ЦРУ и ФБР, из недр которых вышла ClaraView, и которые являются пользователями ее продуктов. Изначально ClaraView ориентировалась на решение задач информационной разведки, возникающих при борьбе с террористическими организациями.
Два года работы с продуктовой линейкой ClaraBridge в интересах американских заказчиков (в их числе были регулирующие органы, федеральные агентства, некоммерческие и общественные организации и коммерческие структуры из разных отраслей) позволили нам изучить ее специфику. Со временем наша компания начала предлагать решения на основе ClaraBridge и в России. К их созданию были привлечены команды отечественных разработчиков лингвистических и экспертных систем (в частности, системы Fact Extractor компании «Гарант-Парк-Интернет»). Первые проекты были выполнены для Федеральной антимонопольной службы и Администрации Президента. Интерес к ClaraBridge проявили новостные агентства и организации, специализирующиеся на анализе рынков, занимающиеся политическим и экономическим консалтингом, исследованиями общественного мнения.
Для решения каких задач предназначен программный продукт ClaraBridge? Экспертам спецслужб приходится обрабатывать огромные объемы материалов. «Сырьем» для анализа являются сообщения СМИ и новостных лент, информация из Internet и данные государственных структур, отчеты коммерческих и общественных организаций и т.п. Аналитики настраивают подручный инструментарий (все те же Microsoft Excel, Word или более продвинутые VBA и Microsoft Access) для сбора и структурирования необходимой информации. Эта работа выполняется преимущественно вручную, и лишь в некоторых случаях применяются средства автоматического поиска и извлечения данных. Исходные документы объемом до нескольких сотен страниц порой исчисляются десятками тысяч, а при обработке коротких сообщений, новостей и статей в СМИ речь идет уже о сотнях тысяч источников. Анализ с целью составления сводок, позволяющих определять тенденции и делать прогнозы, может занять несколько месяцев.
Сегодня уже недостаточно применения даже хорошо развитых средств извлечения структурированных данных из неструктурированных источников. Требуется сразу вводить обработанные сведения в BI-системы и предоставлять эксперту инструмент их визуализации для дальнейших действий с хранилищем структурированной информации. В таких случаях аналитику достаточно лишь применять его знания для проверки актуальности, достоверности и точности информации в контексте поставленной задачи. Отметим, что при автоматизации обработки необходимо не просто извлекать факты, но и максимально точно определять их взаимосвязи, привязку к персонам, организациям, регионам, отраслям и временной шкале, а также к другим измерениям (которые также надо получать автоматически).
Сегодня нет комплексного инструмента, позволяющего автоматизировать весь этот процесс. Между тем, актуальность аналитического отчета непосредственно зависит от времени обработки данных.
Системы на базе ClaraBridge позволяли отслеживать в СМИ частоту и контекст упоминания террористических групп, их взаимосвязи с политическими деятелями, радикальными партиями и отдельными личностями, выявлять определенные ситуации и их предпосылки, устанавливать тенденции на основе сравнительного и статистического анализа фактов террористической деятельности. Те же механизмы анализа используются при обработке корпоративной информации, 85% которой, по оценке Gartner, не структурированы. В отличие от мониторинга открытых источников, в бизнесе необходимо работать с корпоративными информационными системами, в том числе с деловыми письмами, внутренними и внешними документами, структурированными базами данных. Аналитики Gartner считают, что связывание структурированной и неструктурированной информации становится необходимым условием обеспечения ее семантической целостности внутри компаний. По их утверждению, до конца 2007 года должны сформироваться соответствующая терминология и инфраструктура связывания этих двух миров.
К примеру, для CRM-системы, предназначенной для накопления и обработки информации о клиентах, первоисточниками являются электронная почта, корпоративные и профессиональные сайты, профессиональная пресса, отраслевые и биржевые новости, публикации в специализированных изданиях, текстовые документы, аудио- и видеоматериалы, которые хранятся в корпоративном хранилище или на рабочих станциях сотрудников. Тщательный анализ всего этого массива данных позволяет увидеть внутренние и внешние экономические, социальные и иные связи, уточнить цепочки поставок, определить конъюнктуру и тенденции рынка.
Разработано немало программных средств обработки и анализа информации, но каждое из них нацелено на определенный источник данных или тип анализа. Поэтому следующей задачей ClaraView стал поиск решений для построения моста между мирами неструктурированной и структурированной информации. Платформа ClaraBridge (рис. 1) позволила объединить существующие инструменты обработки. С неструктурированной информацией эти инструменты обеспечивают: определение сущностей и отношений (маркировка и извлечение объектов и взаимосвязей); управление знаниями, содержимым документов разных форматов и типов, фактами и прецедентами; поиск и категоризацию документов; управление документами и документооборотом. А для обработки структурированной информации имеются инструменты бизнес-анализа (в том числе оперативной аналитической обработки, генераторы отчетов по запросам и средства поддержки принятия решений), статистического анализа, визуализации и отображения данных, добычи данных.
Рис. 1. ClaraBridge — мост между неструктурированной и структурированной информацией
Платформа ClaraBridge обеспечивает автоматизацию процессов сбора и обработки данных различных источников информации, в том числе выделение фактографической информации из неструктурированных или слабоструктурированных документов и их загрузку в хранилище данных. После такого рода формализации данных источников становится возможным применять различные методы и средства бизнес-анализа ко всей совокупности накопленной информации:
- многомерный анализ (фильтрование и группировка по различным критериям; детальный анализ по выбранным критериям, переключение на поиск по другим критериям);
- анализ временных рядов (изменение характеристик объектов и значений показателей со временем);
- выборочный анализ (первые/последние значения показателей; фокусный анализ);
- анализ рынков (поиск комплектующих изделий и товаров, сопутствующих услуг; обнаружение неявных связей между объектами);
- поиск аномалий и событий, выпадающих из последовательностей исторических данных.
В чем состоит отличие продуктов ClaraView от интеграционных платформ общего назначения (Enterprise Application Integration, EAI) и традиционных средств извлечения, трансформации и загрузки данных (Extract-Transform-Load, ETL)? Для решения каждой задачи экспертного анализа традиционными способами требуется инициировать масштабный заказной проект интеграции отдельных средств. ClaraBridge обеспечивает универсальный уровень, расположенный над существующими инструментами обработки данных. В комплект ClaraBridge входит достаточное число адаптеров, коннекторов, средств извлечения данных, а также «движок» управления последовательностью обработки данных, которые в совокупности позволяют описать, автоматизировать и управлять процессами поиска, обнаружения, извлечения, добычи и преобразования неструктурированной информации в структурированную. Ключевое свойство ClaraBridge — возможность консолидации в едином репозитории метаданных из структурированных и неструктурированных источников, в том числе для регулярного и повторного применения исходных и целевых баз данных или хранилищ.
ClaraBridge интегрируется со специальными лингвистическими алгоритмами, с готовыми инструментами, работающими с естественным языком, обрабатывает огромные массивы неструктурированных данных и извлекает из них значимую для анализа часть. Результат сохраняется в виде структурированного хранилища данных, готового к многомерному анализу.
Рис. 2. Модель работы эксперта |
Платформа ClaraBridge в какой-то мере повторяет модели работы эксперта (рис. 2) при исследовании ситуации и работы аналитика при создании отчетов. Анализ основан на ситуациях (фактах), обеспечивается просмотр большого объема разнородной информации, используются разнотипные источники данных, применяется совокупность методик и средств поиска и анализа (в том числе набор инструментов автоматизации).
После автоматизированной обработки неструктурированных данных на платформе ClaraBridge с применением интегрированных средств и схем преобразования документов генерируются отчеты для конечных пользователей (рис. 3), а также дается возможность «играть» с построенными многомерными кубами.
Рис. 3. Архитектура ClaraBridge
Условное разграничение областей компетенции эксперта и аналитика состоит в следующем. Первый специализируется на неструктурированных данных и полагается на точность своих суждений («экспертное мнение»), а второй работает со структурированной информацией, рассматривая ее в разных разрезах, применяя детализацию или агрегацию. Специалисты из экспертных и аналитических отделов тратят примерно 15% рабочего времени на поиск нужных источников данных и их просмотр, 75% — на извлечение первичных данных и их структуризацию, и лишь 10% — на сам анализ (DMReview, февраль 2005). Таким образом, основные усилия идут на поиск источников данных, конкретных документов и фрагментов, на формирование правильных запросов для извлечения данных из структурированных или частично структурированных источников, на извлечение информации вручную или автоматически (по заданным критериям), преобразование полученных данных в удобное для анализа представление, создание статических/динамических запросов и аналитических отчетов.
ClaraBridge по возможности автоматизирует все эти процессы, позволяя создавать и настраивать типовые сценарии обработки информации, расширять их, подключать дополнительные массивы неструктурированной и структурированной информации. ClaraBridge интегрируется с лучшими решениями, предназначенными для поиска, извлечения, классификации, рубрикации, фильтрации и пр. Это позволяет накапливать материалы для анализа, сокращать цикл поиска и подготовки исходных данных. В результате каждый запрос на анализ обрабатывается в более сжатые сроки. Этот процесс осуществляется на основе заданных правил извлечения фактов и других структурированных данных из неструктурированного потока информации, нормативно-справочной информации, уже накопленного структурированного массива путем расширения измерений, сущностей и данных целевого хранилища за счет подключения новых источников данных, либо обработки уже имеющихся в новом ракурсе.
Основное отличие заключается в том, что цель интеграции состоит в формировании целевого хранилища данных, предназначенного для анализа информации. При этом аналитик должен «видеть» данные из неструктурированных источников, но не вникать в детали сбора, извлечения, преобразований и самого анализа. Обычно после извлечения и трансформации данных теряется связь между поставщиком и потребителем информации, но ClaraBridge позволяет проследить первоисточники. Например, можно детально проверить каждую строку отчета — вплоть до отдельных цифр, фактов и ссылок на первичные документы или Web-страницы.
При рассмотрении архитектуры ClaraBridge (рис. 3) необходимо выделить источники данных и целевые аналитические системы, с которыми интегрируется платформа (на рисунке они находятся, соответственно, слева и справа от блока ClaraBridge). Интеграция выполняется при помощи настраиваемых и расширяемых коннекторов (соединений). Поток данных через ClaraBridge идет слева направо. Исходный материал извлекается коннекторами, которые активизируются по определенному графику или регламенту на основе настроек соответствующих сервисов. Далее сервисы преобразования, отвечающие за многошаговую обработку данных, привлекают к процессу готовые аналитические инструменты маркировки, извлечения объектов и взаимосвязей, категоризации и именования, согласования данных и специальных трансформаций. Структурированные таким образом данные доступны в виде Web-сервисов, стандартных драйверов ODBC/JDBC-драйверов и специализированных коннекторов для традиционных средств анализа структурированных данных.
ClaraBridge не конкурирует ни с одним отечественным или зарубежным продуктом: он позволяет интегрировать их и организовать «сквозной» процесс анализа. Пользователь не только получает ссылки на статьи и выдержки из текстов, но и видит структуру информации. Это позволяет ответить на вопросы типа «сколько человек участвовали в прошлогодних акциях протеста, состоявшихся в разных регионах?» Аналитику предоставляется множество упорядоченных структурированных записей, таких как «темы митингов, даты, числа, перечни участников, данные по местам проведения».
Аналогичные системы тоже дополняют средства поиска информации возможностями анализа (коэффициент значимости, рейтинг слов, временная шкала, динамика тем), но они обычно являются «замкнутыми» решениями, объединяют в себе лишь определенные инструменты и обеспечивают услуги по подписке. Платформа ClaraBridge интегрирует всевозможные инструменты сторонних производителей. Например, при интеграции «движка» RCO можно получить коэффициенты значимости фактов. Морфологический анализ «от RCO» позволяет определять удаленность контекста от конкретной темы или ключевого слова без лишнего шага, которого требуют другие инструменты, — использования фильтра сопутствующих тем для формирования информационного портрета. При помощи ClaraBridge можно расширять возможности имеющихся систем, подключая к ним современные средства анализа. К примеру, можно интегрировать систему «Галактика ZOOM» с ClaraBridge, обработать результат поиска, а затем проанализировать содержимое документов для извлечения фактов, их структуризации и систематизации средствами традиционных систем оперативной аналитической обработки и поддержки принятия решений.
Артак Оганесян (ArtakO@moscow.vdiweb.com) — директор по развитию бизнеса компании Vested Development (Москва).
Средства анализа структурированной и неструктурированной информации
Анализ неструктурированной информации
Средства анализа неструктурированной и слабоструктурированной информации обеспечивают глубинный анализ текстов, управление содержанием и знаниями, управление документами, а также поиск и категоризацию документов.
Глубинный анализ (добыча) текста (Text Mining). Обработка текстов на естественном языке: морфологический, лексический и синтаксический анализ фраз с целью выделения информации об объектах (людях, географических понятиях, организациях, продуктах и т.д.), их взаимосвязей и структуризации выявленных фактов и отношений в виде реляционных таблиц или XML-схем, которые затем могут быть загружены в хранилища данных и подвергнуты анализу. Как правило, после автоматической обработки текста и первоначального выделения объектов, результат должен анализироваться специалистом-предметником на соответствие конкретным аспектам исследуемой проблемы с целью оценки достоверности и значимости выявленных смысловых связей, закономерностей и тенденций. Поставщики и продукты: ClearForest, NetOwl, Attensity Powerdrill, RCO Extractor, «Медиалогия», «Галактика ZOOM».
Управление содержанием и знаниями (Content and Knowledge Management). Организация и хранение знаний на основе выбранной модели представления: классификация информации и документов, автоматизация процессов обработки, организация и классификация документов по папкам, организация единой точки доступа к документам, поиск документов по атрибутике и содержанию. Поставщики и продукты: Documentum, Microsoft Sharepoint, Vignette и Interwoven.
Управление документами (Document Management). Организация и хранение документов на основе обобщенных моделей документов, управление версиями, управление правами доступа, автоматизация процессов документооборота и делопроизводство. Поставщики и продукты: Documentum, Hummingbird, Filenet, Open Text.
Поиск и категоризация документов (Document Search and Categorization). Систематизация и организация доступа к документам: поиск по ключевым словам, расширенный поиск, сортировка по ключевым словам и значениям показателя релевантности, классификация и рубрикация, управляемая навигация. Поставщики и продукты: Verity, FAST, Autonomy, Convera, Endeca, «Медиалогия», «Галактика ZOOM».
Анализ структурированной информации
Инструменты и платформы бизнес-анализа (Business Intelligence Tools/Platforms). Обеспечивают организацию корпоративных хранилищ данных, обработку запросов и получения отчетов, аналитическую обработку и статистический анализ данных для поддержки принятия решений и прогнозирования. К их основным функциям относятся: сбор, хранение, поиск, выборка, обработка и предоставление структурированной информации. Поставщики и продукты: Alacrity Results Management, Brio Intelligence, BusinessObjects BI Platform, CA CleverPath Analysis, Cognos Series 8, Crystal Enterprise, Hummingbird BI, IBM WebSphere Commerce Analyzer, Information Builders WebFOCUS, MicroStrategy Business Intelligence, Oracle Business Intelligence Applications, Sagent Business Intelligence Platform, Viador E-Business Intelligence.
Специализированные средства анализа структурированной информации обеспечивают обработку запросов и подготовку отчетов, аналитическую обработку, визуализацию и отображение данных, глубинный анализ данных, а также решение специфических задач в вертикальных и горизонтальных приложениях.
Обработка запросов и подготовка отчетов (Query and Reporting). Средства, обеспечивающие доступ к базам и хранилищам данных, выборку данных по произвольным или регламентным запросам, выполнение реляционных операций, агрегирование, сортировку и форматирование результатов, а также подготовку интерактивных или выводимых на печать отчетов. Поставщики и продукты: Actuate e.Report Designer, Actuate e.Spreadsheet Designer, Apache xReporter, Brio Reports, BusinessObjects, BusinessObjects WebIntelligence, BusinessObjects BusinessQuery for Excel, CA CleverPath Forest & Trees, Reporter, Cognos Impromptu Query, Crystal Reports, DbVisualizer, Dimensional Strategies ReportEase, IBM Query Management Facility, InetSoft Style Report, Information Builders FOCUS, WebFOCUS, NOMAD, Oracle10g Reports Developer, Oracle10gAS Reports Services, Panscopic Analytic Reporting, Polar Reports Enterprise, Quadbase EspressReport, ReportMill, SAS/ASSIST, Speedware Esperant, SRS ReportSmith, Sybase InfoMaker, UltraQuest Reporter.
Аналитическая обработка. Средства аналитической обработки многомерных баз данных, позволяющие обобщать и агрегировать данные, применять аналитические модели, вычислять статистические, финансовые, алгебраические и арифметические функции, анализировать временные зависимости и корреляции, ошибки, проводить оптимизацию. Некоторые поставщики и продукты: Actimize, Brio Intelligence, BusinessObjects, WebIntelligence, CA CleverPath, Cognos PowerPlay, Crystal Analysis, Hummingbird BI, Hyperion Analyzer, Hyperion Essbase, Informatica PowerAnalyzer, Information Builders FOCUS, Lumina Analytica, Microsoft Business Intelligence Platform, MicroStrategy Intelligence Server, mySAP Business Intelligence, Oracle Express Analyzer, Panscopic Analytic Reporting.
Визуализация и отображение данных. Средства, позволяющие отображать последовательности значений в виде географических карт, диаграмм и других символов деловой графики в статическом или интерактивном режиме, а также в виде индикаторных панелей (dashboard). Производители и инструменты: Antarcti.ca Visual Net, AVS OpenViz, CA CleverPath Visualization Services, Cognos Visualizer, Compudigm seePOWER, CORDA PopChart, ESRI ArcGIS, MapInfo, Microsoft Data Analyzer, Panorama CrossView Visualizer, Plumb Design Thinkmap, Visual Insights.
Глубинный анализ (добыча) данных (Data Mining). Средства анализа больших массивов данных с целью выявления скрытых зависимостей, аномалий, корреляций и тенденций с использованием методов распознавания образов, нечеткой логики, математической статистики, обнаружения аномалий. Поставщики и продукты: Angoss KnowledgeStudio, Attar XpertRule Miner, DataEngine, DBMiner Insight, Hummingbird Miner, IBM DB2 Intelligent Miner, Information Discovery, KXEN Analytic Framework, Megaputer Intelligence PolyAnalyst, PolyVista, Quadstone System, RuleQuest Cubist.
Специализированные средства применяются в вертикальных и горизонтальных аналитических приложениях: управления финансовыми операциями (SAP Financial Insight Package) и отношениями с клиентами (E.piphany), электронной коммерции и маркетинга (Cognos Sales Analysis), управления цепочками создания стоимости и производства (MicroStrategy Supply Chain Analysis), людскими ресурсами (Oracle HRMS Intelligence), розничной торговли (SAS/IntelliVisor for Retail), конкурентного анализа (MarketRelevance).
Средства интеграции данных и приложений
Cредства интеграции данных и приложений корпоративного уровня включают шины обмена данными и сообщениями, программное обеспечение промежуточного слоя (удаленный вызов процедур и брокеры объектных запросов), средства извлечения, трансформации, обеспечения качества и загрузки данных.
Интеграция приложений предприятия (Enterprise Application Integration, EAI). Средства, обеспечивающие в неоднородной ИТ-среде обмен данными и взаимодействие между приложениями в соответствии с моделями потоков работ, документов, сообщений или событий, в том числе в реальном масштабе времени. Обработка запросов выполняется сервером интеграции приложений или соответствующими компонентами развитой СУБД. Поставщики и продукты: BEA WebLogic Integration Server, Fujitsu Interstage, IBM Lotus Enterprise Integrator, IBM WebSphere Business Integration Server, Iona Enterprise Integrator, Microsoft BizTalk Server, OracleAS Integration, SAP NetWeaver, Sun ONE Integration Server EAI Edition, Tibco ActiveEnterprise.
Сервисная шина предприятия (Enterprise Service Bus, ESB). Более экономичный по сравнению с EAI вариант обеспечения взаимодействия между приложениями в неоднородной среде на основе открытого стека протоколов и стандартов и сервисной архитектуры (Service Oriented Architecture), обеспечивающий возможность обмена данными и сообщениями. Поставщики и продукты: Fiorano ESB, IBM Services Integration Bus, Iona Artix, Kenamea Composite, Application Suite, Sonic ESB, SpiritSoft SpiritCache, webMethods JMS+.
Средства промежуточного слоя на основе обмена сообщениями (Message Oriented Middleware, MOM). Обеспечение гарантированной синхронной или асинхронной передачи сообщений между слабосвязанными приложениями, выполняемыми в территориально распределенной неоднородной среде. Поддерживает управление вычислительным процессом по событиям с обработкой очередей и подпиской/рассылкой сообщений. Поставщики и продукты: BEA MessageQ, Envoy XIPC, IBM WebSphere MQ, Microsoft Message Queuing, Oracle Advanced Queuing, Sonic SonicMQ, Sun Java System Message Queue, Tibco Enterprise for JMS.
Удаленный вызов процедур (Remote Procedure Call, RPC). Средства синхронного взаимодействия между жестко связанными приложениями в сетевой среде в соответствии с моделью «запрос-ответ». Поставщики и продукты: Microsoft RPC, Netbula PowerRPC, Open Group DCE RPC, SAP RFC, UserLand XML-RPC.
Брокер объектных запросов (Object Request Broker, ORB). Использует репозиторий интерфейсов, которые позволяют неоднородным объектам посылать и получать сообщения. Базисные средства таких брокеров реализуют функции управления сообщениями, коммуникациями, каталогами и безопасностью. Поставщики и продукты: Apache SOAP, Borland VisiBroker, Iona Orbix, Microsoft COM+/DCOM, Novell exteNd jBroker, OMG CORBA, Recursion Voyager, SAP BAPI, Stryon R-JAX.
Интеграция данных предприятия (Enterprise Information Integration, EII). Средства, обеспечивающие построение единого информационного ресурса на основе неоднородных ресурсов. Методы интеграции могут базироваться на поддержке единого виртуального представления или на физической реализации объединенного информационного ресурса. Поставщики и продукты: Avaki Data Grid, BEA Liquid Data for WebLogic, Business Objects Data Integrator, Composite Information Server, IBM DB2 Information Integration, Ipedo Integration Manager, Journee Enterprise Data Hub, MetaMatrix, Nimble Integration Engine, Venetica VeniceBridge, XAware XA-Suite.
Извлечение, трансформация и загрузка данных (Extract-Transform-Load, ETL). Средства извлечения данных из структурированных источников согласно заданным критериям, преобразования данных в целевой формат по определенным правилам и формулам, сохранения данных в хранилище данных или целевой базе данных. Поставщики и продукты: Ascential DataStage XE, BusinessObjects Data Integrator, CA Advantage Data Transformer, Cognos DecisionStream, Embarcadero DT/Studio, Hummingbird ETL, IBM DB2 Warehouse Manager, Informatica PowerCenter, Information Builders WebFOCUS ETL Manager, Microsoft Data Transformation Services, Oracle Warehouse Builder, SAS/Warehouse Administrator, Teradata Warehouse Tools.
Обеспечение качества данных (Data Quality). Средства верификации и очистки данных, поступающих из внешних источников, перед их загрузкой в хранилище данных. Поставщики и продукты: Ascential DataStage XE и Integrity XE, DataFlux Blue Fusion, Firstlogic Information Quality Suite, Innovative i/Lytics, Paladyne Datagration, Sagent BI Lifecycle, SAS Data Quality, Sun ONE Meta Directory, Trillium Data Quality.
Александр Александров
ПРИМЕР: Анализ топливного рынка
По заказу Федеральной антимонопольной службы РФ требовалось провести анализ конкурентной среды рынка авиационного топлива.
Процесс анализа предполагал оценку ситуации на рынке на основе данных из доступных источников, сбор дополнительной информации с выделением показателей, характеризирующих ситуацию, составление аналитического отчета. В качестве основных источников были доступны СМИ, электронные новостные ленты, отраслевые и корпоративные сайты, Internet.
При традиционном способе сбора информации аналитик проводит запросы по ключевым словам и наименованиям ведущих игроков рынка в поисковых системах, осуществляя просмотр тысяч страниц по найденным ссылкам, фильтрует новостные ленты десяти ведущих поставщиков топлива и ищет документы по заданной тематике в базах данных и корпоративных хранилищах. «Ручное» извлечение фактов предусматривает их сохранение в виде фрагментов текста с обратными ссылками. например, «Торговый дом "Топливное обеспечение аэропортов" подписал долгосрочный договор на поставку авиационного топлива с авиакомпанией "ВИМ Авиа" — из новостей» и занесение факта в базу структурированных данных.
Сбор информации с помощью средств автоматизации начинается с выбора объектов мониторинга — организаций, «продвигающих» авиационное топливо от производителей к потребителям (оптовые продавцы, топливно-заправочные розничные комплексы, аэропорты, производители топлива и личности, «стоящие за» упомянутыми организациями). Затем происходит выбор интересующих типов фактов: договоры, приобретения, слияния и владения предприятий, партнерства, ассоциации, судебные разбирательства, участие в мероприятиях, заявления, выступления, пресс-релизы, рыночные показатели, отчетность, финансовая и коммерческая деятельность.
Объекты предметной области (RCO Fact Extractor) |
Настройка средств автоматизации осуществлялась путем формулирования критериев запросов для системы поиска и доставки документов (WebQL), для структурированных запросов на загрузку и анализа содержимого указанного множества сайтов (можно отслеживать пополнения и изменения). С помощью системы Documentum аналитик проводит выборку материалов из хранилища документов, средствами Fact Extractor строит лингвистическую и семантическую модель для анализа текстов и извлечения фактов (см. рисунок), а также фильтрует данные по предметной области. Аналитическое хранилище данных и типовых аналитических отчетов поддерживается средствами MicroStrategy, а интеграция осуществляется средствами ClaraBridge (конфигурирование компонентов интеграции с системами поиска и извлечения фактов, настройка фильтра документов, транслятора фактов, логики измерений, загрузки данных в аналитическое хранилище).
В результате данной работы поисковая система обнаружила более 200 тыс. Web-страниц и 400 документов с общим объемом 3 Гбайт данных в формате HTML и 400 Mбайт документов Word. Общее количество фактов составило 350 тыс., но уникальных из них было менее 2 тыс. Для обработки всего этого массива информации и формирования отчета потребовалась бы более месяца работы группы аналитиков, против трех недель при использовании ClaraBridge, потраченных на первичную настройку всех источников данных и логики преобразования. Для дальнейшей работы аналитики используют эти настройки и обрабатывают информационный массив в течение двух-трех дней.
Данный пример демонстрирует не только работу эксперта с фактами, но и процесс формирования аналитического хранилища фактов, доступного для дальнейшей обработки. В нем может консолидироваться такая информация, как количество упоминаний в прессе о той или иной компании за последний месяц, число новых связей между участниками рынка, образовавшихся за последние месяцы, определение стоимости авиационного топлива по сообщениям в прессе, средний размер сделок на целевом рынке и т.д.
ПРИМЕР: Фактографический анализ СМИ
По заказу Администрации Президента РФ требовалось провести мониторинг законотворчества на местах с целью оценки соответствия местного законодательства федеральным законам и Конституции.
Анализ законотворческой деятельности осуществлялся на основе доступных источников (региональные СМИ, электронные новостные ленты, официальные Web-сайты региональных властей, парламентов и органов самоуправления, архивы документов) с применением методов анализа комментарий, рецензий, откликов и критики законов, актов, постановлений и инструкций в открытых публикациях. Результатом данной работы был аналитический отчет по выявленным нарушениям и несоответствиям.
Сбор информации с помощью средств автоматизации состоял в выборе объектов мониторинга (органы законодательства, местные органы самоуправления, руководители местных администраций), выборе интересующих типов фактов (рис. А).
Рис. А. Типы фактов законотворчества для извлечения фактов. Рис. Б. Графическое представления аналитической информации. Рис. В. Детализация аналитических данных вплоть до исходного документа. |
Настройка аналитической системы состояла в задании критериев запросов системе поиска и доставки документов (WebQL), структуризации запросов для загрузки и анализа содержимого сайтов, построении лингвистической и семантической моделей для анализа текстов и извлечения фактов, настройки фильтров предметной области. В качестве аналитического хранилища данных использовалась система от MicroStrategy, а для интеграции — ClaraBridge (настройка компонентов интеграции с системами поиска и извлечения фактов, настройка транслятора фактов, логики измерений, загрузки данных в аналитическое хранилище, картографического представления информации, детализации данных, перехода от картографического представления к круговой диаграмме (рис. Б), перехода к табличному виду от диаграмм и исходных материалов (рис. В).
В результате проделанной работы было обнаружено более 5 тыс. страниц и 200 документов общим объемом данных в формате HTML — 500 Мбайт. Общее количество фактов составило 12 тыс., из них уникальных — 1,8 тыс. Для обработки всего массива информации и формирования отчета аналитику потребовалась одна неделя.
Расширение построенной системы задачами анализа региональных СМИ на предмет исследования акций политического и социального характера, а также информации по демографической ситуации потребовало несколько дней, при этом позволило выявлять статистические взаимосвязи местного законотворчества и социальной напряженности.
Дальнейшее развитие проект получил после запроса из центра политических и социологических исследований на проведение анализа центральной и региональной прессы для анализа кадровых перестановок высокопоставленных лиц и выявления связей между личностями и организациями. Для выполнения этой задачи был предоставлен архив СМИ в XML-формате, структурированный по источнику, дате, автору и заголовку. Неструктурированная часть архива содержала текст с информацией о фактах, событиях, организациях, личностях, географии, связях между ними. Извлечение фактов «вручную» состояло бы из поиска ключевых слов в неструктурированной части новостей, привязке к объектам мониторинга (ведущие компании России) выявленных фактов назначений, перемещений и увольнений.
Поскольку в типовую поставку ClaraBridge в качестве объектов мониторинга включены организации и личности, а среди преднастроенных типов фактов — кадровые перестановки, достаточно быстро получилось находить, извлекать и сохранять в структурированной базе упоминания персон в связи с различными событиями и организациями, кадровыми перестановками.
В результате обработки 496 источников информации, содержащих 15 тыс. документов было найдено 162 тыс. событий, 118 879 сущностей, 14 тыс. личностей (персон), 17 тыс. организаций. Были выделены, но не классифицированы по предустановленным критериям 117 тыс. фактов, обработаны 10 млн. сообщений в архиве. Общий объем данных в формате XML оставил 5 Гбайт, общее количество фактов — 10 млн., из них уникальных — 1 млн. Для обработки всего массива информации и формирования отчета аналитику потребовалось две недели.
Данный пример показывает, как удалось воспользоваться возможностями ClaraBridge, построив инфраструктуру для многостороннего анализа одних и тех же источников, расширения аналитических срезов путем добавления в уже настроенные схемы новых правил извлечения фактов, правил обработки данных и граней аналитического куба в результирующем хранилище. Если раньше заказчикам приходилось оплачивать дополнительные усилия программистов по разработке нового аналитического отчета на основе имеющихся данных или подключения новых источников, то теперь уже средствами настройки ClaraBridge и Fact Extractor аналитики и лингвисты сами расширяют систему. Нельзя сказать, что программисты полностью исключены из процесса, но их привлечение минимально, и требуется только для настройки коннекторов.