Сегодня аналитические системы для поддержки принятия решений используются в самых разнообразных сферах: в коммерции, торговле, финансах, в государственной деятельности, разведке, в работе юридических служб и законодательных органов и т. д. Для выработки корректного бизнес-решения системный аналитик должен получать данные из самых разных источников: внутренних и внешних баз данных, архивов, электронных статистических сборников и справочников. Кроме того, он должен принимать во внимание информацию, оперативно поступающую по факсу, электронной и обычной почте. Качественная работа аналитика невозможна без использования информационных ресурсов сети Internet, куда, по некоторым оценкам, каждый день добавляется терабайт новой информации. Для успешного ведения системных исследований в таких условиях требуются соответствующие инструментальные средства, позволяющие ежедневно анализировать гигабайты данных всевозможных типов.
Средства поиска данных играют определяющую роль в обеспечении эффективности и производительности аналитической системы в целом. Однако помимо поисковых средств система управления исследованиями должна иметь ряд дополнительных функциональных возможностей, отличающих ее от обычной информационно-справочной системы, а именно: обеспечение текущего контроля событий и тенденций; сочетание средств ретроспективного анализа с оперативным доступом к информации, поступающей в режиме реального времени; структурирование результатов исследований для составления отчетов, анализа тенденций и других аналитических приложений; поддержка и совместное использование структурированной информации, неструктурированных текстов, графики, видео и т. п. В качестве такой системы может использоваться интегрированный продукт, объединяющий функции ретроспективного поиска, средства профилирования оперативно поступающей информации и реляционную СУБД.
Речь идет об инструментальной системе компании Excalibur, включающей инструментарий поиска текстовой информации Excalibur RetrievalWare и Excalibur EFS, а также средства поиска изображений Visual RetrievalWare. Эта система охватывает необходимый набор инструментальных средств, которые требуются для выполнения аналитических исследований. Объединенные графическим интерфейсом, перечисленные средства образуют настольную систему аналитика, рассчитанную на проведение широких исследований в рамках различных дисциплин.
Технология Excalibur включает в себя метод адаптивного распознавания образов и семантические сети. Она позволяет работать с цифровой информацией любого типа - текстом, графикой, видео и др. Программные средства Excalibur обеспечивают выполнение ранжированного индексного поиска и поиска по шаблонам. В качестве шаблонов могут выступать фотографии, наброски, фрагменты текста. Применение технологии семантических сетей дает возможность использования естественного языка запросов и позволяет вести интеллектуальный поиск на основе баз знаний.
Настольная система аналитика
Настольная система аналитика должна обеспечивать возможность выполнения всех видовых операций, связанных с анализом данных, начиная от ввода документов, получения релевантной информации и заканчивая обработкой и хранением результатов исследований.
Указанная система предоставляет среду для формирования запросов и получения результатов ретроспективного поиска и одновременно создает рабочее пространство, в котором РСУБД выступает в качестве общей основы для обработки запросов, профилей и результатов исследований.
Процесс анализа начинается с ввода документов, когда информация, содержащая поля документов и ссылки, заносится в РСУБД. Текст также индексируется с помощью системы полнотекстового поиска. Такой комбинированный подход позволяет одновременно применять средства поиска неструктурированной информации и использовать все преимущества реляционных таблиц для хранения, поиска и обработки структурированных данных.
Обычный поиск начинается с формирования ретроспективных запросов к архивным данным. При этом поисковая среда предоставляет возможность использования естественного языка запросов с широким набором свойств, включая семантические расширения, шаблоны и нечеткий поиск. Пользователь может также вводить структурированные запросы по индексам, полям, датам и т. д. Результаты поиска ранжируются по степени соответствия запросу. Пользователь имеет возможность просматривать как заголовки, так и сами документы. После того как аналитик получил полезный набор запросов и результатов, он может использовать РСУБД в качестве рабочего пространства, в описании которого применяется терминология контейнеров и папок. Запрос вместе с соответствующими атрибутами поиска сохраняется в контейнере рабочего пространства. Затем он в любой момент может быть использован для начала нового поиска, что позволяет осуществлять постоянный контроль текущих событий и тенденций.
Документы, полученные в результате поиска, можно сохранить в папках внутри контейнеров запросов. В зависимости от реализации системы эти документы могут в дальнейшем выбираться для просмотра либо по заголовкам, либо по степени соответствия, либо по другим полям, хранящимся в РСУБД. Кроме того, РСУБД предоставляет возможность дальнейшей обработки результатов исследований, их сортировки и классификации с целью составления различных видов обзоров, аннотаций, справок, отчетов и других аналитических документов. При этом для повышения производительности и эффективности в рабочем пространстве хранятся не сами данные, полученные в результате поиска, а ссылки на содержащие их архивные документы, находящиеся в системе.
Удобно использовать полную симметрию запросов и средств профилирования - запрос может быть сохранен в контейнере рабочего пространства в качестве активного профиля. Профиль загружается в систему обработки информации, работающую в реальном времени, и используется для фильтрации поступающих данных. При обнаружении подходящих документов они доставляются в соответствующий контейнер. Таким образом пользователь может оперативно отслеживать всю текущую информацию, относящуюся к предмету его исследований.
Управление данными
Сегодня имеется два класса универсальных инструментов управления данными, облегчающих работу аналитика: РСУБД и системы работы с неструктурированной информацией. О реляционных СУБД достаточно много сказано, поэтому можно отметить только одну современную тенденцию их применения в качестве инструмента аналитика - появление концепции универсального сервера. Подобная идея возникла в связи с распространением технологий мультимедиа, быстрым ростом Internet и intranet. Ведущие разработчики реляционных СУБД (Oracle, Informix, CA и др.) срочно дополняют свои продукты объектными средствами, обеспечивающими возможность работы с мультимедийными данными.
В поисковых средствах Excalibur, входящих в состав инструментальной аналитической системы, используются семантические сети вместе с методами адаптивного распознавания образов, которые позволяют осуществлять контекстный поиск по шаблонам не только текстовой, но и любой другой цифровой информации. Контекстный поиск применительно к мультимедийным данным означает, что графические изображения, видеоклипы и другие нетекстовые объекты выбираются не по текстовому описанию или идентификатору, а непосредственно по цифровому содержанию. При контекстном поиске в запросе содержится изображение, по сходству с которым выбираются данные из архива. В рамках инструментальной аналитической системы Excalibur обеспечивает гибкие возможности для задания запросов, которые оптимизированы в соответствии с типом обрабатываемых данных.
Особенности технологии Excalibur
Традиционные системы поиска информации развивались в тесной взаимосвязи с СУБД, поэтому они были ориентированы в основном на работу со структурированными текстовыми данными. Зато при обработке произвольной цифровой информации средства SQL СУБД оказываются малоэффективными. Обычно в этих системах полнотекстовая индексация строится на базе инвертированных списков, в которых нормализованным словоформам ставятся в соответствие адреса документов. Объем индекса при таком подходе зависит от степени нормализации исходного текста и при работе с неструктурированными данными может достигать 300% от общего объема базы. Указанный метод индексации оказывается также мало пригодным при работе с графическими и другими цифровыми данными в связи с их большой насыщенностью и многообразием. Технология Excalibur позволяет работать с цифровой информацией любого типа - текстом, графикой, видео и т. п., позволяя осуществлять бинарную индексацию, при которой размер индекса даже при обработке неструктурированной информации не превышает 30% от размера исходных данных.
В процессе поиска информации пользователь может сформулировать свой запрос непосредственно на знакомом ему языке. Этот запрос автоматически дополняется набором связанных терминов и понятий. Алгоритмы морфологического разбора, применяемые в Excalibur, позволяют различать разнообразные формы слов, заданных в запросе, даже с учетом возможных орфографических ошибок. Чтобы обеспечить более точный поиск проводится анализ, направленный на выявление идиоматических выражений, встретившихся в запросе. Кроме того, распознаются разные значения слов. Пользователь может указать, в каком из множества значений употреблено слово в конкретном запросе. Базовая сеть Excalibur поддерживает многоуровневые структуры словарей, которые объединяют специализированные термины по юридическим, медицинским, финансовым, техническим и другим дисциплинам. Кроме того, конечный пользователь может добавить свои определения и понятия, не нарушая целостности основной базы знаний.
Важное преимущество Excalibur - возможность представления результатов поиска в виде списка документов, отсортированных по степени соответствия запросу. Это повышает эффективность работы с данными и позволяет сразу получить наиболее важную информацию, не просматривая подряд все выделенные документы.
Анализ и поиск текстовой информации
Подсистема RetrievalWare, которая отвечает за работу с текстовой информацией, занимает центральное место в семействе программных продуктов Excalibur. Она построена на основе модульной архитектуры, обеспечивающей масштабируемость в распределенной среде клиент-сервер, поддерживающей работу с большими базами данных и множеством пользователей. Excalibur RetrievalWare представляет собой мощную инструментальную систему, включающую широкий набор серверов: текстовых, Web и профильных, а также средства разработки приложений.
Текстовые серверы Excalibur RetrievalWare обеспечивают полнотекстовый поиск для больших информационных систем. Они включают расширяемый набор модулей индексации, поиска и отображения данных. Эти модули допускают гибкую конфигурацию, могут работать на процессорах различных типов и поддерживают TCP/IP-протоколы связи. Web-сервер - это компонент, который может подключаться к любому серверу HTTP через CGI-интерфейс и поддерживать широкий набор приложений, работающих в среде Internet или intranet. При интеграции с реляционными базами данных он позволяет ускорить обработку большого объема пользовательских запросов. Сервер профилирования фильтрует оперативно поступающую информацию.
Ведение электронных архивов
Сегодня, несмотря на широкое распространение автоматизированных систем документооборота и делопроизводства, огромное количество оперативной и справочной информации по-прежнему остается на бумажных носителях. Продукт Electronic Filing Software (EFS) предназначен для автоматизации различных видов деятельности, связанных с ведением электронных архивов. EFS предоставляет средства для сбора, хранения документов и организации поиска информации. Бумажные документы вводятся с помощью сканера, а электронные - считываются с оптических дисков, магнитной ленты, а также могут быть получены из Сети. Необходимо отметить, что в отличие от других подобных систем, где ошибки OCR являются основным препятствием для успешной работы с архивами, EFS менее чувствительна к погрешностям распознавания текста и позволяет осуществлять поиск без дополнительной корректировки и уточнения введенного текста. После того как документ введен в EFS, проводится автоматическое индексирование полного содержимого этого документа.
Обеспечение поиска информации - основная цель всех электронных архивов, используемых в аналитических системах. EFS позволяет осуществлять поиск несколькими способами: контекстный поиск по полному содержимому документов; контекстный поиск по названиям документов и меткам файлов; контекстный поиск с введенными пользователем синонимами по всему тексту документа; непосредственный доступ к файлам; поиск по запросам СУБД; ключевой поиск по тексту, именам и меткам; двоичный поиск по всему тексту. Режим нечеткого поиска, применяемый в EFS, позволяет уменьшить последствия от погрешностей распознавания текста, неверного ввода данных, а также от орфографических ошибок, допущенных в самом запросе.
Анализ и поиск мультимедийной информации
Подсистема Visual RetrievalWare предоставляет средства обработки произвольной мультимедийной цифровой информации: загрузка, сохранение, копирование, отсечение, поворот, масштабирование, а также индексация и поиск. Все это позволяет проводить сравнение цифровых данных и осуществлять ранжированный поиск изображений по шаблону-образцу. Допускается обработка произвольных изображений: двоичных, полутоновых и цветных. Visual RetrievalWare поддерживает работу с различными графическими форматами TIFF, GIF, JPEG, BMP и др. Изображения могут быть введены с помощью сканеров, получены по видеоканалам, загружены из сети или созданы в каких-либо графических редакторах.
Каждому изображению, обрабатываемому в Visual RetrievalWare, ставится в соответствие некоторый двоичный вектор признаков - дескриптор. На основе дескрипторов автоматически устанавливаются гиперссылки в базе изображений, а в процессе поиска дескриптор шаблона сравнивается с дескрипторами данных, хранящихся в базе. В итоге выдается список изображений, ранжированный по степени сходства с образцом. При этом пользователь может задавать различные весовые коэффициенты для сравниваемых параметров (композиции, цвета, контрастности). Следует отметить, что в Visual RetrievalWare сравнение изображений проводится по объективным критериям, а не по субъективным признакам, воспринимаемым только человеком. Поэтому картинки, близкие по заданным объективным параметрам (контрастности, цвету и т. д.) могут быть изображениями отличных друг от друга предметов.
На рис. 2 приведена иллюстрация возможностей Visual RetrievalWare: 8 изображений - левое верхнее представляет образец или шаблон, по которому осуществляется поиск в базе изображений. Вслед за шаблоном приведены картинки, найденные в результате поиска. Они упорядочены по убыванию степени соответствия образцу.
Аналитическая система на базе продуктов Excalibur позволяет объединять мощные поисковые средства текстовой и мультимедийной информации, средства профилирования и СУБД. Данная система предоставляет инструментарий для всестороннего управления выполнением аналитических исследований. Сильные стороны системы: естественный язык запросов, симметрия запросов и профилей, а также преимущества структурированных способов хранения информации, предоставляемых СУБД. Работа с текстовыми данными в Excalibur привносит элементы искусственного интеллекта в информационно-поисковые системы и дает возможность осуществлять автоматический поиск информации с использованием естественного языка запросов во всем его богатстве и многообразии.
Аналитические системы на базе EFS могут быть построены для самых известных аппаратных платформ, операционных систем, сетей и баз данных, развернутых на Unix, и, кроме того, обеспечивается поддержка клиентов Windows и Macintosh. Предусмотрена возможность связи со многими внешними базами данных. В состав EFS входит WebFile, обеспечивающий доступ для чтения архивов EFS через Web-браузер.
Значительно повышая скорость и точность поиска нужной информации, системы на основе технологий от Excalibur позволяют освободить дополнительное время для анализа и осмысления данных, что влияет на быстроту и качество принятия решений. Новые технологии производства Excalibur предоставляют эффективные средства работы с огромными информационными ресурсами, такими, как корпоративные сети и Internet, и позволяют более полно использовать огромную мощь и потенциал современных информационных систем.
На сегодняшний день технологиями компании Excalibur пользуются, в частности: Конституционный суд РФ, ГУИР ФАПСИ, банк МЕНАТЕП, ОНЭКСИМ Банк, агентство занятости АНКОР и Государственная налоговая служба Москвы.
Елена Карташева - старший научный сотрудник ВЦММ РАН. С ней можно связаться по тел.: (095) 972-3855.