Информационный архив Совета Федерации

Автоматизации законодательной деятельности в верхней палате российского парламента уделяется большое внимание. Внедрена первая очередь автоматизированной информационно-коммуникационной системы, охватывающей практически все сферы деятельности Совета Федерации [1].

Главная страница intranet-сайта Совета Федерации Информационный архив на основе ODB-Text

Деятельность верхней палаты парламента сопровождается выпуском большого количества текстовых документов: стенограмм заседаний Совета Федерации и его комитетов, стенограмм парламентских слушаний и круглых столов, постановлений, обращений, заключений, аналитических материалов и др. Для работы со всей этой информацией при построении корпоративной сети Совета Федерации активно применяются технологии intranet [2]. Это позволяет оперативно представлять информацию в электронном виде для всеобщего обозрения и обеспечивать единый доступ пользователей Совета Федерации к информационным ресурсам, сосредоточенным на корпоративном сайте.

В частности, сайт содержит: общие сведения о Совете Федерации, его составе и структуре; информацию о законодательной деятельности Совета Федерации; данные о субъектах РФ; разнообразные аналитические, статистические и справочные материалы; правовые справочные системы; информационный архив Совета Федерации; ссылки на intranet-сайты Государственной Думы, мэрии Москвы и Центральной избирательной комиссии и др. В макетном варианте отрабатывается новый раздел сайта — «Мультимедийные стенограммы заседаний СФ».

Информацию, которая образуется в результате деятельности Совета Федерации и его аппарата условно можно разделить на оперативную и архивную. Оперативная информация (периодически дополняемая или заменяемая, а также редко обновляемая информация, которую, тем не менее, можно отнести к разряду «первой необходимости») хранится, в основном, в файловой системе в виде HTML-документов. Архивная информация о прошедших событиях, сосредоточенная в разделе «Информационный архив Совета Федерации», предназначена для аналитической работы, имеет значительный и при этом постоянно растущий объем и требует наличия развитых инструментов для хранения и поиска по запросам, поэтому весьма желательно ее размещение в базе данных. В некоторых случаях эта информация может дублировать часть или даже весь оперативный раздел с целью обеспечения возможности поиска и анализа по всему информационному полю.

Уточним характер архивной информации. Большинство документов, циркулирующих в СФ, — текстовые. Вместе с тем, рассмотрение законов, связанных с социально-экономическими вопросами, подготовка аналитических материалов требуют создания документов более сложной структуры, в которых наряду с текстом присутствуют таблицы, графика и рисунки. Все большую популярность приобретает представление в сети intranet аудио- и видеосюжетов стенограмм. В целом, значительная часть информации, обрабатываемой в верхней палате парламента, является неструктурированной или слабоструктурированной (под слабоструктурированной информацией понимается текстовый документ, снабженный некоторым набором формальных реквизитов, например: вид, номер, дата, наименование документа и т.д.; наличие таких реквизитов позволяет существенно повысить точность поиска нужного документа). Это делает актуальной проблему выбора СУБД для архивного хранения больших массивов подобной информации.

В принципе, СУБД, построенные на основе иерархических и реляционных моделей, обеспечивают хранение и обработку такой информации. Однако на практике использование реляционных моделей часто не удовлетворяет требованиям к скорости обработки запросов в случае хранения сложных неструктурированных данных. Объект в реляционных базах данных «разбирается» на составные элементы, которые помещаются в реляционные таблицы, что отрицательно сказывается на производительности. Поэтому ведущие производители реляционных СУБД стали искать компромиссные варианты, встраивая в свои продукты средства поддержки объектной парадигмы. Появились объектно-реляционные СУБД, наиболее известными из которых являются DB2 Universal Database, Oracle 8.0 и Informix Universal Server [4]. Однако, для языков, поддерживающих сложные структуры данных, необходима адекватная модель базы. И хотя объектные дополнения в объектно-реляционных СУБД в какой-то степени сглаживают это противоречие, все же ядро базы остается ориентированным на работу с реляционными данными, что снижает производительность.

К работе со сложной неструктурированной информацией приспособлены чисто объектные СУБД. Объекты можно сохранять и использовать непосредственно, не раскладывая по таблицам. Подобная СУБД обеспечивает запись объектов в базу данных «как есть», целиком, что повышает скорость обработки [4, 6].

При построении информационного архива сайта Совета Федерации было признано целесообразным использовать объектно-ориентированную СУБД.

На мировом рынке присутствует достаточное число подобных продуктов, однако, у нас они представлены весьма скудно. Исключением, пожалуй, является лишь объектная СУБД CA Jasmine, но ее стоимость довольно высока. В то же время специалисты кафедры «Компьютерные системы и сети» МГТУ им. Баумана и Научно-производственного центра «Интелтек Плюс» разработали объектную СУБД ODB-Jupiter, создав на ее основе информационно-поисковую систему ODB-Text [4-7].

В ODB-Text акцент сделан на эффективном представлении в электронном виде документов на русском языке. Для этого был разработан механизм индексирования текстов непосредственно при загрузке файлов в базу данных или при вводе текстов с помощью встроенного редактора. Был также разработан гибкий механизм поиска информации, включающий, в частности, формирование запросов и полнотекстовый поиск на русском языке. Существенное достоинство информационно-поисковой системы ODB-Text состоит и в том, что предлагаемая готовая программная оболочка относительно проста в использовании и при этом реализует все основные функции подобных систем: автоматизированный ввод, хранение и поиск информации, в том числе поиск документа по содержанию, когда его реквизиты неизвестны. Начиная с версии ODB-Text 3.0, система обеспечивает публикацию базы данных в Сети [7].

Исходя из приведенных соображений, а также в связи с относительно невысокой стоимостью, в качестве базовой системы для построения информационного архива intranet-сайта Совета Федерации была выбрана информационно-поисковая система ODB-Text. (Необходимо отметить, что в сети верхней палаты немало приложений, реализованных и на других средствах, в том числе, FoxPro for Windows, Microsoft SQL Server и Oracle). Дополнительными аргументами при выборе системы явились ее функциональные возможности:

полнотекстовой поиск информации с развитым синтаксисом языка запросов, смешанный поиск по реквизитам и тексту;
простота развертывания и настройки ядра системы;
удобство конструирования логических структур и рубрикаторов баз данных и возможность их оперативного изменения;
хранение в одной базе данных разных типов записей с различной структурой;
массовая загрузка документов вместе с папками файловой системы в базу данных с автоматическим формированием рубрикатора базы данных.

Одна из основных функций ODB-Text — поиск информации в базе данных с динамическим формированием результатов в виде Web-страниц. Предусмотрен исчерпывающий набор различных видов поиска: поиск по формальным реквизитам документа, по содержанию документа (полнотекстовый поиск), смешанный поиск и поиск по тематическому рубрикатору. В этом смысле средства поиска, реализованные в системе ODB-Text, с функциональной точки зрения мало отличаются от аналогичных средств, имеющихся в других подобных системах.

Наиболее сложен полнотекстовый поиск. Для повышения эффективности полнотекстового поиска на стадии загрузки документа в базу данных производится операция автоматического индексирования входной информации с формированием индекса — инвертированного списка слов (или списка ссылок), отражающих каждое вхождение слова в документы базы данных. Число таких списков слов фактически равно числу неповторяющихся слов, прошедших индексирование. Полнотекстовый поиск ведется с учетом морфологии русского языка (т.е. по основам слов). Дополнительное средство управления поиском — возможность задания расстояния между словами и возможность использования логических операций между словами и логических выражений с использованием скобок. Разновидностью полнотекстового поиска является точный поиск, который позволяет находить в тексте слово (набор слов), точно совпадающее со словом (набором слов) запроса с учетом окончаний.

Можно воспользоваться и более простым, но и более продолжительным по времени видом поиска — по тематическому рубрикатору, разработанному специалистами Информационно-аналитического управления Аппарата Совета Федерации с учетом специфики документов и потребностей экспертов-аналитиков. Этот вид поиска доступен любому, даже неподготовленному пользователю.

Важное достоинство ODB-Text — простота развертывания и настройки ядра системы, не требующих предварительного обучения персонала. Системному администратору со знанием принципов работы операционной системы и Microsoft Internet Information Server достаточно изучить инструкцию по развертыванию и настройке системы. Собственно процесс развертывания серверной части ODB-Text занимает не более 25 минут, клиентской — 5-7 минут.

Несомненным достоинством системы является также возможность изменения логической структуры записи базы данных (удаление, добавление новых реквизитов, изменение имени и типа реквизита) с последующей автоматической коррекцией и перезаписью введенных ранее данных. Ввиду того, что рубрики являются объектами базы данных, над ними возможны все стандартные операции (удаление, добавление, переименование). Привлекательная особенность — возможность переноса ранее введенных в базу данных документов из старой рубрики в одну или несколько других рубрик.

Наличие возможности хранения в одной базе данных разных типов записей с различной структурой позволяет пользователю выбрать разные стратегии поиска информации в пределах одной базы данных. При этом с одной стороны обеспечивается возможность точного поиска (используется максимальное число уточняющих реквизитов в пределах одного типа записи), а с другой — возможность глобального поиска по всей базе данных независимо от типа записей (в данном случае используются возможности полнотекстового поиска).

В Совете Федерации широко используется функция массовой загрузки документов в базу данных, так как к моменту создания информационной системы были накоплены большие объемы данных в виде документов в форматах DOC и HTML, размещенных в файловой системе. Не составило труда написать программы-конверторы для представления этих документов в виде загрузочных форматов баз данных с соответствующими реквизитными частями и осуществить массовый ввод документов, причем с сохранением структуры дерева каталогов в виде рубрик баз данных.

С помощью ODB-Text была также разработана и внедрена в составе intranet-сайта Совета Федерации прикладная информационная система «Учет прохождения законов и законопроектов в федеральных органах власти». Система позволяет реализовать мониторинг текущего прохождения законов и законопроектов в Государственной Думе, Совете Федерации и у Президента, обеспечить архивное хранение и обработку этой информации.

Проиллюстрируем некоторые наиболее привлекательные возможности ODB-Text примерами эксплуатации баз данных и систем Совета Федерации [3].

Хранение и поиск фактографической информации. База данных «Учет прохождения законов и законопроектов в федеральных органах власти» имеет сложную реквизитную карточку и простой текст. ODB-Text позволяет использовать все возможности реквизитного поиска (рис. 1).

Комплексный поиск по реквизитной и текстовой частям документов. Это особенно характерно для базы данных «Архив социального законодательства», которая имеет в своем составе и тексты документов и карточки реквизитов сложной структуры (рис. 2).

Полнотекстовый поиск. Это особенно характерно для базы данных «Архив обзоров событий в СНГ», имеющей простую карточку документа и объемные тексты. ODB-Text позволяет в этом случае сортировать результаты поиска и формировать отчеты (рис. 3).

Массовый ввод информации в базу данных. В процессе подготовки и ввода информации в базу данных «Архив материалов заседаний Совета Федерации» готовятся структурированные текстовые файлы стенограмм заседаний и постановлений (карточка реквизитов и текст), которые затем импортируются в базу данных. При этом реквизитная часть загружается в соответствии с логической структурой записи.

Литература

[1] Никитов В.А., Старовойтов А.В., Орлов Е.И., Шаров Ю.Л., Гиричев Б.И. «Концепция создания информационно-коммуникационной системы Совета Федерации Федерального Собрания Российской Федерации», — М.: «Научно-техническая информация». Серия 1, 1995, № 8

[2] Шаров Ю.Л. «Архитектура парламентских информационных систем (функциональный аспект)». — «Информационные ресурсы России», 2000, № 4

[3] Толчеев Ю.К., Голубев С.А., Шаров Ю.Л., «Опыт внедрения и использования информационно-поисковой системы ODB-Text в Совете Федерации Федерального Собрания Российской Федерации». — Сборник трудов научно-практической конференции «Современные информационные технологии в управлении и образовании — новые возможности и перспективы использования». МИРЭА, ФГУП НИИ «Восход», — М., 2001

[4] Андреев А.М., Березкин Д.В., Кантонистов Ю.А. Среда и хранилище: ООБД. — «Мир ПК», 1998, № 4

[5] Андреев А.М., Березкин Д.В., Кантонистов Ю.А., Смирнов Ю.М. Объектно-ориентированная база данных ODB-Jupiter. — Приборостроение, 1998, № 1

[6] Андреев А.М., Березкин Д.В., Кантонистов Ю.А. Выбор СУБД для построения информационных систем корпоративного уровня на основе объектной парадигмы. — «СУБД», 1998, № 4-5

[7] Андреев А.М., Березкин Д.В., Кантонистов Ю.А. Полнотекстовая документальная информационная система «ODB-Text» версии 3.0, — «Компьютерная хроника», 1999, № 1

Юрий Шаров (sharov@gov.ru) — советник Информационно-аналитического управления Аппарата Совета Федерации Федерального Собрания РФ. Юрий Толчеев (ytolk@gov.ru) и Сергей Голубев — консультанты Информационно-аналитического управления Аппарата Совета Федерации.