После выхода первой статьи (Computerworld Россия №36 от 28 сентября 1999, выпуск рубрики «Директору» № 18) я получил не только одобрительные отклики, но и критику, причем как дружескую, так и весьма агрессивную («убил бы за такие мысли!»). Главная тема критики: вы все переусложняете, никому это не нужно, да и просто вредно.

Николай Евгеньевич Емельянов — заведующий лабораторией банков данных Института системного анализа РАН, профессор, руководитель ряда проектов организации документных систем фирмы Cognitive Technologies. С ним можно связаться по электронной почте: nee@cs.is

Меня эта критика нисколько не удивила, скорее даже порадовала. В той статье я вспоминал свою первую реакцию на такого рода проекты: сумасшедший дом!. У моих критиков я увидел ту же самую «здравую» концепцию применения ЭВМ. (У меня, например, тоже до сих пор сохранилось убеждение, что некоторые системы нужно оставить на MS-DOS и не «привязывать» к ним никаких мышек.) Попробуем в этой статье подробнее рассмотреть случаи, когда и где «сложные» документы оправданны.

Делопроизводство

Делопроизводство крупного предприятия чаще всего рассматривается как благодатная почва для внедрения систем работы со «сложными» электронными документами и электронным архивом. Посмотрим подробнее основания для такого внедрения.

Если вам предстоит делать систему учета и анализа документооборота вашего предприятия, то можно пойти двумя путями: реализовать традиционный учет документов в организации, заменив журналы учета документов (амбарные книги) компьютерами, либо взять за основу реализации новый взгляд на документ. Первый путь потребует затрат не более 1 тыс. долл. Второй — раз в десять больше. Почему же в большинстве организаций экономически целесообразнее избрать второй путь?

Конечно, можно реализовать учет входящих, исходящих и внутренних документов на одном или нескольких ПК (например, средствами Access), используя компьютер как пишущую машинку для печати журналов учета корреспонденции. Но всегда найдется несколько задач, решить которые будет очень затруднительно при выборе такого способа.

  • Многие входящие документы нужно рассылать нескольким сотрудникам организации, и, следовательно, их придется размножать на ксероксе и передавать с курьерами.
  • Регистрационная карточка (РК) документа и контрольная карточка (КК) задания по исполнению документа не могут достаточно полно передать содержания документа, поэтому в дальнейшем, когда потребуется вернуться к документу, его придется разыскивать в архиве бумажных документов и потом искать способ, как вернуть обратно на место.
  • При заполнении полей «Краткое содержание», «Адрес отправителя», «Автор» и почти всех других полей регистрационной карточки приходится, как правило, переписывать фрагменты исходного документа.
  • Если нужно будет подготовить новый документ, в котором необходимо процитировать старый, то фрагменты из старого документа придется заново набивать при составлении нового.
  • Если нужна ксерокопия документа, то его нужно найти в архиве бумажных документов и, возможно, изъять из подшивки (переплета) документов.
  • Если необходимо проверить печати и подписи в документе, его также необходимо найти в архиве бумажных документов.

Все перечисленные проблемы можно легко решить, если перейти к «новому» электронному документу. При этом пойти на заведомое дублирование информации: помимо РК и КК хранить как компоненты электронного документа полный его текст и изображение.

Действительно, первое затруднение снимается тем, что однажды введенный образ документа потом можно послать любому сотруднику по электронной почте. Если сотрудник захочет иметь «твердую» копию документа, то сможет просто отправить его на печать и получить копию, имеющую качество не хуже, чем при ксерокопировании. Вторая задача решается поиском образа документа в электронном архиве документов и отображением его на экране пользователя. Решение третьей задачи осуществляется автоматическим распознаванием значений из образа документа и их переносом в поля РК. Решение четвертой задачи может быть произведено точно так же, как и третьей, либо путем хранения однажды распознанного (или введенного) и проверенного полного текста документа наряду с его образом и кратким содержанием в РК. Это, конечно, приводит к дополнительному дублированию информации. Решение пятой и шестой задач осуществляется посредством поиска в архиве образа документа с последующей его печатью.

Мы перечислили достоинства подхода, при котором используется понятие сложного документа. Естественно, что эти преимущества достигаются не даром. За что и сколько придется заплатить?

  • Требуется память. РК и КК обычно имеют объем меньше 1 Кбайт, полный текст документа формата А4 — около 1-3 Кбайт, образ документа — десятки килобайтов. То есть памяти этот подход требует на порядок больше.
  • Необходима компьютерная сеть, связывающая рабочие места пользователей и архив электронных документов.
  • Нужна электронная почта, в частности, для рассылки образов документов вместо использования курьеров.
  • Необходимо дополнительное оборудование: сканер, лазерная печать. Они могут быть сетевыми, обслуживать отдельные группы пользователей или быть персональными.
  • Усложняется эксплуатация системы, поэтому необходимы администратор архива, системный программист, специалист по сетям.

Второе, третье и четвертое требования теперь уже не вызывают агрессивной реакции и отторжения, так как в большинстве организаций уже внедрены и сети, и электронная почта, и сканеры, и лазерные печатающие устройства. Правда, при больших потоках документов, например, более 1000 страниц в день, может потребоваться скоростной и дорогой сканер. При потоках около 100 страниц в день достаточно обычного сканера с автоматической подачей листов. Как правило, не нужно искать новых сотрудников на дополнительное рабочее место по сканированию документов, так как те же самые сотрудники, которые снимали копии с документов на ксероксе, теперь могут сканировать документы. Таким образом, главный источник удорожания проекта вызывается причинами, указанными в первом и пятом пунктах.

Если в организации регистрируются в среднем 100 страниц документов в день, то за год их будет примерно 25 тыс. За пять лет — 125 тыс. страниц документов. Если образ страницы (формата А4) занимает в среднем 70 Кбайт (при таком сканировании обеспечивается качество воспроизведения не хуже ксерокса), то получим 8 750 000 Кбайт, то есть меньше 10 Гбайт. Сейчас даже персональные компьютеры, как правило, имеют память больше 4 Гбайт, так что эти расходы необременительны. А если вспомнить, что цена десятигигабайтного диска составляет около 130 долл., то, следовательно, память для тех организаций, где в день регистрируется 1000 страниц документов, обойдется примерно в 1500 долл.

Теперь обсудим пятую графу расходов. Действительно, эксплуатировать систему с образами документов и всевозможными приложениями к ним (например, в Lotus Notes), конечно, труднее, чем простую базу данных в Access, но и это не так страшно при современных средствах поддержки, предоставляемых компаниями — разработчиками ПО. Опыт показывает, что системные администраторы средней квалификации обеспечивают вполне надежную работу таких систем.

Итак, для ввода в эксплуатацию новой системы поддержки делопроизводства потребуется взять нового специалиста по системному обеспечению (или обучить своего). Работать с ней могут те же сотрудники, которые до автоматизации делопроизводства регистрировали документы. Обычно при использовании автоматического распознавания текстов при заполнении полей РК и хорошо построенной системе поддерживающих словарей у сотрудников-регистраторов освобождается время для проведения других работ (возможно даже сокращение их численности в больших организациях). Таким образом, затраты в основном определяются стоимостью создания системы.

Если обследование организации, приобретение дополнительного оборудования, разработка, обучение и сопровождение в течение одного года стоят в общей сложности около 20 тыс. долл., то выигрыш состоит в том, что исключается копирование документов и рассылка их посредством курьеров. Архив бумажных документов, который обычно занимает несколько больших шкафов, можно разместить не в помещении офиса, где, как правило, место дорогое и его всегда не хватает, а расположить в каких-то подсобных помещениях (например, где-то за городом), так как бумажные документы нужны будут чрезвычайно редко, только при решении юридических споров.

Ну и главный выигрыш, который нелегко измерить в деньгах, освободившихся людях и помещениях, — это повышение оперативности получения справок, а следовательно, повышение оперативности управления организацией. Наш опыт показывает, что поток обращений к документам (их электронным образам, которые содержат много дополнительной информации по сравнению с РК и КК) возрастает на порядок. Оказывается, обращаться к ним приходится по нескольку раз в день. Раньше же, когда за документом нужно было лезть в бумажный архив, к подлинникам документов обращались очень редко, понимая, что это большая работа — искать в папках. А некоторые типы запросов — например, по содержанию документа — вообще было невозможно выполнить за реальное время.

Нужно добавить, что тот, кто поработал с электронным архивом документов, уже не может себе представить жизнь без него, такого человека не нужно убеждать, насколько это замечательно, оперативно и удобно.

Естественно, что прежде чем принять решение о переходе к новым технологиям, нужно проанализировать все перечисленные факторы и принять обоснованное решение. Все же опыт эксплуатации подобных систем показывает, что расходы на их разработку окупаются в течение полугода — двух лет.

Мнение искушенных пользователей

Искушенный пользователь, прочитав все это, может сказать, что здесь не учтены многие реальные параметры наших современных организаций. Например, во многих организациях в качестве клиентских машин используются еще ПК с процессорами уровня 486, с маленькими экранами (далеко не везде рабочие места оснащены экранами с диагональю 15 дюймов и зерном 0,25), с памятью меньше 1 Гбайт, то есть зачастую нужно учитывать необходимость перевооружения компьютерной базы всей организации. А где хранить необходимые две-три копии изображений? Нужны пишущие CD-приводы, или магнитооптика, или устройства записи на магнитную ленту. Объем памяти надо еще умножить на коэффициент «бесполезной траты памяти». Необходимо также зарезервировать память под фактографические описания и индексы. Да, это тоже нужно предусмотреть, но главный расход памяти — хранение изображений, все остальное — обычно не более 50% от общего объема. А в какой степени можно рассчитывать на автоматическое распознавание реквизитов из фрагментов изображения документов, и как оценить затраты на исправление ошибок распознавания?

Автор тоже относит себя к таким искушенным пользователям. За тридцать лет работы ему пришлось программировать, руководить разработками, внедрять и поддерживать эксплуатацию более 50 систем (а консультировать около 1000), в каждой из которых были базы данных и множество входных и выходных форм. Поэтому он полностью присоединяется к возражениям искушенного пользователя и тоже считает, что в жизни все гораздо сложнее, и сделать грамотный проект — может быть, самое трудное дело. Но все-таки приведем четыре примера задач, где хорошо работает предлагаемый подход.

Четыре примера задач

Перевод важных бумажных документов в электронную форму. Многие из тех, кто работал с архивами бумажных документов, знают, что при достаточной длительности и напряженности работы с ними эти документы становятся нечитаемыми: бумага выцветает и так ветшает, что превращается в клочья. Мне пришлось иметь дело с архивами КГБ: документы 1920-1930 годов хранятся почти в нечитаемом виде. Или посмотрите на книги поступлений музеев, это самые важные (с юридической и финансовой точек зрения) документы музеев. Они быстро (лет за 20) превращаются в ветошь. Многие бумажные архивы нужно буквально спасать. И спасти их можно с помощью обсуждаемых нами методов и средств.

Электронный архив библиографических карточек. Во многих наших библиотеках, учебных и научных институтах и других организациях состояние библиографических карточек также приближается к состоянию документов в бумажных архивах. Можно эти обветшавшие карточки переписывать на новые картонные, но гораздо быстрее их просканировать, распознать напечатанные на пишущей машинке или типографским способом реквизиты, необходимые для заполнения электронной библиографической карточки. Наряду с электронной карточкой можно хранить и образ исходной библиографической карточки со всеми (часто рукописными) пометками о состоянии книг при инвентаризации, об их реставрации, переплете, выдаче на руки и др.

Единый электронный архив многих личных архивов документов.Часто приходится сталкиваться с тем, что владельцы документов не возражают против их публикации (в частности — в Internet), но категорически против передачи этих документов из личных архивов в общественные или государственные. Владельцы готовы принести уникальные документы, фотографии, хранящиеся в их личных архивах, для показа и снятия с них копий, но только в их присутствии (как бы не выпуская оригиналы из рук). Так возникает архив электронных документов со ссылками на множество личных архивов бумажных документов. В фактографическом описании этих электронных документов наряду с собственно описанием и ссылками на их графические образы будут указаны также владельцы и их адреса.

Рис. 1. Пирамида изображений

Работа с изображениями в международном стандарте ISO/JPEG 10918. В качестве примера одного из крупных проектов рассмотрим проект MENHIR (The Multimedia European Network for High-quality Image Registration) по созданию европейской сети регистрации изображений высокого качества. Технической основой этого проекта является международный стандарт ISO/JPEG 10918, определивший формат JTIP (JPEG Tiled Image Pyramid) для компьютерных изображений высокого разрешения. Этот стандарт используется в ряде крупнейших музеев Европы, США и Японии.

Рис. 2. Для отображения фрагмента А необходимы фрагменты изображения 1.2.3.4

Изображения в формате JTIP представляют собой набор файлов (рис. 1) различных размеров — от виньетки, открытки, картинки в полный экран до гигантских изображений в десятки мегабайт, фрагменты которых можно с высоким качеством отобразить на полный экран. Формат JTIP называют пирамидальным форматом, или пирамидой изображений, покрытых «черепицей» JPEG. Название отражает главную идею формата: чтобы обеспечить эффективную работу с нижними крупными слоями пирамиды, соответствующие изображения разрезаются на прямоугольные фрагменты (файлы) так, что при необходимости вывести на экран дисплея любой ограниченный фрагмент требуется не более четырех файлов (рис. 2).

В файле изображения хранятся краткое текстовое описание запечатленного предмета, данные о самом изображении и его владельце, музейные номера, а также уникальный регистрационный номер. Кроме пирамиды изображений и основных реквизитов, записанных непосредственно в файлы изображений, каждый предмет может иметь фактографическое описание. Для наиболее ценных и изученных предметов эти описания могут быть развернутыми — c большим числом реквизитов (100 и более) и полнотекстовыми фрагментами.

Эта технология работы с изображениями предметов и их описаниями обеспечивает:

  • регистрацию изображений в национальных регистрационных центрах (в России это центр в Государственном историческом музее);
  • хранение виньеток изображений в едином распределенном банке данных сети MENHIR, их эффективный поиск;
  • просмотр описаний предметов, их изображений (в целом и отдельных фрагментов) в сетях Internet/intranet;
  • популяризацию коллекций музеев и возможность изучения коллекций искусствоведами и любителями;
  • защиту прав на интеллектуальную собственность владельца изображения;
  • возможность коммерческого использования изображений.

Подведем итоги

Системы управления документами позволяют работать со все более разнообразными типами форматов. Сложнее становятся их описания, документы состоят из нескольких разнотипных компонентов. Мы здесь не рассмотрели видеодокументы, которые, очевидно, так же, как и изображения, в скором времени будут храниться в архивах электронных документов. Конечно, построение таких архивов требует более совершенной техники. И конечно, прежде чем внедрять такие системы, необходимо провести тщательный анализ функциональных потребностей пользователей и возможностей организации. Но все это вполне осуществимо, так как сейчас у нас в стране есть хорошо зарекомендовавшие себя компании, которые могут эффективно проектировать, разрабатывать и внедрять такие системы.