Данные системы стремятся завоевать свое «место под солнцем», выбрав в качестве исходного постулат о том, что 80—90% всей информации, содержащейся в документообороте внутри организации, может быть структурировано, т. е. приведено к определенной форме. Помните, лет десять назад в России платежное поручение обладало изменяемой формой, теперь же оно стало стандартным и вводится автоматически. Естественно, для того, чтобы такая единая структура была разработана и, главное, утверждена, пришлось немало потрудиться. Так вот, именно тогда, когда распознавалась та самая платежка, и возник спрос на системы, обеспечивающие работу с формами. Используемые для этого технологии уже хорошо отработаны, но в России пока еще не получили достаточно широкого распространения.
Распознавание и ввод форм с полями изменяемой, или, иначе говоря, «плавающей» cтруктуры — задача не из легких, и над ее решением сейчас усиленно работают. Конечно, было бы неплохо получить алгоритмы, позволяющие воспринять и обработать как форму любой документ с четкой структурой.
Следовательно, если построить механизм, который помог бы создать такие формы, ввести их в заполненном виде, верифицировать данные и передать их уже структурированными в информационную систему предприятия, то с ними можно будет работать, а кроме того, система документооборота станет для менеджеров востребованным инструментом.
Рынок form processing
Первыми системами form processing были системы ввода бумажных документов. Их рынок сформировался на Западе для решения двух глобальных задач: обработки бюллетеней выборов и ввода листов переписи населения. А после появления Интернета стали широко распространяться и электронные документы. Сначала оба вида деятельности (первый — распознавание и массовый ввод бумажных документов, второй — получение и обработка электронных форм) развивались параллельно, но три-четыре года назад они стали сближаться, и в результате их слияния возникли системы form processing. В развитых странах первым из упомянутых видов деятельности занимается множество небольших фирм, и кроме того, можно выделить три крупные транснациональные компании: Cardiff Software — c продуктами TELEform и LiquidOffice, Read Soft — с системой Eyes&Hands for Forms, Kofax — с продуктом Ascent Capture. Сейчас все эти производители переходят к более универсальным решениям — от систем простого ввода документов к системам ввода документов и извлечения из них данных.
Вкратце об этих компаниях. Так, компания Сardiff имеет более 20 тыс. внедрений системы TELEform в самых разнообразных сферах: в банках, медицине, промышленности. Например, воплощены в жизнь интересные решения на заводах «Даймлер-Крайслер» в г. Раштатт — с помощью этой системы вводят и обрабатывают карточки контроля сборки автомобилей. Кстати, Сardiff — очень динамичная компания, она с самого начала активно работает на рынке form processing.
Фирма Read Soft выпустила уже пятую версию системы Eyes&Hands for Forms, ориентированную на крупных корпоративных заказчиков. В частности, данный продукт работает в глобальной системе Avon (мировой лидер среди компаний прямых продаж, реализующих косметическую продукцию), охватившей в числе других стран и Россию. Read Soft предлагает также cистему для банков — E&H Forms Invoice.
Компания Кofax первоначально предназначала свой продукт Ascent Capture лишь для потокового ввода бумажных документов. И только в третью версию этой системы были включены функции form processing. Система Ascent Capture уже работает в правительственных организациях, банках (ввод счетов), страховых компаниях (обработка полисов), транспортных компаниях (обработка транспортных накладных, например в Federal Express). Продукт Ascent Capture взаимодействует со сканерным оборудованием на аппаратном уровне, и специалисты фирмы Kofax разрабатывают специальные акселераторы для сканеров, которые позволяют ускорить ввод и повысить качество извлечения информации из документов. Коfax уже провела 8 тыс. внедрений, причем наибольшее их число приходится на США. А с недавнего времени фирма NeuHaus Group и компания «Метатехнология» представляют систему Ascent Capture 5.51 и в России.
Рынок систем form processing расширяется очень динамично. Так, за прошлый год объем продаж на нем достиг, по данным Strategy Partners Market Report, примерно 2,6 млрд. долл. Всего же его ежегодный мировой потенциал в части печати и заполнения форм оценивается, по данным Gartner Group, в 6 млрд. долл., а в части обработки форм — в 360 млрд. долл.
Российский рынок систем распознавания и обработки форм также успешно развивается. Одним из основных игроков на нем является компания Cognitive Technologies, которая начала с распознавания печатных форм в 1993 г. (продукт Cognitive FormReader), затем перешла к работе с вписанными от руки печатными (специалисты их называют рукопечатными) символами. Теперь же, приняв во внимание то, что у западных систем с распознаванием русского языка имеются определенные проблемы, она сделала вполне логичный шаг — предложила на наш рынок для построения систем form processing свой продукт Cognitive Forms.
Технология form processing
Работы по построению и обработке форм в системах form processing можно разделить на три этапа: создание формы и публикация, ее заполнение, сбор и обработка данных.
Три этапа цикла обработки форм в системе form processing |
Первый этап заключается в разработке макета формы структурированного документа, т. е. описывается его внешний вид, некоторые функциональные характеристики, правила заполнения. Это делается с помощью специализированного ПО, включающего функции программы верстки, интерактивной программы распознавания и настройку свойств полей. Как правило, производители систем form processing предлагают банк уже готовых форм и банк примитивов, из которых, как из кирпичиков, можно построить свои формы. Есть специальный инструментарий, позволяющий описать, что в каком поле формы должно быть, т. е. свойства полей. Система распознавания будет эффективно работать тогда, когда будет «знать», что должно находиться в каждом поле: буквы, цифры или, например, фамилия. В результате не только происходит распознавание, но и обеспечивается контроль заполнения — cистема просто не позволит ввести в поле ошибочную информацию.
Насколько же сложна расстановка полей на бумажной форме с помощью системы form processing? Здесь стоит провести аналогию с MS Word. В ней простой текст способен ввести и неподготовленный пользователь, а чтобы создать документ со сложной структурой, нужен определенный навык. Так, и в системе Cognitive Forms: для расстановки полей и заполнения простой формы достаточно указать поля ввода, а все остальное система выполнит автоматически, для чего и разработана специальная программа распознавания. Для расстановки же полей и грамотного проектирования сложной формы требуется предварительно обучить заказчика.
Созданная форма может быть напечатана, причем есть возможность сразу же заполнить часть ее полей из БД информационной системы клиента, или же представлена в html- или PDF-формате для заполнения по Интернету или для рассылки по электронной почте.
Второй этап — заполнение форм. Это можно сделать от руки для бумажной формы либо в Acrobat Reader1 или в Интернет-браузере для электронной формы. Заполненные формы по Интернету, электронной или обычной почте пересылаются в центр обработки.
Третий этап — сбор данных. В системах form processing есть прикладное ПО, которое извлекает данные из электронных форм, заполненных на http- или почтовом cервере, а бумажные формы вводятся в систему путем сканирования, распознавания и верификации. Полученная информация попадает в единое хранилище, после чего, если необходимо, аккумулированные здесь данные можно послать на дополнительную верификацию. Затем они в требуемом формате передаются в БД или информационную систему предприятия-клиента.
Cравнение систем form processing
Сравнение таких масштабных и, главное, все равно настраиваемых на специфику каждого конкретного заказчика систем — дело непростое и неблагодарное. Поэтому оговорюсь сразу, при их выборе лучше смотреть на практические примеры внедрения продуктов form processing для каждой отдельной отрасли. Правда, здесь дело осложняется тем, что продвижение таких систем на наш рынок только начинается. Однако есть некоторая базовая функциональность, по которой можно попытаться провести такое сравнение. После бесед со специалистами я сделал для себя вывод: у каждого продукта есть свои сильные и слабые стороны. Например, западные пока недостаточно хорошо справляются с распознаванием русского языка, особенно тогда, когда форма заполняется от руки печатными буквами. Дело в том, что отечественная компания Сognitive Technologies, которая уже почти девять лет занимается проблемами обработки русскоязычных текстов, использует в своей системе Cognitive Forms созданный ею «движок» распознавания. Качество распознавания русского языка здесь обеспечивается за счет обширных баз данных изображений символов (образцы почерка), на основе которых «обучены» алгоритмы распознавания, а также за счет применения грамматических конструкций.
У западных производителей, в частности Коfax, другой подход. Они разрабатывают саму платформу для построения решения по вводу документов, а «движок» распознавания покупают и лицензируют у лучшего производителя. Сейчас они отдали предпочтение продукту RecoStar компании ODT-OCE. Это в принципе логично, ведь разработка собственного «движка» — ресурсо- и наукоемкая работа, требующая серьезных инвестиций. В продукте RecoStar также заложено распознавание русского языка но, по данным специалистов NeuHaus Group, его качество для распознавания рукопечатного текста все-таки пока оставляет желать лучшего, и в настоящее время проводится работа по оптимизации технологии, в частности, для более корректного распознавания отдельных кириллических символов.
У западных систем интерфейс более эргономичен. Качество описания формы, по мнению специалистов NeuHaus Group, выше у продуктов компании Read Soft. Продукт TELEform интегрирован с Revision Control Systems — системой поддержки версий и позволяет вести групповую работу над проектами форм: блокировать форму от изменений, хранить всю историю этих изменений, моментально возвращаться к любому из предыдущих вариантов форм.
Что же касается этапа публикации форм, то здесь характеристики систем form processing весьма схожи: все они поддерживают определенный набор стандартов. Этап заполнения форм также реализован в них практически аналогично. Если же говорить об этапе обработки данных, то на нем системы отличаются способами обработки изображений.
Все системы используют контроль данных на основе правил заполнения. Западные системы распознают больше разных типов штрихкодов, чем Cognitive Forms. Например, если на все входящие документы наклеить штрихкод, то система Ascent Capture 5.51 позволяет автоматически находить и распознавать его в любом месте документа под любым углом. В этом штрихкоде может находиться уникальный идентификатор документа, иногда в нем зашифрованы и какие-то значения ключевых полей (допустим, филиал банка, из которого пришел этот документ). Система фирмы Cognitive поддерживает работу с большим числом языков программирования, что дает возможность дизайнеру описывать алгоритм обработки полей на том языке программирования, который он знает. В системе Ascent Capture 5.51 есть специальный язык, помогающий задавать очень сложные правила обработки полей.
Во всех системах имеется функция статистической оценки результатов работы. Объем обрабатываемых форм как в западных системах, так и в продукте компании Cognitive Technologies с программной точки зрения не ограничен (препятствуют лишь технические характеристики оборудования).
Практика внедрения систем form processing на Западе показывает, что одним из критериев, по которым можно их разграничить, является ежемесячный объем вводимых форм. Так, продукт компании Read Soft ориентирован на обработку очень больших объемов форм. Значит, его целесообразно использовать для решения глобальных задач, например для переписи населения, где стоимость внедрения измеряется сотнями тысяч долларов.
Системы компаний Сardiff и Коfax с этой точки зрения ориентированы на средние объемы. Их, по мнению специалистов NeuHaus Group, имеет смысл применять для ввода от 100—200 документов в день.
Система Cognitive Forms хорошо масштабируется, потому подходит как для небольших компаний с объемом ввода от 100 документов в день, так и для крупных организаций. В частности, сейчас Cognitive Forms позволяет вводить и обрабатывать анкеты персонифицированного учета в Пенсионном фонде РФ. Система там обрабатывает до 70 тыс. страниц в день.
В Cognitive Forms доступ к распознанным данным предоставляется в виде API, что позволяет сторонним разработчикам создавать конвертеры для импортирования данных в ИС.
Cледует отметить, что все системы, рассмотренные в этом обзоре, интегрируются с различными информационными системами управления предприятий. Например, продукт Ascent Capture 5.51 является стандартной подсистемой ввода информации для IBМ Content Manager — cистемы управления электронными архивами. Он также интегрируется с Hummingbird DM — системой управления документами, c Documentum — платформой для построения систем управления документами и др. Продукт Cognitive Forms интегрируется c SAP R/3, а также с отечественными банковскими системами, в частности с несколькими продуктами компании «Диасофт» и комплексом «RS-Bank», разработанным фирмой RS SoftLab и др. (подробнее cм. в таблице).
Области применения
Каковы перспективы внедрения систем form processing у нас в стране? Для ответа на этот вопрос я решил обратиться непосредственно к специалистам: как к представителям предприятий, так и к тем, кто занимается проблемами внедрения систем документооборота. Причем меня интересовало и само их отношение к этим системам, и то, для решения каких задач их можно использовать. Спрашивал я и о том, что следует предпринять, чтобы системы form processing действительно сделались необходимым инструментом для управленцев (см. врезку).
А кроме того, всех наверняка интересует, где на нашем рынке их можно применять уже сейчас.
В настоящее время системы form processing могут использоваться для сбора первичной информации с мест, ведь дорого, а иногда и просто невозможно везде поставить компьютеры. Проще научить персонал написать несколько цифр на бумаге и заполнить форму, чем обучить работать на компьютере, — во всяком случае, на первых порах. И всем понятно, насколько важно для производства, чтобы данные фиксировались в момент их появления и заносились в информационную систему на месте — об этом постоянно говорят руководители.
Сейчас на предприятиях в связи с ростом конкурентной борьбы все больше внимания начинают уделять исследованиям рынка — создаются маркетинговые управления и информационно-аналитические службы. Им необходимы сведения для проведения анализа, и системы form processing могли бы стать их поставщиком. Сотрудники этих подразделений уже сейчас способны самостоятельно составлять формы, ведь сами специалисты лучше знают, что им важно анализировать. А дать инструмент для создания форм, их рассылки, сбора, обработки, проверки и ввода в БД — задача тех, кто разрабатывает системы form processing.
Возьмем, например, какое-нибудь министерство. Там с определенной периодичностью готовят отчеты, причем чем выше их уровень, тем больше должна быть степень консолидации, тем более обобщенные и сжатые потребуются данные. И на это уходит, по оценкам специалистов, около 30% рабочего времени чиновника. Но ведь любой отчет — это некий структурированный документ. Если дать инструментарий, позволяющий делать формы всевозможного вида и в нужном количестве, заполнять их и «укладывать» в любую БД, то и на следующем уровне работа будет вестись не со стопкой бумаг, пришедших cнизу, а с информацией из БД. Причем ее можно будет анализировать в разных аналитических разрезах c помощью стандартных средств, в частности того же Еxсel. В результате такой работы чиновник получит заполненную электронную форму с консолидированной информацией и, составив отчет, отправит его дальше, на следующий уровень управления.
Еще одна задача, которую системы form processing способны решать уже сейчас, — сбор первичной информации от дочерних предприятий. Здесь их удобно применять для генерации и рассылки по электронной почте форм в PDF-формате на удаленные предприятия-филиалы, не имеющие прямых каналов связи. Причем это не потребует внедрения на дочерних предприятиях каких-либо новых систем: получил по электронной почте форму, заполнил ее и отправил обратно (или распечатал на бумаге, заполнил и отослал в головной офис обычной почтой). В центральном офисе система form processing все эти входящие формы обрабатывает, верифицирует и размещает полученную информацию в БД.
Пути внедрения и перспективы
Есть три пути внедрения систем form processing.
Первый — традиционный, заключающийся в обследовании предприятия, составлении технического задания, разработке концепции и т.д. Второй путь — обучение заказчика инструментарию и поддержка его работы в этой среде, чтобы он сам смог определить, какие данные ему нужно собирать и анализировать. Третий путь состоит в том, что специалисты компании-поставщика внедряют систему и обучают заказчика, который затем уже способен сам разрабатывать новые формы.
Сложилось так, что в рамках предприятия документооборот охватывает в лучшем случае треть данных. К тому же зачастую происходит просто перекладывание информационного бумажного поля в компьютер, и оно, естественно, не становится после этого структурированным, ведь не происходит работы с информацией как с продуктом, который можно анализировать и статистически обрабатывать. Распространенный у нас в настоящее время документооборот заключается в учете передвижения документов и контроле за исполнением решений. Сам же документ в большинстве систем рассматривается как некий «черный ящик». А вот системы form processing призваны обеспечить работу именно с содержанием документов, что означает переход на более высокий уровень работы с информацией.
Общеизвестно, что устойчивый и динамичный бизнес строится на налаженных информационных потоках. В какой-то момент начинает выигрывать тот, кому проще сделать заказ, кто быстрее среагирует на предложение партнера, кто более оперативно получает информацию о состоянии своей компании и ее положении на рынке. Системы form processing способны строить и более качественно обслуживать эти информационные потоки.
Но это произойдет только тогда, когда менеджеры получат инструмент, позволяющий не просто работать с информацией как с набором бумаг или с готовым отчетом, но и интерпретировать ее с разных точек зрения, смотреть в разных разрезах, следить за изменениями определенных показателей в динамике. В процессе работы менеджеры привыкнут к этой системе и станут применять данные так, как им нужно для управления процессом и решения стратегических задач, а не только для составления текущих отчетов. И тогда системы form processing (иначе — формооборота3, если вам так больше понравится) смогут действительно стать системой жизнеобеспечения и управления.
* * *
Я не стремился дать всеобъемлющий анализ основных систем, а просто решил в доступной форме рассказать о том, как они работают, показать нишу их применения и, что, по-моему, самое интересное, собрал мнения специалистов об этих системах, а также об условиях и потенциальных областях их успешного внедрения на российском рынке. А что будет дальше, так это покажет практика.
ОБ АВТОРЕ
Михаил Глинников — научный редактор журнала «Мир ПК». С ним можно связаться по e-mail: mikeg@pcworld.ru
1 Для заполнения русскоязычных форм нужна версия 5.0.
3 Такой термин для обозначения систем form processing на нашем рынке предложили специалисты компании Сognitive Technologies.
Требуются стандарты
Я полагаю, что у систем form processing хорошие перспективы. В Государственном Историческом музее их можно было бы использовать для следующих работ:
- обеспечение учета и движения фондов музея - прием (покупка) предметов, участие в зарубежных и отечественных выставках, выдача (прием) предметов на исследование и реставрацию, экспертные исследования в ГИМ;
- организация служебных и финансовых взаимоотношений с Министерством культуры РФ и другими учреждениями.
Чтобы эти системы действительно стали инструментом для управленцев и успешно вписались в информационную структуру нашего музея, должны быть введены: на государственном уровне — «электронное делопроизводство» с решением всех правовых, технических и программных вопросов; в рамках Министерства культуры РФ — отраслевые стандарты электронного делопроизводства.
Кирилл Евгеньевич Полуэктов,
завотделом информатики
Государственного Исторического музея
Это действительно работает
Мы стали работать с системой Eyes&Hands for Forms версии 4.1 в конце 1998 г. Необходимость ее применения была напрямую связана со спецификой нашего бизнеса. Корпорация Avon является мировым лидером среди компаний прямых продаж, реализующих косметическую продукцию. Нам ежедневно приходится оперативно обрабатывать очень большое количество заказов. Форма заказа — это отпечатанный типографским способом двусторонний лист формата А3. В нем покупатель заполняет определенные графы, указывая, какой товар он хотел бы получить. Обработать непрерывный поток заказов вручную довольно сложно, для этого потребовалось бы несколько десятков операторов.
Так как система обработки форм Eyes&Hands уже применялась нашей компанией в других странах и была декларирована в корпоративных стандартах, ее внедрение в России было вполне обоснованным. Сначала мы провели пилотный проект и постепенно наращивали долю заказов, обрабатываемых с помощью Eyes&Hands for Forms, а сейчас эту систему проходит около 99% заказов и только 1% обрабатываeтся вручную (смятые, механически испорченные формы).
У нас установлен сканер Fujitsu 4099 GX, способный считывать данные с обеих сторон бланка заказа со скоростью около 40 шт./мин. За одну загрузку он может вводить 500 форм. Отсканированные изображения передаются в компьютер, где Eyes&Hands for Forms непосредственно обрабатывает их.
Система позволяет работать в одной загрузке с разными формами, поскольку она автоматически идентифицирует их по реперным точкам. Затем она накладывает на форму определенную сетку полей и находит на изображении те поля, куда вписаны от руки цифры или буквы. Eyes&Hands for Forms позволяет подключать внешние модули распознавания, в частности, для кириллических символов предназначен модуль RecoStar. Он, правда, плохо распознает некоторые буквы, но сейчас идет работа над его усовершенствованием. Да и применяется он только для распознавания имени и фамилии покупателя, а это в общем-то лишь малая часть обрабатываемой информации.
Основной же объем символов для распознавания (порядка 95%) составляют цифры. Для их обработки используется штатный модуль распознавания с лицензированной производительностью 50 символов в секунду. Затем с помощью модуля верификации системы Eyes&Hands выполняется обработка символов, которые прочитаны неточно или вообще не распознаны. Степень точно распознанных символов довольно высока — примерно 98%. Полученная информация, структурированная определенным образом, поступает в систему «Конкорд» для дальнейшей обработки и исполнения заказа. Параллельно происходит сохранение изображений в tif-формате в электронный архив, к которому имеется оперативный доступ.
Теперь о цене вопроса. Сканер Fujitsu стоит около 20 тыс. долл., программное обеспечение - примерно столько же, а довольно мощный компьютер — около 5 тыс. долл. Таким образом, одна линейка сканирования обойдется примерно в 45 тыс. долл. Ее расчетная производительность приблизительно 1000 бланков в час, или около 80 тыс. символов. Столь высокая скорость обработки достигается благодаря доскональной оптимизации модуля верификации. Используя встроенную возможность расширения системы на базе VBA-скриптов, наши специалисты в несколько раз сократили нагрузку на оператора верификации путем предварительной проверки распознанных данных на соответствие справочным таблицам и бизнес-правилам. В результате внедрения системы Eyes&Hands for Forms у нас значительно возросли точность и скорость ввода заказов в систему.
Сожалеем только, что компания Read Soft не имеет представительства в России, и потому уровень поддержки системы Eyes&Hands for Forms оставляет желать лучшего.
Александр Юрьевич Ратайчук,
руководитель проектов отдела ИТ компании Avon
Такая задача не стоит
Мы не считаем, что задача автоматизации form processing в реальности существует на предприятиях. Имеется в виду именно выделенная бизнес-задача, связанная с хранением и обработкой форм.
Бумажные документы, в том числе и формы, используются для ввода данных в информационные системы. Полученные сведения применяются либо в ERP-системе в виде структурированных данных, либо в качестве неструктурированных управляются ECM-системой (система управления содержанием). Подобные системы могут управлять как собственно электронными документами, так и их отсканированными образами, а также бизнес-процессами, связанными с обработкой этих документов. Что же касается электронных форм, то данные из них обычно поступают непосредственно в ту систему, которая их обрабатывает.
Следовательно, не нужно никакого специализированного ПО для form processing. Программное обеспечение данного вида относится к системам массового ввода, задача которых заключается в организации потокового сканирования документов с применением промышленных сканеров, управления технологическими процессами сканирования и обработки, автоматического распознавания полей документов, автоматической проверки корректности данных с возможностью визуального контроля качества сканирования и автоматической загрузки структурированных данных в ERP-систему, а отсканированных документов — в систему управления документами.
Например, система Documentum интегрирована российскими специалистами с продуктами ведущих производителей данного класса программного обеспечения, такими как ABBYY, Captiva, Kofax, что позволяет обеспечивать ввод и обработку информации, поступающей на бумажных носителях, с максимальной эффективностью.
Константин Cтаниславович Синюшин,
генеральный директор «Документум Сервисиз СНГ»
Интеграция с «Золушкой»
Мы относимся к системам form processing положительно. Они должны помочь в работе, сократить время подготовки документов и структурировать содержание.
Системы form processing могли бы использоваться в префектуре г. Зеленограда для ускорения процесса подготовки ответов на письма граждан и организаций, служебных записок, распоряжений префекта, договоров.
Для того чтобы данные системы действительно стали инструментом для управленцев и успешно вписались в информационную систему нашей префектуры, необходимо совмещение систем form processing с DIS: class («Золушка»).
Анна Николаевна Коробова,
канд.экон.наук.,
завсектором информационных технологий префектуры г. Зеленограда.