FineReader 11: распознай меня профессионально

В преддверии нового учебного года компания ABBYY порадовала пользователей очередной, уже одиннадцатой версией системы оптического распознавания символов FineReader.

Какой была самая первая версия программы, появившаяся на свет 18 лет назад, сейчас уже трудно вспомнить, можно лишь констатировать, что в настоящее время FineReader превратился в комплексный пакет с множеством функций, но, к счастью, еще не утратил простоты в обращении. Несмотря на то что количество программ и служб оптического распознавания символов измеряется десятками, на российском рынке, по сути, безраздельно правит бал FineReader, особенно с тех пор, как его отечественный конкурент -- CuneiForm -- стал бесплатным ПО с открытым исходным текстом. Принято считать, что отсутствие конкуренции неблагоприятно сказывается на развитии продукта. Но всегда ли это так? Давайте посмотрим, что нам приготовили разработчики ABBYY в версии 11.

Театр начинается с вешалки, а программа -- с установки. Инсталляция FineReader, скажем прямо, не балует обилием вариантов. Версия Professional предлагает только выбор встраивания программы в Проводник и офисные приложения, а также установку руководства пользователя и компонента ABBYY Screenshot Reader для создания снимков любой области экрана с возможностью распознавания в них текста (как выяснилось, добавляемого в автозагрузку всех пользователей ПК, даже если соответствующий параметр был выключен).

При этом никакой «легальной» возможности отказаться от копирования массы ненужных файлов, увы, не предусмотрено. Конечно, при виде файлов с именами Bashkir, Chukcha или, скажем, Yiddish, невольно испытываешь гордость за нашу многонациональную страну и за столь обширный языковой охват специалистов ABBYY.

Однако все же было бы правильнее предоставить пользователю выбор, нежели плодить в системе множество файлов, которые с вероятностью 99,9% никогда не будут востребованы.

Кстати, по умолчанию установка FineReader 11 Pro занимает на диске 719 Мбайт. Даже учитывая относительную дешевизну нынешних магнитных носителей, такой объем кажется чрезмерным. Не отличается умеренным «аппетитом» программа и по части использования оперативной памяти. Так, при распознавании документов она легко потребляет 0,5 Гбайт ОЗУ, да еще около 10 Мбайт занимает служба лицензирования ABBYY (которая к тому же продолжает «оккупировать» ОЗУ и после завершения работы FineReader). Понятно, что постоянное повышение требований к аппаратуре -- общая тенденция среди поставщиков ПО. Жаль только, что ABBYY не стала здесь исключением (в этой связи забавно вспомнить, что когда-то компания носила название BIT и потому ассоциировалась с чем-то компактным).

По заявлению разработчиков, в 11-й версии скорость обработки документов увеличена на 20%. Поскольку выполнение сравнения с предыдущей версией при подготовке данной статьи в наши планы не входило, приведем только несколько сухих цифр. Например, подготовка и распознавание 100 страниц книги в полноцветном режиме (из pdf-файла с хорошим качеством оцифровки) на компьютере с процессором Intel Mobile Core 2 Duo T5550 и 4-Гбайт ОЗУ в среде 32-разрядной Windows 7 заняли 4 мин 40 с (были выбраны русский и английский языки распознавания). При использовании нового, черно-белого режима обработки результат оказался еще более эффектным -- 3 мин 12 с (правда, как показали эксперименты, в этом случае возможна некоторая потеря точности распознавания). Когда же вместо тщательного режима распознавания был выбран быстрый режим, итоговое время составило и вовсе 2 мин 12 с. Согласитесь, впечатляющий результат. При этом разумеется, следует помнить, что быстрый режим распознавания подходит только для качественно оцифрованных или распечатанных документов с несложным оформлением. В противном случае получится результат, как в известном анекдоте про машинистку на собеседовании, заявившую, что она печатает со скоростью 1000 знаков в минуту .

Еще одно улучшение в 11-й версии связано с более точным определением макета страницы, в частности врезок-комментариев на полях. Если раньше такие элементы могли быть приняты программой за продолжение строк основного текста, то сейчас они распознаются и сохраняются как отдельные блоки, что и подтвердилось в наших испытаниях.

Также, по заявлению фирмы, на четверть повышена точность разбиения таблиц на ячейки. От себя добавим, что порой эта функция работает даже «слишком хорошо», определяя таблицу там, где в действительности ее нет. Нововведение FineReader 11, которое трудно не заметить, -- умение находить вертикальные колонтитулы. Да и с обычными, горизонтальными колонтитулами свежая версия обращается, по информации разработчиков, заметно более аккуратно, нежели предыдущая. Кроме того, была повышена точность детектирования графических элементов, хотя 100%-ной гарантии свободы от ошибок, разумеется, нет.

Усовершенствованию подвергся и Графический редактор. Если вас почему-либо не устраивает автоматическая коррекция, с его помощью можно вручную устранять трапециевидные искажения, изменять уровни, яркость и контрастность изображения и др.

Согласно информации фирмы, при создании новой версии особое внимание было уделено определению размеров полей и местоположения колонтитулов, дабы при экспорте в формат RTF максимально сохранялся исходный макет документов. В наших опытах программа делала это, как правило, действительно корректно, однако порой излишне «усердствовала», из-за чего поля попросту отсутствовали.

Кстати об экспорте. FineReader 11 наверняка придется по душе владельцам мобильных устройств (планшетных компьютеров, смартфонов, устройств для чтения электронных книг), так как получаемые документы, кроме прочих, теперь можно сохранять в форматах FB2 и ePub.

Еще один появившийся в 11-й версии формат экспорта, способный заинтересовать многих коллекционеров электронной документации, помимо текста изобилующего схемами и диаграммами, -- DjVu. Не лишним будет упомянуть и поддержку формата ODT (файлы текстового редактора Write из пакета OpenOffice.org/LibreOffice). В свете постепенного добровольно-принудительного перехода организаций в нашей стране на лицензионно чистое ПО он становится все более востребованным .

Даже несмотря на нововведенную поддержку арабского языка, модернизацию Редактора стилей и других функции, революционной 11-ю версию FineReader назвать все-таки нельзя.

Улучшения в ней, безусловно, есть, но они эволюционные. В целом программа произвела хорошее впечатление, хотя пространства для прогресса еще много, да и старые недоработки ждут исправления (например, многократно замедлившееся еще в 10-й версии пофайловое сохранение группы распознанных изображений осталось таковым и поныне).

На фоне перманентного подорожания всего и вся приятно отметить, что версия 11 Professional пусть и недешева, но стоит ровно столько же, сколько и предыдущая, -- 3990 руб. (коробочный вариант) и 3590 руб. (загружаемый из Интернета). Для пользователей старых версий FineReader обновление до текущей версии обойдется в 2390 руб. и 2150 руб. соответственно.