раз объем ручной работы при обработке различных форм, обеспечив безошибочный ввод от 90 до 95% документов и обнаружение ошибок в остальных 5-10%. Это относится к рукописному тексту.
Что касается "печатного слова", то здесь требования еще выше. В книжно-журнальных текстах позволительна одна ошибка на две-три тысячи печатных знаков, в машинописных - две-три ошибки на страницу, в факсимильном сообщении - две-четыре ошибки (при условии, что факс передан без сбоя).
В настоящее время борьба идет за сотые доли процента нераспознанных символов. Современные системы распознают текст в десять раз быстрее, чем могут печатать профессиональные машинистки, и при этом допускают в два-три раза меньше ошибок (в соответствии с ГОСТом, машинистка может допустить на одной странице до пяти ошибок). Именно благодаря качеству существующих систем распознавания можно всерьез говорить об их промышленном применении.
Успехи BIT позволили ей заключить контракт с Samsung Electronics. Об этом событии шла речь на прошедшей 4 марта совместной пресс-конференции. На ней было объявлено о завершении основного этапа работ по реализации лицензионного договора, согласно которому Samsung получила исходные тексты системы распознавания FineReader и права на создание собственного OCR-продукта на основе разработанной BIT технологии.
По мнению вице-президента Samsung Electronics, ведающего программными разработками, Ин-Кенг Рю, единственный способ преуспеть в создании конкурентоспособных систем большого масштаба - это международное сотрудничество и интеграция технологий. Он считает, что в России есть и другие компании, которые могут предложить интересные продукты.
Генеральный директор Samsung Research Center Нэ Сунг Парк добавил, что их фирма занимается изучением российских технологий, которые могут быть интегрированы в ее продукцию. Примером этого служит контракт с BIT Software. Лицензировав разработанную российской компанией технологию, Samsung объединила в своей программе AnyPage возможности одновременного распознавания корейского и английского языков. Лицензирование дало возможность сэкономить время на разработку, что поможет компании быстро занять лидирующее положение на мировом рынке, поскольку ни одна из фирм, поставляющих многофункциональные устройства, пока не комплектует их OCR-средствами. Следовательно, Samsung получит некоторое преимущество.
Программу AnyPage предполагается использовать в новом многофункциональном устройстве SF-4200. Сканирующая часть SF-4200 имеет разрешение 200х200 и предназначена для распознавания отсканированных текстов и принятых факсов. В комплекте с SF-4200 может поставляться также компакт-диск с облегченной версией программы FineReader (в настоящее время готовится соответствующий контракт). Проведенное в Корее и России тестирование программы показало их полную совместимость.
Российская же компания получает средства, которые позволят ей выйти на рынки США и Европы.
Контракт лишает BIT права продавать FineReader на территории Кореи, но не касается ее прав в других регионах. Samsung же имеет исключительные права на разработанную на основе технологии BIT собственную OCR-систему AnyPage только на территории Кореи. За ее пределами корейская программа может поставляться только в комплекте с аппаратными средствами или другим ПО.
Отмечая успехи российской компании, Samsung назвала BIT своим лучшим партнером в области исследований и разработок. Получая соответствующий сертификат, Ян пообещал, что свои новые технологии BIT будет предлагать сначала корейскому партнеру, а потом уже всем остальным.
В конце пресс-конференции была продемонстрирована "очень ранняя" бета-версия технологии распознавания рукописного текста. По словам Яна, она настраивалась всего на четырех тысячах образцов почерков российских граждан. За последние полтора года сотрудниками BIT собрано 3,5 млн. таких образцов, проанализировав которые, инженеры компании выделили из них 16 тыс. групп. Давид Ян пообещал, что через пару месяцев эксперты BIT уже обучат свою систему распознавать весь этот громадный массив. Несмотря на все еще допускаемые при распознавании ошибки (причем фактически была показана возможность распознавания только рукописных цифр), данная технология уже передана некоторым российским заказчикам, которые "очень нуждались в ней".
Партнеры ознакомили журналистов со своими ближайшими планами. Г-н Парк сообщил, в частности, о скором подписании контракта между Samsung и еще "одной российской компанией". Что же касается прошлогоднего контракта между Samsung и Cognitive Technologies, то, по мнению Поспеловой, он, по-видимому, не будет пролонгирован, поскольку был заключен в условиях отсутствия координации между корейским и американским офисами Samsung. Тем не менее компания пока не собирается его прерывать.
BIT собирается расширить свое присутствие на мировых рынках. Пока - путем создания зарубежных филиалов. Как сообщил Давид Ян, в ближайшее время планируется открыть офисы во Франции и на Тайване.