Эфраим Шварц

Похоже, что задача распознавания компьютером плавной речи с большим словарным запасом вот-вот будет решена. Такого рода оптимизм вызывает разработанная отделом перспективных исследований IBM программа распознавания речи MedSpeak/Radiology, которая работает в реальном времени.

Программа MedSpeak/Radiology выводит на экран в реальном времени слова, которые произносятся в микрофон, подключенный к звуковой плате ПК, причем речь может быть плавная, без пауз, как в обычном разговоре. Программа предназначена для врачей-рентгенологов, которые смогут диктовать и редактировать свои комментарии во время просмотра рентгенограмм.

По данным Дэвида Холли из отдела IBM по разработке продукции для здравоохранения, процесс стандартной диктовки, копирования, редактирования и окончательного переписывания ежегодно обходится медицинскому учреждению в 15 тыс. долл. в расчете на одного специалиста. Программа MedSpeak/Radiology позволяет значительно сократить затраты, поскольку в большинстве случаев отпадает необходимость в копировании. Пол Россин из IBM сообщил, что статистическое устройство, которое легло в основу программы, разрабатывалось с учетом более серьезных задач.

"Языковая модель растет [MedSpeak использует только 24000 слов], равно как и мощность компьютеров, так что скоро все манипуляции, начиная с заполнения формуляров и кончая хождением по Web, будут осуществляться с использованием речевого ввода информации, - считает Россин. - Функции управления голосом и диктовки будут встроены в ОС и станут таким же обычным явлением, как, скажем, простая мышь".

Россин добавил, что в настоящее время механизм распознавания речи в урезанном виде встроен в OS/2 Warp 4, причем он использует те же алгоритмы, что и программа MedSpeak, однако языковые и акустические модели у него другие.

Версия для OS/2 имеет режим диктовки, но при работе с ним после каждого слова надо делать паузу. Кроме того, ее языковая модель ограничена, а требования к ресурсам для среднего пользователя слишком высоки.

Для установки MedSpeak требуется компьютер с процессором Pentium Pro/200 МГц и 128 Мбайт оперативной памяти