Услышать в Интернете

Михаил Ильюшин: «Технологии синтеза речи достигли уровня, который делает их доступными для широкой аудитории интернет-пользователей»

Веб-сервис синтеза речи обеспечивает автоматическое озвучивание текстового контента на сайтах Интернета человеческим голосом.

То есть он позволяет прослушать информацию, если у посетителя ресурса нет возможности или желания читать текст на веб-странице. Само по себе озвучивание текста используется достаточно давно (например, службой точного времени).

Однако прежде технология синтеза речи позволяла вопроизводить в автоматическом режиме только простые предложения с заранее определенной структурой и небольшим словарным запасом. В последнее время разработчики речевых технологий смогли добиться вполне приемлемого качества озвучивания любой текстовой информации, которое они демонстрируют на своих сайтах.

Например, если написать несколько предложений в заданном поле веб-страницы, то можно послушать, как их прочитает компьютер. Эксперименты показали, что ошибки в ударении и не совсем уместные интонации при воспроизведении случаются, но озвученный текст вполне понятен.

Таким образом, появились предпосылки для широкого использования синтеза речи в самых различных областях. Насколько широкого — пока определить сложно.

Не всегда новые услуги оправдывают коммерческие ожидания компаний, которые начинают их продвигать. Особенно если эти услуги платные.

По оценкам ЦРТ, 11% пользователей Интернета прослушивают информацию на веб-страницах при наличии возможности.

В среднем такие пользователи тратят на прослушивание около 10 минут дважды в неделю.

С учетом численности русскоязычной аудитории Интернета суммарный трафик, который генерируют сервисы синтеза речи, составляет 5,3 млрд мин в год.

Не факт, что большая часть посетителей «говорящих» интернет-страниц станет платить за подобный веб-сервис по установленным ЦРТ тарифам (хотя в настоящее время определена лишь приблизительная стоимость этой услуги). Однако и круг пользователей нового сервиса не обязательно ограничивается теми, кто сейчас предпочитает слушать информацию, размещенную в Интернете. К тому же аудитория русскоязычных пользователей Сети продолжает быстро расти.

Имеющиеся данные позволяют очертить примерные границы доходов от предоставления нового веб-сервиса. К примеру, ЦРТ за первый год его работы планирует получить не менее 10 млн руб., а за второй — в несколько раз больше.

Серьезных конкурентов в этом секторе рынка, ориентированных на русскоязычную аудиторию, петербургская компания пока не видит. «Синтез русской речи предлагают и другие разработчики.

Среди них компания Loquendo, мировой лидер по количеству синтезируемых языков (около 30). Однако по качеству озвучивания русского текста предложения других компаний уступают нашей разработке VitalVoice», — утверждает Михаил Ильюшин, менеджер ЦРТ по продукту VitalVoice.

Вместе с Loquendo к активному продвижению веб-сервиса синтеза речи приступила также компания Acapello. Она освоила 25 языков, но среди них русского пока нет.

«По количеству языков и охвату мирового рынка мы уступаем ведущим мировым разработчикам синтеза речи, но по качеству озвучивания текста никакого отставания от Запада у нас нет. Со временем, если новая услуга будет хорошо продаваться в России, начнем осваивать и другие языки. Опыт в успешном продвижении на мировом рынке различных решений и услуг у нас уже есть», — говорит Михаил Ильюшин.

Пока все усилия департамента синтеза речи ЦРТ и маркетинговой службы компании направлены на российский рынок. На первом этапе петербургская компания планирует работать только с владельцами интернет-сайтов.

Предполагается, что именно они будут оплачивать возможность прослушивать информацию, размещенную на их порталах. В настоящее время реализуются пилотные проекты, в ходе которых специалисты ЦРТ занимаются отладкой механизмов нового сервиса. Примерно через полгода компания планирует запустить услугу, и ею смогут воспользоваться все обычные пользователи, чтобы озвучить текстовую информацию на любых русскоязычных страницах Интернета.