Анна Шмелева

   Все лучшее - детям!

   Электронные словари Lingvo попадут более чем в 1400 московских школ и 100 ПТУ
   Москва, 7 сентября. Компания ABBYY объявляет о начале акции под названием "Все лучшее - детям!". Каждая московская средняя школа получает бесплатно 10 лицензий на систему англо-русских и русско-английских словарей Lingvo новой шестой версии.
   Подарочная версия Lingvo содержит полный комплект словарей, включающий 1000000 словарных статей по различным областям знаний. Многие функции программы специально предназначены для изучения английского языка. Озвучивание английских слов диктором из Оксфорда поможет постановке правильного произношения, наличие множества примеров и устойчивых словосочетаний обогатит лексический запас, сделает язык более богатым и живым. А функция подсказки всех словоформ слова поможет в изучении не только английского, но и русского языка.
   У многих из нас дети пошли в школу первого сентября, в обычные государственные школы, живущие на бюджетные деньги. Не секрет, что большинство школ испытывают трудности в привлечении и удержании педагогов, в содержании помещений, оборудовании классов. Не во всех школах есть нормальный спортивный зал и компьютерный класс, не говоря уже о таких вещах, как бассейн, зимний сад, живой уголок. Да и оборудование компьютерных классов зачастую морально устарело.
   Цель акции "Все лучшее - детям" хоть немного улучшить качество образования наших детей в школе и призвать другие компьютерные (и не только) фирмы помочь среднему образованию. Ведь благополучное завтра зарождается сегодня в наших детях.
   Особую благодарность мы адресуем сотрудникам Комитета образования г. Москвы, и в частности Зерновой Тамаре Ивановне за всестороннюю помощь и содействие в проведении акции.
   Пользуясь случаем, ABBYY призывает другие компании присоединяться к акции "Все лучшее - детям" и оказать посильную, пусть даже небольшую помощь школам.
   
   От редакции "КвШ": обычно в таких сообщениях для прессы (пресс-релизах) за основным текстом следует стандартная фраза - "За дополнительной информацией, пожалуйста, обращайтесь...". Мы решили последовать этому совету и узнать о компании с необычным именем ABBYY и о ее словаре Lingvo побольше. Наш корреспондент Анна Шмелева встретилась с председателем правления и президентом компании Давидом Яном.
   "КвШ": Как же все начиналось?
   Д.Я.: Идея состояла в том, чтобы сделать маленький бизнес. Тогда мы вовсе не планировали затевать дело, которое займет значительный отрезок жизни. Была, скорее, простая и ясная цель - повысить свой жизненный уровень на следующие два года обучения. Я поступил в МФТИ в 1985 году, то есть к тому времени (сезон 1988/89) был уже состоявшимся студентом. Заработать за лето немного денег стремились все, хотя традиционно задача решалась не посредством создания программ, а путем участия в летних строительных отрядах. Наличие некой дополнительной суммы позволяло, например, на некоторое время переселиться из общежития на частную квартиру, что повышало производительность труда по вечерам.
   Словом, план был таким: в течение июля написать программу, в августе продать несколько десятков копий, а в сентябре снова приступить к изучению физики. В 1989 году я должен был перейти на пятый курс ФОПФ (факультета общей и прикладной физики МФТИ).
   Мы планировали создать электронный словарь. Казалось очевидным, что такая программа всем нужна, и несколько десятков копий легко разойдутся. Словом, никакой тут романтики не было, скорее "шабашка" на непродолжительное, как мы считали, время. Нужно было разработать интерфейс словаря, нанять программиста, найти инвестора, то есть изыскать средства на разработку.
   В те времена существовали так называемые центры НТТМ (научно-технического творчества молодежи), которые вкладывали деньги в небольшие перспективные разработки. Еще надо было привлечь к работе лингвистов. О том, что существует такое понятие, как право на интеллектуальную собственность, мы слышали, но... Сейчас-то все знают, как это называется - лицензирование словарной базы. Тогда же ни о каком лицензировании никто и слыхом не слыхивал - ни мы, ни сами лингвисты. Мне нужны были люди, готовые в определенный срок написать словарь соответствующего объема, полноты и качества. Срок этот я оценил в один месяц.
   Программист отыскался довольно быстро в Черноголовке. Это был Александр Москалев. Интерфейс программы мы написали вместе. В качестве инвестора, несколько позже, чем я рассчитывал, не в июле, а в августе - выступил центр НТТМ "Дельта".
   
   В пересчете на сегодняшний курс объем финансирования составил примерно 200 долларов.
   Нашелся, опять-таки с опозданием, и коллектив лингвистов. Но только к январю следующего года, когда с грехом пополам была написана чуть живая программа, когда она наконец перестала виснуть и у нее появилось название - Lingvo, только тогда я по-настоящему осознал, насколько ошибался в сроках. Как выяснилось потом, практически все цифры нашего первого "бизнес-плана" были ошибочны! Вместо месяца на разработку словаря потребовался год. Было продано не сто копий программы, а всего 15. Цена одной копии оказалась выше расчетной. Тем не менее продукт появился, нашел своих покупателей (поначалу словарь приобретали крупные организации), и центр НТТМ, занимавшийся также его распространением, получил десятикратную прибыль. По тем временам деньги были огромные. Словарь "состоялся": у него появились пользователи, служба распространения, техническая поддержка, которую взял на себя все тот же центр "Дельта". Этот центр НТТМ стал нашим первым дилером. Впрочем, таких слов тогда тоже никто из нас не знал.

   ДИЛЕР - частное лицо или фирма, занимающиеся куплей-продажей товаров и действующие от своего имени и за свой счет.
   Толковый словарь русского языка С. И. Ожегова и
   Н .Ю. Шведовой на сервере "Кирилл и Мефодий" www.km.ru

   Мы всему учились по ходу дела - и программированию, и экономике. Только через год я впервые прочел учебник Котлера. И тогда узнал, что такое рынок, сегментация рынка, целевая аудитория, уникальное торговое предложение и т. д.
   "КвШ": У вас не было при этом чувства, что вы все это знали раньше?
   Д.Я.: Нет. Я бы сказал, что интуитивное знание - это еще не знание. Чем отличается информация от данных? Не помню точного определения, которое сейчас дает информатика, но в целом, по-моему, информация - это данные, готовые к восприятию. Свои интуитивные знания о рынке я назвал бы данными, а в информацию они превратились после того, как я прочел ключевые работы в области маркетинга.
   Прочитав, например, о том, чем отличаются нужды пользователей от их потребностей, через какое-то время думаешь: "Ба, да это же очевидно!"... Но для того чтобы так подумать, книгу надо сначала прочесть. Интуитивные знания при этом систематизируются и превращаются в полезный инструмент.
   Теперь я могу сказать, что десять лет назад мы участвовали в формировании рынка электронных словарей в нашей стране. Мы помогли пользователю осознать нужду в лингвистических программах и почувствовать потребность именно в продукции нашей фирмы.
   "КвШ": Насколько изменился словарь Lingvo с тех пор? Насколько оправдала себя структура, заложенная в него с самого начала?
   Д.Я.: Никаких кардинальных изменений с тех пор не произошло. Это не хорошо и не плохо, это просто факт, характеризующий Lingvo. Во второй и третьей версии были попытки изменить пользовательский интерфейс, но всякий раз от них приходилось отказываться в пользу существующего варианта. Появлялись только новые возможности: кнопка "полнотекстовый поиск", расширенные словарные статьи, примеры. Появился звук. Намного увеличились возможности настройки. Можно сказать, что сейчас Lingvo - и большой "толстый" словарь, и маленький "карманный" словарик одновременно. Число словарных статей выросло с 35 тысяч до миллиона, а число разделов (словарей) - с двух до 11.
   Что касается внутреннего "устройства" пакета - механизмов хранения данных, сжатия, индексирования, поиска - все это, конечно, было переписано от начала до конца.
   "КвШ": И у Lingvo сейчас не существует одного книжного прототипа?
   Д.Я.: Сегодня нет. Мы пока не видим необходимости лицензировать какой-либо из существующих (и совершенно замечательных в своем жанре) традиционных словарей. Если такая необходимость возникнет, будем об этом думать.
   "КвШ": А чем, на ваш взгляд, должно отличаться содержание электронного словаря от словаря-книги?
   Д.Я.: Бумажный словарь не может быть слишком большим. Если распечатать Lingvo полностью, объем распечатки получится, наверное, раза в полтора больше, чем словарь Даля. Составители книг не могут позволить словарям вырастать до таких объемов, они вынуждены чем-то жертвовать ради удобства читателя. В компьютере этого ограничения нет. В электронный словарь можно включить сколько угодно примеров, придавая разросшейся информационной базе более развитую структуру. Между тем именно примеры делают словарь наиболее ценным. В Lingvo имеется возможность отключить примеры, но я еще не видел, чтобы кто-то ею пользовался.
   На нашем сайте www.lingvo.ru постоянно появляются дополнения (updates) к словарю Lingvo. Их присылают в формате Lingvo специалисты, работающие со словарем, а мы публикуем, разумеется, после проверки формата и содержания. За счет таких updates каждый может обогатить свой словарь Lingvo переводами новейшей специальной терминологии в области техники, экономики и т.д.
   "КвШ": Значит, сложился уже своеобразный "клуб экспертов" Lingvo?
   Д.Я.: Мы к этому шли давно. Без Интернет это было практически невозможно, а сейчас делается самым естественным образом. К нам присоединились многие переводчики-практики. Каждому из них, совершенно независимо от квалификации, места работы и т.д., приходится иметь дело с новейшей терминологией на других языках. Если у нового термина еще нет русского эквивалента, технический переводчик вводит его сам. В этом случае он заинтересован в том, чтобы найденный им вариант перевода как можно скорее узнали коллеги. Это один из механизмов, благодаря которым растут словари.
   "КвШ": Насколько велик вклад пользователей в формирование Lingvo?
   Д.Я.: Если составитель не против (и если мы сами считаем, что словарь того достоин), мы с удовольствием включаем словарь в состав расширений Lingvo. Официально в состав Lingvo уже вошли два раздела, подготовленных фирмами-пользователями. Это "Большой англо-русский политехнический словарь" (фирмы "Руссо") и "Большой англо-русский словарь по нефти и газу" (ВНИИГАЗ, РАО "Газпром"). Общее число дополнительных словарей на сайте гораздо больше.
   "КвШ": Так развивался словарь Lingvo... Какова дальнейшая история фирмы, которая его разработала?
   Д.Я.: Фирма поступательно развивалась: команда выросла, мы сняли помещение... Никаких вложений средств со стороны больше не было. Так что начать свое дело с 200 долларов по тем временам оказалось реальной задачей.
   Теперь же, я думаю, "начать с нуля" можно, располагая суммой около 5 тысяч долларов.. Такой вот "нуль"... Разумеется, при условии, что есть плодотворные идеи и готовая к работе команда.
   "КвШ": А теперь - вопрос к выпускнику физтеха. Вспоминаете ли вы свою alma mater?
   Д.Я.: Наша фирма на 70% состоит из выпускников МФТИ. Так сложилось исторически. Работают у нас также выпускники МГУ (это почти все наши лингвисты), МАИ, Энергетического института, "бауманцы" и другие. Очень сильными были последние выпуски факультета ВМК МГУ. Хорошие ребята встречаются, разумеется, всюду.
   И согласитесь - то, чем мы занимаемся теперь, к физике ближе, чем к математике или к чему-либо другому. Искусственный интеллект - это не точные решения, это интерполяция и аппроксимация, это подходы, принятые в изучении окружающей природы (то есть в физике). Предсказание поведения систем, построение моделей...
   Мы - то есть я сам и 70% персонала компании ABBYY - активно используем сейчас именно полученные на физтехе знания.
   Как-то в течение семестра я пропустил много занятий по второму иностранному языку - французскому. В результате на экзамене "плавал". Именно в эти минуты ко мне пришла идея создания Lingvo.
   "КвШ": А как родилась идея вашей "распознавалки" FineReader?
   Д.Я.: FineReader появился тогда, когда мы приняли решение двигаться дальше. Нашей следующей ключевой идеей было предоставить пользователю полный пакет услуг, связанных с обработкой документов. Сюда должны были войти четыре компонента - программа оптического распознавания текстов (на мировом рынке они обозначаются аббревиатурой OCR), система машинного перевода, средство автоматической проверки орфографии, электронный словарь. Сначала пакет включал в себя программу распознавания компании ОКРУС, как наиболее сильную в то время программу коррекции орфографии, разработанный в Твери электронный переводчик и наш Lingvo.
   Все это мы уложили в коробку, перевязали бантиком и предложили покупателям. Пакет работал под DOS, причем далеко не идеальным образом. Но идея "офиса в коробке" понравилась пользователям настолько, что нам говорили: "Ничего страшного, пусть будут ошибки, мы их как-нибудь потом вручную исправим". Мы зарегистрировали торговую марку "от листа на одном языке до листа на другом языке". Затем попытались лицензировать продукт компании ОКРУС - мы считали эту систему распознавания символов по тем временам самой передовой.
   Действительно, это была первая система OCR с зачатками "омнишрифтовости", то есть независимости от шрифта, которым набран читаемый текст. Она делила рисунок буквы на девять квадрантов и смотрела на поведение линии в каждом из них. Это еще не делало систему "шрифтонезависимой", но от тупого сравнения буквы с эталоном она, по крайней мере, уже ушла.
   Наш договор не был реализован по ряду причин, в том числе технических. Мы приняли решение разработать собственную систему OCR, тем более что какие-то идеи "фонтанного преобразования" к тому времени уже имелись. Первая версия FineReader была создана в совершенно сумасшедшие сроки: примерно за год. Это была первая разработанная в России действительно омнифонтовая, двуязычная, работающая под управлением Windows система оптического распознавания текстов.
   "КвШ": А откуда взялся термин "фонтанное преобразование"? При чем тут фонтан?
   Д.Я.: Ни при чем... Это был такой внутренний жаргон, происходивший от слова "фонт" (font), то есть шрифт. Он использовался в нашей технической документации, потом попал в печать, и мы зарегистрировали его как торговую марку.
   Когда я делал доклад в Академии наук, я все назвал своими именами. Дело не в названии, а в том, как система работает.
   Мы исследовали поведение темных пятен на плоскости изображения. Стояла задача: заложить в систему структурные знания о буквах, то есть сделать ее шрифтонезависимой и вместе с тем нивелировать такие ее недостатки, как реакция на разрыв штриха (в текстах плохого качества, например в "слепых" ксерокопиях, часто оказываются непропечатанными фрагменты букв). Иными словами, в то время система OCR могла быть либо надежной, либо омнифонтовой.
   Нам удалось решить проблему. FineReader не надо было "обучать", при этом его реакция на разрывы штриха стала умеренной. А дальше началась работа по совершенствованию системы. Надо сказать, что версии 1.0 и 2.0 готовились одновременно двумя группами разработчиков. Перед одной стояла задача "выдать" законченный продукт в жесткие сроки (один год), вторая же могла спокойно применить те "глобальные" идеи, от которых разработчикам первой группы приходилось отказываться. В первой версии мы "волевым решением" отменили многие вещи, например поддержку курсива.
   Мы стремились разрабатывать системы, не только нужные рынку, но и использующие некий интеллектуальный потенциал. Нам было неинтересно делать то, что могут все.
   "КвШ": Но все же конкуренты были?
   Д.Я.: Да. Пять или шесть. Это было интересно.
   Я бы к тому же сказал, что... Наверное, до прошлого года мы фактически не "занимались бизнесом". Это была, что называется, "работа в кайф". Мы делали то, что нас привлекало, и продавали ровно столько, сколько было нужно для поддержания работоспособности фирмы. Не то чтобы мы кому-то отказывали - нет, конечно! - но просто не вкладывали столько усилий, например, в западный рынок.
   Кризис ускорил этот процесс. Кажется, в приключениях Алисы в Стране чудес есть такое место: "В этой стране, чтобы стоять на месте, нужно бежать. А чтобы двигаться, нужно бежать еще быстрее". В какой-то момент мы это поняли. Увидели, что у нас есть шанс и упускать его глупо. Если не сейчас, то никогда.
   "КвШ": Тем, кто занимается распознаванием символов, часто задают вопрос о распознавании речи. Видите ли вы такую перспективу для себя?
   Д.Я.: При распознавании речи человеком на смысловой анализ услышанного также приходится не менее (если не более) 70% всей работы. Ни один человек не может записать под диктовку текст, если не понимает его смысла.
   В течение последних пяти лет мы работаем над проектом NLC (компилятор естественного языка). Рабочее название проекта мало говорит о том, какие коммерческие продукты будут выпущены в его рамках. Первый из них, вероятно, увидит свет через 2-2,5 года. Это самый дорогой из наших проектов, на который будет затрачено 200 человеко-лет (FineReader 4.0, для сравнения, обошелся нам в 150 человеко-лет). Мы получим систему четвертого поколения, работающую с прагматической моделью мира и способную самообучаться. Подробно рассказывать о ней, вероятно, еще рано. Но это будет интересно.
   А в области распознавания речи через несколько лет произойдет то же, что не так давно произошло в области OCR. А именно, будет перейден рубеж, после которого системы распознавания превратятся из игрушки в инструмент.
   Проблема распознавания слитной речи без настройки на голос диктора - это лишь на 30% техническая проблема распознавания. В "технической" области, можно сказать, вся работа уже сделана различными фирмами. Остальные же 70% приходится на анализ естественного языка - морфологический, синтаксический, семантический, прагматический и так далее. Мы сейчас нацелены именно на эти 70%.
   Результатов можно будет ожидать и в области распознавания речи, и в области распознавания рукописного текста (скорописи), причем не с экрана компьютера, а с листа. Ведь когда рукописный текст вводится с экрана или планшета, компьютер получает информацию о направлении обхода контура, что сильно облегчает задачу. Теоретически можно многое восстановить уже на уровне лексического контекста. Другое дело, когда текст существует на листе - тем более что качество рукописных текстов обычно плохое. По уровню помех (20-30%) задача аналогична распознаванию речи.
   "КвШ": Будем ждать новостей от ABBYY...