Традиция проведения cеминаров "Диалог" насчитывает уже два десятка лет (правда, в 1990-1994 гг. был перерыв). В разное время ими занимались разные организации, но главная инициатива всегда принадлежала Александру Семеновичу Нариньяни, директору Российского НИИ искусственного интеллекта (РосНИИ ИИ).
Официальная тема семинаров — "компьютерная лингвистика и ее приложения", но много места уделяется и чисто теоретическим проблемам. Название "Диалог" подразумевает как предмет исследования — речевую коммуникацию и диалог между человеком и машиной, так и форму взаимодействия участников — живое, непосредственное общение лингвистов с математиками, теоретиков с практиками, российских исследователей с зарубежными. А в 1998 г. в семинаре впервые приняли участие и представители компьютерной прессы.
Тезисы докладов по прикладной лингвистике заняли увесистый том большого формата, так что рассказать обо всех не удастся. Перечислю лишь несколько сообщений.
На филологическом факультете МГУ давно и успешно ведутся работы по синтезу речи. Возможно, кому-то из читателей известна коммерческая версия синтезатора "Агафон" — "Говорящая мышь" Московского клуба голосовых технологий. "Мышь" разговаривает совсем не плохо, но продемонстрированная на семинаре новая версия — "Агафья", — синтезирующая женский голос, просто творила чудеса. Хотите верьте, хотите нет, но "Агафья" с выражением читает стихи. Тем временем в Казани работают над синтезом татарской речи.
Может быть, кто-то помнит конфликт, произошедший в 1997 г. из-за торговой марки Interbase, на которую претендовали одновременно компания Borland и РосНИИ ИИ. В результате название InterBASE осталось за системой, разработанной РосНИИ ИИ, обеспечивающей работу с реляционными базами данных на естественном языке, а СУБД, распространяемая теперь уже не Borland, а фирмой Interbase Software, стала продаваться в России под именем IBDatabase, но путаница, увы, происходит постоянно. Так вот, отечественная InterBASE жива и развивается; ее новая версия для Windows была представлена на "Диалоге", а в дальнейших планах разработчиков — введение промежуточного уровня запросов (им станет модель предметной области), создание варианта системы для Web, поддержка работы с нетекстовой (мультимедийной) информацией.
В ИПИ РАН создана система под названием "Криминал", которая анализирует реальные тексты милицейских протоколов и строит по ним фактографическую базу данных, позволяющую выяснять детали происшествий.
Представители компании "МедиаЛингва" (единственной известной коммерческой фирмы, участвовавшей в семинаре, — тезисы поступили также из ABBYY и CompTek, но докладчики приехать не смогли) рассказали не только о своих готовых разработках, но и о новом проекте — автоматическом переводе, основанном не на грамматике и словаре, как все ныне действующие, а на большом (в несколько сотен мегабайт) корпусе параллельных текстов. В этом корпусе система для каждой фразы оригинала будет искать наиболее похожие на нее и, исходя из готовых переводов, строить свой (разумеется, с использованием грамматики и словаря, но их роль будет вспомогательной). Вообще говоря, попытки реализовать нечто подобное предпринимались и раньше, но мешали недостаточное быстродействие компьютеров и малая емкость памяти: скажем, виденная мною на CeBit?98 система LOGOS немецкой компании EP (Electronic Publishing), построенная на сходных принципах, требует для работы мощного сервера SPARC. Удастся ли создать такой переводчик для ПК?
Напоследок скажу о программе, которая показывалась "в кулуарах", поскольку не имела отношения к лингвистике, — созданном в РосНИИ ИИ решателе уравнений UniCalc. Программа находит решения с невероятной быстротой, используя, если можно так выразиться, метод интеллектуального подбора. С ее помощью легко строятся модели поведения сложных объектов, зависящих от многих параметров (несколько таких моделей были продемонстрированы). Возможности UniCalc можно самостоятельно испытать по адресу http://www.rriai.org.ru .
В целом "Диалог" показал, что, несмотря на всеобщую коммерциализацию, плачевное состояние экономики, слабое финансирование науки и прочие российские беды, немало людей и коллективов все-таки находят силы и возможности для занятий перспективными исследованиями. Хочется надеяться, что и в наступившем году они смогут встретиться на семинаре и сообщить о своих новых результатах. n