А вот найти именно тот, который нужен, и после этого еще извлечь из него полезную информацию... Продукт LinguistX компании Inxight Software представляет собой набор усовершенствованных средств обработки естественного языка, в числе которых средства автоматического реферирования, извлечения информации и морфологического анализа, способные значительно улучшить работу с текстами приложений: от поисковых механизмов до средств распознавания рукописного текста.
Эту систему отличает строгое соответствие лингвистическим нормам и компактность. Лингвистические преобразователи основаны на современных нормах языка, что гарантирует точный анализ документов и адекватное понимание слов. Разработчики опирались на современные методологии описания языка. LinguistX "понимает" восемь языков и при тестировании продемонстрировал точность, высокую производительность и близость естественному языку.
LinguistX позволяет хранить в 250 Кбайт памяти более 500 тыс. английских слов (2 слова на байт) и более 5,7 млн. слов французского языка (20 слов на байт!) благодаря уникальной системе сжатия, разработанной сотрудниками Xerox PARC Роном Капланом и Мертином Кеем.
Компоненты Xerox Linguistic Technology поддерживают единые API-интерфейс и поисковый механизм для всех языков. Для разработки приложений на разных языках достаточно заменить файлы данных.
В пакет LinguistX входят модули разбиения, выделения основы слов, морфологического анализа, идентификации, морфологической генерации, реферирования и языковой идентификации.
Модуль разбиения делит документы на отдельные предложения и слова. Есть языки, в частности английский, грамматика которых позволяет довольно просто производить подобный разбор. А вот в японском, к примеру, отдельные слова даже не разделены пробелами - так что тут нужны весьма и весьма изощренные средства. Модуль выделения основы слов идентифицирует все возможные формы слов, повышая эффективность полнотекстового поиска. LinguistX генерирует только лингвистически корректные формы. Морфологический анализ позволяет определить все грамматические формы слова, например установить является ли оно глаголом, существительным или прилагательным. Модуль идентификации дает возможность уточнить значение слова в зависимости от того, какой частью речи оно является. Это характерно, к примеру, для английского языка. Модуль морфологической генерации наделяет приложения необходимыми лингвистическими "знаниями", позволяющими расширить ограниченный словарь для автоматической генерации фраз. Модуль реферирования обогащает приложения дополнительными возможностями анализа документов. LinguistX Summarizer автоматически в режиме реального времени анализирует содержание документов, определяет ключевые слова и основные фразы, на основании которых генерирует либо резюме, либо список ключевых слов. Средства языковой идентификации позволяют установить, на каком языке написан документ.
Все эти возможности могут найти применение в приложениях, выполняющих ту или иную обработку текста, таких как средства полнотекстового поиска, автоматические средства реферирования, средства сопоставления слов методами нечеткой логики и ввода текстов на естественном языке.
Полнотекстовые индексы могут разрастаться до весьма больших размеров, так что управлять ими становится дорого. Сжатие уникальных слов индекса за счет хранения только основных форм позволяет сократить его объем до 40%. Кроме того, можно воспользоваться модулем идентификации и ограничиться хранением только существительных, а также отбросить все слова на других языках при помощи средств языковой идентификации LinguistX.
Возможности автоматического реферирования особенно важны в случае активного использования электронной почты.
Функции морфологического анализа LinguistX могут оказаться как нельзя более кстати для автоматической проверки орфографии и грамматики. С одной стороны, они подтверждают, что наличие данных слов в определенном языке не исключено, с другой - позволяют подставить на место неправильно подобранного слова подходящее по смыслу.
Безусловно, подобные средства приобретают решающее значение для поддержки рукописного ввода, который грешит столь свойственными человеку ошибками и описками. LinguistX создает основу для того, чтобы привнести в приложение возможности интерфейса, основанного на понимании того, что говорит пользователь.
Коротко о продукте
Inxight LinguistX
Продукт LinguistX компании Inxight Software представляет собой набор усовершенствованных средств обработки естественного языка, в числе которых средства автоматического реферирования, извлечения информации и морфологического анализа, способные значительно улучшить работу с текстами приложений: от поисковых механизмов до средств распознавания рукописного текста.