Компания Semio совершенствует механизм категоризации Semio Tagger

Интерактивный ресурс Highwire Press, объединяющий 320 научных журналов Стэнфордского университета, использует ПО Semio для размещения документов в заранее созданных категориях
Компания Semio, специализирующаяся на разработке ПО управления знаниями, представила новую версию своего механизма категоризации и индексирования информационного наполнения, который предназначен для организации эффективного управления очень большими наборами цифровых документов.

«ПО категоризации на базе новой архитектуры, поддерживающее работу на большом числе серверов, способно одновременно индексировать и обрабатывать миллионы документов», — отметил директор Semio по маркетингу Джош Мюгеле. Версия Semio Tagger 5.0 включает в себя специальную систему классификации для выполнения различных бизнес-функций (в частности, для управления кадрами, поддержки продаж и маркетинга). Благодаря ей процедура индексирования информации заметно ускоряется. Компания Semio разработала также шаблоны для вертикальных отраслей (например, для отрасли здравоохранения и правительственных организаций).

ПО получает исходные данные из различных источников: с Web-сайтов, из баз данных и систем управления информационным наполнением. После извлечения ключевых понятий запускается механизм категоризации. Он преобразует данные в формат, который применяется в системе Yahoo и поддерживает каталоги и подкаталоги. Система Semio предусматривает как автоматическое формирование категорий, так и передачу функций настройки классификаторов пользователям.

Поскольку в механизме Semio Tagger применяются теги XML, классифицированную информацию можно хранить в базе данных или других хранилищах, обеспечивающих управление информационным наполнением. Таким образом, клиенты не привязаны к пользовательскому интерфейсу Semio Skyline, созданному на основе браузера, а партнеры Semio, к числу которых относятся владельцы порталов Epicentric, InfoImage и Plumtree, интегрируют поисковые функции в собственные продукты.

Интерактивный ресурс Highwire Press, объединяющий 320 научных журналов Стэнфордского университета, использует программное обеспечение Semio для размещения документов в заранее созданных категориях. Но предоставление информации клиентам осуществляется здесь с помощью средств собственного Web-сайта.

«Рассматриваются две совершенно различные задачи, — пояснил директор Highwire Press Джон Сак. — Первая из них заключается в систематизации, а вторая связана с определением местонахождения документов в этой системе. Первую задачу мы решаем своими силами, а вторую отдаем на откуп Semio».

Представители Highwire Press очень довольны новыми возможностями версии Semio Tagger 5.0, позволяющей добавлять документы в классификационный механизм по мере их поступления. Никаких командных файлов предварительно создавать не требуется.

«Ежедневно мы получаем приблизительно 2 тыс. новых документов, поэтому наиболее важным свойством этой технологии для нас является возможность инкрементального индексирования — последовательного добавления новых документов в уже существующие наборы данных без перестройки системы категоризации», — подчеркнул Сак.

Версия Semio Tagger 5.0 ускоряет выполнение процедуры классификации документов и увеличивает глубину детализации индексирования.