Интерес к контентному анализу связан с развитием лингвистических технологий и высокой востребованностью обработки неформализованной информации не только в бизнес-среде, но и в организациях различного уровня. Компания ИВК разработала и представила ИТ-журналистам программную систему ИВК СОНЕТ (система обработки неформализованных естественных текстов), которая поддерживает автоматизацию процесса сбора и аналитической обработки текстовой информации (классификацию, кластеризацию, контент-анализ, составление тезаурусов, описывающих предметные области). В составе аналитического функционала основную роль играют лингвистическая обработка текстовой информации, в том числе ее морфологический, синтаксический и семантический анализ, а также вероятностная нейросетевая модель представления текста. Вот краткая характеристика аналитической обработки в системе ИВК СОНЕТ.
- Поиск информации внутри текста по сложным критериям. К ним относят поиск по ключевым словам или по вопросам, составляемым по правилам булевой логики; по дате или за какой-либо период; по атрибутам, включающим указание на источник информации, ее автора и рубрику, к которой отнесен текст.
- Классификацию информации, т.е. систематизацию ее по рубрикам с дальнейшим просмотром списка, сформированного из заголовков сообщений, а также полного текста этих сообщений.
- Контент-анализ — создание списка словосочетаний, указывающего на основные проблемные вопросы относительно анализируемого объекта.
Результатом аналитической обработки является поиск нужной информации, ее классификация, контент-анализ и кластеризация.
Выполняемые в ИВК СОНЕТ процедуры делятся на автоматические и интерактивные. К последним относят поиск информации по заданным параметрам, кластеризацию, контент-анализ, отслеживание динамики изменения основных понятий, выявленных в результате контент-анализа, и формирование описаний рубрик (при настройке системы).
Основные компоненты ИВК СОНЕТ включают сервер ПО ИВК СОНЕТ, консолидированную БД, программные модули взаимодействия с источниками информации, средства настройки системы на новую предметную область, браузер, через который пользователь работает.
ПО ИВК СОНЕТ предназначено для широкого круга специалистов (пресс-службы, аналитиков, маркетологов, журналистов и др.). Оно позволяет обрабатывать интенсивный поток входной информации. Среди предметных областей, где эта аналитическая система уже использовалась, разработчики указали судебную систему, организацию спорта, компании нефтяной отрасли, анализ чрезвычайных ситуаций и ряд гуманитарных областей.
В числе аналогичных систем других разработчиков создатели ИВК СОНЕТ называют по комплексу совпадающих функций «Галактику ZOOM», «Аналитический курьер», CONVERA, а по отдельным функциям — RCO (по морфологическому анализу), AOT (по лингвистическому анализу текстов) и «Медиалингва» (по реферированию текстов).
Корпорация IBM также объявила о выпуске нового аналитического программного обеспечения, призванного помочь организациям оперативно консолидировать и анализировать неструктурированную информацию. Комплекс программ IBM OmniFind Analytics Edition является инновационной платформой интеллектуальной обработки контента. Вкупе с другим продуктом, IBM OmniFind Enterprise Edition, он позволяет создавать комплексное решение для семантического поиска информации в защищенном режиме.
Дополнительную информацию можно найти на сайте: www.306.ibm.com/software/data/enterprise-search/omnifind-analytics.