Обыкновенное чудо видеокоммуникаций

не только нужную текстовую информацию, но и картинку, видеосюжет или музыкальную запись становятся серьезные проблемы поиска и извлечения таких данных.

Интерес к цифровым мультимедийным данным увеличивается пропорционально росту их объемов, находящихся в пользовании у профессионалов и частных лиц. Исследование, проведенное сотрудниками Университета Беркли, показало, что еще в 2002 году телевизионные станции по всем миру выпустили около 123 млн. часов телепрограмм, из них 31 млн. новой продукции, что было эквивалентно 70 тыс. Тбайт данных, причем исследование не учитывало съемки, сделанные любительскими камерами и камерами слежения. Можно предположить, как выросли эти показатели на сегодняшний день. Все это вызвало серьезные проблемы с поиском и извлечением мультимедийных данных.

Видеоролики не имеют структуры текстового или графического документа, позволяющей выделять определенные элементы (предложения и абзацы или углы, окружности и границы) и на этой основе проводить индексацию, что усложняет решение задачи поиска. Большинство существующих на данный момент механизмов поиска мультимедийной информации в реальности не анализируют содержимое видеофайлов, а используют текстовые аннотации к ним, составляемые вручную. Процесс такого аннотирования требует очень много времени и, следовательно, больших материальных затрат и, как правило, довольно субъективен, что приводит к появлению неполных и несогласованных текстовых описаний, которые далеко не всегда адекватно отражают реальное содержание видеофайлов.

В исследовательском подразделении IBM Watson Research Center предлагают свое решение этой проблемы. Программная система анализа и выборки мультимедиа MARVEL (Multimedia Analysis and Retrieval System, в переводе с английского — «чудо») автоматизирует процесс аннотирования на базе методов машинного самообучения и предоставляет высокопроизводительные средства поиска мультимедийных данных.

Проект MARVEL

Принципиальное отличие неструктурированной информации от структурированной в части поиска состоит в том, что ее необходимо сначала проанализировать — вычленить в ней ключевые объекты и зависимости между ними, по которым в дальнейшем можно будет индексировать и организовывать эту информацию и осуществлять поиск. Система MARVEL включает в себя два решения.

Средство анализа мультимедиа (multimedia analysis engine) автоматически выявляет различные элементы аудио-, речевого и визуального контента и применяет методы машинного самообучения (machine learning) для моделирования на базе этих элементов семантических концепций; автоматически маркирует новые видеоданные и создает онтологии семантических классов на основе взаимозависимостей между концепциями для повышения скорости аннотирования.
Средство поиска и выборки мультимедиа (multimedia retrieval engine) интегрирует семантический поиск с другими методами поиска в видеофайлах (на базе распознавания речи, по тексту, по метаданным, по аудиовизуальным признакам и т.д.), а также комбинирует возможности поиска по контенту, на основе моделей и по тексту.

Анализ

По данным исследователей из IBM, аннотирование мультимедийного контента вручную обычно занимает в десять раз больше времени, чем длительность самого видеоролика. Средствами MARVEL для аннотации вручную остается 1-5% видеоданных. По автоматически маркированным учебным данным система, применяя методы статистического моделирования, строит семантические модели, которые будут автоматически распознаваться в других данных и по которым будут формироваться аннотации для них (рис. 1). При этом программное обеспечение способно адаптироваться к ошибкам в аннотациях. Такой процесс позволяет повысить скорость и снизить затраты на аннотирование.

Современные средства анализа мультимедийного контента способны выделять и классифицировать различные простейшие признаки видеообъекта, такие как цвет, фактура, форма, движение, но, как правило, не дают возможности описать осмысленную семантику объектов, сцен и событий. Особенностью подхода, реализованного в MARVEL, является то, что система способна распознавать такую семантику, идентифицируя не только цвета, фактуру и геометрические формы объекта, но и контекст, в котором появляется объект. Например, аналитический механизм определит на кадре летящий самолет не только по характерным формам объекта, но и в соответствии с тем фактом, что объект находится не в помещении, определив это, например, по такому признаку, как облака. Таким образом, для аннотирования видеосюжетов MARVEL не просто выделяет множество различных признаков, но определяет корреляцию и зависимости между ними, выявляя тем самым семантические концепции. Это повышает качество аннотации и расширяет возможности для поиска.

Аналитический механизм системы объединяет анализ визуальных, аудио и текстовых компонентов видеосюжета для его автоматического аннотирования. Для моделирования семантических концепций MARVEL использует визуальные признаки (форма, движение, фактура, цвет) вместе с текстовой информацией, такой как речь за кадром, титры, перевод (рис. 2). Семантические концепции также снабжаются оценками достоверности (confidence score). По обучающим примерам строится библиотека семантических моделей. Для задания метаданных всех уровней, от визуальных признаков до описания семантики, MARVEL использует XML-стандарт MPEG-7. Участие человека в процессе аннотирования предполагается только на этапе самообучения системы. Когда по небольшому количеству учебных примеров построены и утверждены модели, они будут автоматически применяться к любым масштабным репозитариям немаркированных видеоданных.

В начале работы над исследовательским проектом MARVEL были достигнуты весьма скромные результаты моделирования пяти-шести семантических классов изображений путем сопоставления визуальных признаков типа: «в помещении», «на открытом воздухе», «натуральный», «искусственный». Однако довольно быстро пришло понимание, что если дополнить анализ видеоданных выявлением различных характеристик в сопутствующих каналах информации — тексте и звуке, то количество определяемых семантических классов видеоконтента можно существенно увеличить. Для получения осмысленных результатов на базе такого мультимодального анализа были применены специальные методы сложного статистического моделирования. Одним из впечатляющих успехов на этом этапе проекта стало аннотирование видеоклипов запуска ракеты. При поиске только по видеопризнакам система наряду с сюжетами о ракетах находила кадры с изображением неба, самолетов, вертолетов и тому подобное, а результатом поиска только по звуковым характеристикам стали клипы с ракетами и шумом толпы. Объединение видео и аудиопризнаков позволило обеспечить 90-процентную точность результатов поиска.

Использование мультимодального анализа и поиска позволило расширить «словарь» семантических концепций до сотни распознаваемых характеристик, обеспечив базу для более точного и производительного аннотирования и последующей выборки видео?информации. Следующим этапом совершенствования системы стало присвоение концепциям оценок достоверности и применение метода искусственного интеллекта, известного под названием модельного вектора (model vector), в соответствии с которым компьютер учится выявлять определенные признаки данных по контексту, то есть наличию других признаков. Например, если система в процессе аннотирования видеоклипа выявила такие концепции, как «небо», «вода», «песок» и «люди», то она сможет автоматически поставить высокую оценку достоверности семантическому классу «пляж».

Производительность определения семантических концепций в MARVEL оценивается на тестах TREC Video Retrieval Evaluation (TRECVID). Появлению испытаний TRECVID (www-nlpir.nist.gov/projects/trecvid/) предшествовало создание в 2001-2002 годах специальных видеотреков для тестирования результатов исследований по автоматизированной сегментации, индексированию и выборке цифрового видео. Эти тесты проходили в рамках серии конференций TREC, которые спонсирует Национальный институт стандартов и технологий (National Institute of Standards and Technology, NIST) и ряд других правительственных агентств США. Задача TREC — поддержка научных исследований в области поиска информации, для чего предоставляется инфраструктура проведения масштабных испытаний, серии тестов, моделирующих ситуации реального мира, единые процедуры оценки, а также форум для обмена идеями и обсуждения исследовательских методологий. С 2003 года тесты TRECVID проводятся независимо и сопровождаются двухдневным семинаром, непосредственно предшествующим конференции TREC.

TRECVID включает в себя четыре основные задачи: определение границ кадра, сегментация видео?сюжета, выделение высокоуровневых визуальных признаков и семантических концепций и поиск. В 2003-2004 годах система MARVEL на этих тестах, включавших 170 часов трансляции новостных каналов CNN, ABC и некоторых других продемонстрировала наивысшие показатели производительности выявления семантических концепций. В процессе испытаний система выполнила автоматическую маркировку около тысячи видеоклипов для каждой из заданного набора семантических концепций, среди которых были такие как «люди», «здания», «животные», «в помещении», «дорога», «спортивные события», «новости о погоде» и т.д.

Тесты TRECVID предлагают для испытаний порядка 10-20 семантических концепций, однако для перевода статуса системы из исследовательского проекта в технологию, готовую для промышленной эксплуатации, она должна выявлять не менее тысячи семантических концепций. Для достижения этого порога в IBM Research в 2005 году реализовали совместный проект с ведущими телекомпаниями и крупными библиотеками по формированию семантической онтологии для теленовостей. По замыслу создателей эта онтология должна послужить образцом для аналогичных проектов в других областях, например, для аннотирования видеосюжетов о спорте, развлечениях, музыке и т.д.

Поиск

Мультимодальный анализ и аннотирование видеосюжетов — основа для реализации поиска в видеоданных по различным признакам, включая простейшие характеристики объектов на видео и более сложную семантику, то есть контекст появления таких объектов. Средство поиска и выборки мультимедиа объединяет три метода поиска в мультимедийных данных: по описанию признаков, по концептуальным моделям и по тексту, благодаря чему пользователь может добиться точных результатов поиска. Например, если вам надо найти «эпизоды на открытом воздухе с изображением садов», то вы можете задать в качестве параметров поиска концепции типа «на открытом воздухе», «ландшафт» и т.д. или пример изображения, которое вы хотите получить, а можете объединить ту и другую информацию.

Система предоставляет пользователям возможность формировать запросы для поиска в репозитарии мультимедийных данных несколькими способами: по признакам — путем выбора примеров видеокадров; по тексту — составляя текстовые запросы; по семантике — составляя текстовые запросы или выбирая из списка ключевых слов; по моделям — выбирая из списка ключевых слов. Разница между двумя последними способами состоит в том, что в поиске на базе моделей для ранжирования и объединения результатов будут использоваться оценки достоверности, заданные в семантических моделях. В каждом из методов поиска система проводит сопоставление данных запроса с соответствующими метаданными видеосюжета, оформленными по стандарту MPEG-7: описаниями признаков видеообъектов, текстовыми аннотациями или схемами классификации семантики.

Перспективы

Впервые система MARVEL была представлена на конференции в Кембридже в августе 2004 года, затем демонстрировалась на CeBIT 2006. Хотя и в публичных показах, и в описаниях системы пока приводятся только примеры организации, индексации и поиска видеоконтента, проект принципиально нацелен на создание решения для анализа и поиска в масштабных архивах любых мультимедийных данных. Потенциальными пользователями MARVEL являются телерадиовещательные компании и библиотеки, которым система должна помочь упорядочить сколь угодно большие мультимедиа-репозитарии, автоматизировать и ускорить поиск. Впрочем, учитывая, что система организована как Web-приложение, можно надеяться, что с ее помощью любой пользователь Internet сможет найти в Сети нужные ему мультимедийные образы. Однако, хотя цель построить семантические онтологии из тысячи концепций (по утверждению разработчиков, это пороговое значение для перехода к эксплуатации решения в реальных условиях) должна была быть достигнута еще год назад, пока нет никакой информации о возможности промышленного выпуска MARVEL. Еще в 2004 году разработчики отмечали, что до появления полнофункциональной поисковой машины на базе созданных технологий должно пройти не менее трех-пяти лет.

Стандарты для мультимедиа

В системах управления мультимедийным контентом, в том числе в поисковых машинах, существенную роль играют метаданные, которые описывают различные аспекты мультимедиа, например, основные темы видеосюжетов и аудиозаписей, их авторов, язык, события, эпизоды, права доступа и распространения и т.д. Для эффективной разработки таких систем и обеспечения их широкой применимости в различных областях, а также совместимости с другими аналогичными инструментами ключевую роль играют стандарты метаданных. Сегодня таким стандартом являются основанные на XML спецификации описания метаданных для мультимедиа MPEG-7.

MPEG-7 определяет ряд средств описания видеоконтента, которые используются в системе MARVEL, в том числе средства описания видеосегментов, текстовых аннотаций и перевода, характеристик видеообъектов (цвет, фактура, движение и т.д.) и семантики эпизодов (люди, события, окружающая среда и т.д.). На базе MPEG-7 могут быть построены приложения различных типов, включая системы поиска в мультимедийных базах данных, системы фильтрации мультимедийного контента, а также универсальные средства доступа к мультимедиа, с помощью которых пользователь сможет, например, организовать ту или иную группу видеосюжетов для включения в персональную презентацию с учетом своих задач, возможностей своего ПК и т.д.

Стандарт MPEG-7 — одна из последних разработок комитета Moving Picture Experts Group (MPEG) международной организации по стандартизации ISO. Комитет является автором ряда широко известных в мире мультимедиа спецификаций, определяющих технологии сжатия, декомпрессии, обработки и кодирования аудио и видеоинформации в цифровом виде. В 1992 году был принят первый стандарт серии MPEG, MPEG-1, предназначенный для записи видеоизображений и звука на компакт-диски. Стандарт определяет кодирование видео на цифровой носитель со скоростью 1,15 Мбит/с и качеством, сравнимым с качеством обычных VHS-записей, и несколько уровней сжатия стереозвука. На базе этого стандарта реализована, в частности, технология VideoCD для размещения видеофильма на двух компакт-дисках. Аудиокомпонент MPEG-1 Audio Layer III, более известный как MP3, совершил настоящую революцию в мире потребительской звукозаписи.

Стандарт MPEG-2, ратифицированный в 1994 году, обеспечивает технологии обработки изображения и звука для передачи по телевизионным каналам и для хранения больших объемов видеоматериала на цифровых носителях. Стандарт «кодирования аудио-визуальных объектов» MPEG-4, работа над основной частью которого завершена в 1998 году, предусматривает обработку отдельных видео- и аудиообъектов, например, фона, подвижных объектов на экране, текста или звука. Этот стандарт нашел применение в различных интерактивных мультимедийных приложениях, в том числе распространяемых через Internet, а также в мобильных коммуникациях нового поколения и цифровом телевидении.

В отличие от своих предшественников, используемый в системе IBM MARVEL стандарт MPEG-7 (его официальное название — Multimedia Content Description Interface) описывает представление не самих видео- и аудиоданных, а информации об этих данных, то есть метаданных. Сейчас экспертная группа MPEG ведет работу над стандартом MPEG-21 (Multimedia Framework), дающий общее представление универсальной среды, в которой различные категории пользователей разных приложений смогут работать с мультимедийным контентом любых типов. В портфеле MPEG имеется еще несколько перспективных разработок: стандарт MPEG-A (Multimedia Application Format) для интеграции различных решений на базе MPEG; специализированные стандарты MPEG-B, MPEG-C и MPEG-D для обработки системной, видео и аудиоинформации соответственно; стандарт MPEG-E (MPEG Multimedia Middleware, M3W), описывающий механизмы поддержки загрузки и выполнения мультимедийных приложений.

Говоря о важности стандартов для эффективной работы с мультимедийной информацией, необходимо упомянуть еще одну разработку, которая ведется в исследовательских лабораториях IBM Research. Проект UIMA (Unstructured Information Management Architecture) направлен на создание открытой платформы, которая предоставит базовые механизмы для реализации и интеграции средств анализа и поиска неструктурированной информации. IBM планирует в ближайшее время обнародовать коды реализации этой технологии, рассчитывая стимулировать объединение усилий индустрии и академического сообщества на создание эффективных инструментов работы с неструктурированными данными. UIMA уже поддерживают ряд нишевых компаний, специализирующихся на системах доступа к информации (среди них ClearForest, Endeca, Factiva, Inquira и др.), а также DARPA и университет Карнеги-Меллона. Технологии UIMA лежат в основе системы корпоративного поиска WebSphere Information Integrator OmniFind. MARVEL также опирается на базовые средства UIMA, а механизм поиска в метаданных MARVEL использует OmniFind.