Sensaura - темная лошадка | Мир ПК | Издательство «Открытые системы»

Некоторое время назад мы были свидетелями грандиозной «битвы» между компаниями Creative и Aureal за право назвать свой стандарт позиционирования 3D-звука лучшим, да и пользователи сломали немало копий в спорах о том, чьи разработки совершеннее. Победила, как известно, Creative, которая продолжает выпускать новые версии своего продукта, а Aureal обанкротилась и подлежит продаже.

На первый взгляд, в сфере 3D-звука наступил полный штиль, но есть производители, которые с такой картиной не согласны. И один из них — английская компания Sensaura.
Sensaura уже больше 10 лет разрабатывает технологии позиционирования звука в трехмерном пространстве. На сегодняшний день она может похвастаться тем, что ее главное детище — технологию Sensaura 3DPA (3D Positional Audio) — лицензировали три из четырех основных игроков на рынке 3D-звука — ESS, Yamaha и Cirrus Logic. Кроме того, партнерами англичан являются компании ADI, C-Media, и nVidia. На долю этих производителей приходится примерно 80% всего рынка звуковых аппаратных средств для ПК. Уже выпущено более 10 наборов звуковых микросхем и 20 аудиоплат, поддерживающих новую технологию. Ниже мы рассмотрим составные части этой технологии и ее отличие от других.

Что слышит виртуальное ухо?

Самые распространенные приложения, в которых требуется трехмерное позиционирование звука, — это конечно же игры. Но круг задач, в которых необходимо реализовать эффект окружающего со всех сторон звука посредством двух колонок или наушников, постоянно растет.

Для того чтобы пользователь смог воспринять именно 3D-звук, монофонические аудиосигналы обрабатываются одним или несколькими фильтрами HRTF (Head Related Transfer Functions — фильтры, накладываемые на звуковые потоки для позиционирования их в пространстве).

Если производимый компьютером 3D-звук подобен реальному, это означает, что фильтры HRTF, использованные при создании аудио, учитывают личные физиологические особенности слушателя. Зачастую для HRTF-измерений используется модель головы с резиновыми ушами среднестатистического взрослого человека. Однако очевидно, что одни и те же параметры не подходят для пятилетней девочки и взрослого мужчины. Поэтому для «нестандартных» пользователей 3D-звук будет синтезирован пространственно и тонально некорректно.

Технологию Virtual Ear — часть технологии 3DPA — Sensaura разработала, чтобы обеспечить удобное прослушивание 3D-звука максимально широкому кругу пользователей. За основу была взята библиотека HRTF-фильтров, учитывающих восприятие звука большим количеством людей. Эти данные обработали дуплексной системой, для того чтобы они соответствовали максимально широкому кругу размеров и форм голов и ушей. Полученные в результате библиотеки HRTF-фильтров (так называемые «виртуальные уши») позволяют пользователям максимально точно настроить звучание 3D-звука в соответствии со своими особенностями.

Особенно важно, что технология Virtual Ear устанавливает параметры ушей и головы независимо друг от друга. Поэтому можно задать параметры большого количества физиологических сочетаний, из которых слушатель сможет выбрать необходимое. Технология использует скорее математические, чем физические, методы моделирования, поэтому у разработчиков нет необходимости в построении большого числа физических моделей и произведении множества измерений. Методы получения HRTF-фильтров могут быть легко изменены и скорректированы, вдобавок эта технология имеет более высокую точность и гибкость настройки, все полученные результаты однородны и свободны от физических ошибок, вносимых в процессе моделирования и измерения.

MacroFX — ближний эффект

Эффект нахождения источника звука на расстоянии средней величины (от 1 до 5 м) или на большом удалении (более 5 м) может быть создан относительно легко, в частности путем добавления реверберации (реверберация — это процесс постепенного затухания звука в закрытых помещениях после выключения его источника) к основному сигналу. Эта операция имитирует множественные отражения звука от стен и потолка помещения. Вырезание высокочастотных компонентов сигнала также создает эффект удаленного источника, воспроизводя поглощение высоких частот воздухом, но это более тонкое явление. В целом достижение эффекта нахождения звукового источника на расстоянии нескольких метров не представляет никаких трудностей.

Но во многих игровых ситуациях было бы желательно воссоздать эффект нахождения источника звука на расстоянии до 1 м (в ближнем поле), чтобы возникало впечатление, будто звук оторвался от колонок и вплотную приблизился к голове или даже звучит непосредственно в ухе слушателя. Например, в ролевых играх может потребоваться, чтобы гид нашептал подсказку пользователю, а в авиаимитаторах будет нелишним эффект прослушивания переговоров других пилотов, словно на играющем надеты наушники. Кроме того, в играх типа Quake желательно воссоздание эффектов свиста пуль и снарядов, пролетающих в непосредственной близости от головы. К сожалению, все это невозможно при использовании обычных HRTF-фильтров.

Одним из способов создания эффекта звучания в ближнем поле может быть следующий: произвести набор HRTF-измерений на расстоянии 1 м, 0,9 м, 0,8 м и т. д., а потом переключаться между этими библиотеками. Но подобные измерения некорректны, поскольку на таких расстояниях источник звукового сигнала нельзя считать точечным, к тому же для хранения дополнительных HRTF-фильтров потребуется больше памяти. Вдобавок звук будет изменяться не плавно, а скачкообразно (при переключениях между различными HRTF-наборами). Самым желательным вариантом было бы применение единственного HRTF-фильтра для создания эффекта нахождения источника как в ближнем, так и в дальнем поле.

Именно такой алгоритм и разработала компания Sensaura. Он основан на точном моделировании распределения звука в трехмерном пространстве вокруг головы пользователя и специальной обработке этих данных после HRTF-формирования звуковых потоков. Данный алгоритм вносит соответствующие поправки в распределение звука по левому и правому каналам, чтобы источник звука был расположен на нужном расстоянии.

В стандарте позиционирования 3D-звука DirectSound3D (DirectSound3D — это часть функций интерфейса DirectSound, служащих для создания позиционируемого в трехмерном пространстве звука) предусмотрены три зоны: внешняя, дальнее поле и ближнее поле. В самой удаленной внешней зоне источники звука имеют постоянную интенсивность. В дальнем поле громкость источника изменяется по функции 1/Rn, где R — расстояние от слушателя. В ближнем поле интенсивность звукового сигнала постоянна и не зависит от расстояния до головы пользователя. Это сделано для того, чтобы, с одной стороны, уровень громкости не превысил допустимые границы и, с другой, чтобы уменьшить нагрузку на систему.

Технология MacroFX позиционирует звук не в трех, а в шести зонах. Во внешней зоне и дальнем поле звучание такое же, как при использовании DirectSound3D. Ближнее охватывает круг радиусом 1 м, в центре которого находится слушатель.

Но в зоне с радиусом 0,2 м начинает работать технология MacroFX. Этот круг разделяется на три участка: правое ухо, левое ухо, зона внутри головы.

MacroFX позволяет создавать следующее эффекты:

шепот в ухо;
свист ветра в ушах (при беге, катании на лыжах, падении с большой высоты);
переговоры в наушниках;
звук от близко пролетающих объектов (пуль, снарядов, птиц, насекомых).

Звуковые зоны, определяемые стандартом DirectX: зона 1 — дальнее поле, где интенсивность звука обратно пропорциональна расстоянию, зона 2 — ближнее поле, где громкость звука постоянна (внешняя зона не показана)

Звуковые зоны, определяемые технологией MacroFX: зона 1 — дальнее поле, где интенсивность звука обратно пропорциональна расстоянию; NF-FX (зона 2) — зона эффектов ближнего поля; зона 3 — область левого уха; зона 4 — область правого уха; зона 5 — область внутри головы (внешняя зона не показана)

ZoomFX — звуковое увеличение

В современных стандартах позиционирования 3D-аудио каждый виртуальный источник звука создается и представляется так, как если бы он был точечным. Виртуальные звуковые источники могут имитировать разные объекты, скажем, говорящего человека, вертолет, водопад. И если рот собеседника вполне логично представить точечным источником, то последние два примера — вряд ли.

С помощью технологии ZoomFX, еще одной части технологии Sensaura, большие производящие звук объекты разбиваются на несколько вторичных звуковых источников (в случае вертолета это лопасти, турбина и т. д.), находящихся на определенном расстоянии друг от друга, что создает намного более реалистичное звучание. При приближении объекта их число будет возрастать, при удалении — уменьшаться, пока на большом расстоянии источник не станет точечным.

Может возникнуть вопрос: почему бы не использовать протяженные объекты для определения параметров отдельных HRTF-фильтров, если это именно тот результат, который необходим? Но дело в том, что при использовании больших колонок результаты HRTF-измерений получаются громоздкими и неточными, а полученные амплитудные характеристики оказываются усредненными суммами по всем амплитудам. Кроме того, становится невозможным точно измерить разницу во времени, с которой левое и правое ухо получают сигнал от одного источника, а это одна из важнейших характеристик HRTF-фильтра. Таким образом, результаты не могут использоваться для создания хорошо различимых звуковых источников.

Кроме игр, основы технологии ZoomFX применяются для улучшения прослушивания звукового материала посредством наушников. Основные приложения — стандартный стереозвук, технологии Dolby Pro-Logic, Dolby Digital.

Расположение звуковых источников на реальном вертолете

EnvironmentFX — их ответ EAX

Не только звуки сами по себе, но и окружающая обстановка дает слушателю информацию о расположении источников звука. Например, если игрок приближается к повороту в длинном каменном туннеле, он должен слышать шаги стражника, расхаживающего за углом. Но эхо дает понять, что охранник еще далеко, позже при его приближении звуки шагов выплывают из гулкого шума — значит, пора выбегать и действовать!

Используя запатентованный и легко настраиваемый алгоритм создания эффекта отражения звука, технология Sensaura EnvironmentFX позволяет моделировать акустику самых различных помещений. Цель, которую ставили перед собой разработчики, — погружение пользователя в захватывающую, динамично изменяющуюся аудиосреду.

Эта новая разработка имеет ряд преимуществ перед конкурирующими технологиями:

EnvironmentFX индивидуально располагает в пространстве отраженные от стен сигналы, в то время как другие алгоритмы реверберации позиционируют их в то место, где находится слушатель;
значения задержек и фильтр, входящие в состав алгоритмов EnvironmentFX, могут динамически изменяться, обеспечивая тем самым плавное изменение звучания при переходе между помещениями с разной акустикой;
EnvironmentFX использует динамически изменяющиеся коэффициенты усиления, чтобы управлять эффектом реверберации каждого отдельного источника звука;
EnvironmentFX дает качественный результат при прослушивании через две колонки;
применение EnvironmentFX вместе с технологией Sensaura MultiDrive усиливает эффект погружения в аудиосреду.

Характеристики отраженного звука, которые воспринимает слушатель, обеспечивают его информацией не только о расположении аудиоисточников в пространстве, но и об акустических свойствах самого помещения. Для погружения слушателя в аудиосреду технология EnvironmentFX использует множество параметров.

График зависимости громкости звука от времени при использовании технологии EnvironmentFX

Прежде всего, это соотношение громкостей прямого и отраженного звуков. Громкость прямого звука от аудиоисточника возрастает по мере его приближения и уменьшается при удалении. Но уровень реверберации остается постоянным независимо от расстояния между источником и слушателем. Отношение этих двух величин снабжает пользователя важной информацией о мере удаления источника сигнала.

Кроме того, учитываются размеры помещения. В небольшом помещении, например маленькой каморке, отражения звуковых волн происходят очень часто и быстро переходят в реверберацию. Но в самолетном ангаре звук должен преодолеть значительное расстояние, прежде чем произойдет его столкновение с преградой (стенкой, потолком). Благодаря этому слушатель вначале отчетливо воспринимает ранние отражения, которые значительно разнесены по времени и только через определенный интервал переходят в реверберацию.

Не менее важно вырезать высокие частоты, поскольку большинство веществ поглощает звуковые сигналы, если их частота превышает определенную величину.

Более того, принимается в расчет уровень ранних отражений, снабжающих слушателя информацией, насколько близко расположены стены и другие объекты. Чем больше отражающих звук поверхностей находится около пользователя, тем выше будет процент ранних отражений. Например, близкая кирпичная стена, в которую упирается аллея, производит много отражений, тогда как покрытое травой поле — ни одного.

Задается также уровень реверберации (который в помещениях с разной акустикой сильно изменяется) и время ее затухания. Так, в самолетном ангаре со множеством отражающих поверхностей время, за которое стены и воздух полностью поглотят звук, составит примерно 10 с, тогда как в маленькой комнате с хорошим поглощением звука затухание реверберации произойдет всего за 0,2 с.

Помимо этого, контролируется время затухания высокочастотных сигналов, которое отличается от времени затухания низких частот и сильно зависит от материалов, использованных для создания помещения. Например, бетон и мрамор хорошо отражают высокие частоты, тогда как под водой или в обитых войлоком комнатах подобные сигналы быстро затухают.

Наконец, регулируется плотность отражений, сильно зависящая от количества отражающих поверхностей. Очевидно, что по этому показателю замкнутое помещение значительно отличается от открытого пространства.

MultiDrive — мощь нескольких колонок

Одной из трудностей, с которыми сталкиваются разработчики акустических систем для воспроизведения реалистичного звука, является так называемый эффект Хааса. Суть его в том, что если несколько подобных друг другу фрагментов аудиоинформации достигают слуха пользователя в различные моменты времени, то мозг для определения источника звука использует только первый фрагмент. И все последующие звуковые пакеты для слушателя будут исходить из первоначально определенного места. Например, если несколько колонок, находящихся в комнате, проигрывают музыку на одной и той же громкости, то человеку будет казаться, что весь звук исходит из ближайшей колонки, а все остальные просто молчат. Этот эффект настолько силен, что даже если интенсивность более удаленного источника на 8 дБ превышает мощность ближайшего, мозг все равно будет использовать первый сигнал для определения местоположения источника. Эффект Хааса объясняется тем, что для мозга информация о времени прибытия сигнала намного важнее параметров его интенсивности (следствие эволюции и борьбы за выживание).

В результате так называемое sweet spot (буквально «теплое место», а на самом деле — область между колонками, в которой должна находиться голова слушателя для наилучшего восприятия им эффектов позиционирования) акустических систем имеет маленькие размеры. Когда слушатель сидит немного ближе к одному из динамиков, то для него источники звука, которые должны находиться строго посередине, значительно сдвинуты в сторону ближайшей колонки. Если рассмотреть систему из четырех колонок, то ее «теплое место» будет еще более ограничено, поскольку оно сжато по двум направлениям: боковому и оси фронт—тыл. По сути, оно является пересечением фронтальной и латеральной «теплых» зон.

Технология MultiDrive, которая является частью Sensaura 3DPA, совместима с протоколом DirectSound3D и гарантирует улучшенное позиционирование тыловых источников звука. Этот эффект достигается путем совмещения звуковых полей, производимых передней и задней парами колонок. Тыловая звуковая полусфера обеспечивает более четкое 3D-звучание, особенно при синтезе высокочастотных сигналов.

Недостаток технологии MultiDrive — необходимость четко позиционировать все четыре колонки. Обычно азимут передних колонок равен ?30? (а задних, соответственно, ?150?), хотя эти параметры заданы не жестко и при изменении программных настроек могут быть модифицированы. Громкость всех излучателей должна быть одинаковой. Подобная расстановка громкоговорителей позволяет увеличить размеры «теплого места».

Итак, преимущества использования технологии MultiDrive заключаются в следующем:

улучшенное произведение тыловых эффектов;
увеличение размеров «теплого места»;
обеспечение эффекта плавного передвижения аудиоисточников;
совместимость с технологией MacroFX.

Грядет ли новая «битва»?

Одна из самых важных особенностей технологии Sensaura заключается в том, что она не является новым прикладным программным интерфейсом (API). Sensaura, подобно EAX компании Creative, является расширением стандарта DirectSound3D.

Как известно, если ускоритель 3D-звука поддерживает какую-либо отсутствующую в DirectSound3D функцию, то ее можно сделать доступной, написав для нее расширение. Следовательно, современные звуковые платы поддерживают основные функции DirectSound3D и свои уникальные функции через расширения.

Технологии ZoomFX, MultiDrive, EnvironmentFX — расширения протокола DirectSound3D. Кроме того, EnvironmentFX совместима с EAX, а MacroFX работает прозрачно для стандарта Microsoft. Стоит отметить, что последние драйверы плат, использующих технологию Sensaura, поддерживают новый протокол I3DL2 (развитие DirectSound3D определяет минимальный набор функций для любого ускорителя 3D-звука). Таким образом, Sensaura — это не новый стандарт, а расширение уже существующего, поэтому новой «битвы» протоколов не будет. Мы станем свидетелями борьбы за внесение расширений Sensaura в новый стандарт I3DL2.

На сегодняшний день самым большим недостатком новой технологии является ее относительно слабая поддержка со стороны разработчиков мультимедиа-приложений — пока есть только специально созданные демонстрационные программы. Но число проданных устройств, поддерживающих Sensaura, уже превысило 30 млн., что не может остаться незамеченным компьютерной индустрией. Хочется провести аналогию с блоком геометрических вычислений T&L компании nVidia: сначала тоже были только программы, демонстрирующие возможности новой разработки, а теперь это одно из основных направлений развития 3D-графики. Поэтому вполне возможно, что следующая звуковая плата в наших ПК будет не понаслышке знакома с Sensaura.

Как это работает?

Безусловно, существует довольно сложная зависимость характеристик HRTF-фильтров от большого набора взаимосвязанных явлений. В том числе и от индивидуальных особенностей людей. Возникает вопрос: как создать большую библиотеку HRTF-фильтров, из которых пользователь выберет нужный, если не путем измерения множества реальных HRTF-фильтров добровольцев с последующим разделением их по группам?

Дело в том, что сложные резонансные и дифракционные эффекты, которые создаются HRTF-фильтрами, новая технология Sensaura позволяет изменять независимо друг от друга.

Особенности восприятия 3D-звука основываются на физиологических параметрах головы и ушей каждого пользователя. В приближенном виде эта связь может быть выражена следующим образом:

от размера головы зависит временной интервал, через который уши получают сигнал от одного источника;
от размера уха — широта принимаемого спектра;
от глубины ушной раковины — величина спектрального сдвига;
от формы ушной раковины — амплитудные характеристики принимаемого звука.

Эти соотношения формируют базис, на основе которого строится интуитивно понятный, легкий в обращении интерфейс программы установки, помогающий пользователю настроить 3D-звучание под себя.

Протяженный объект или точка?

Излучение звука — сложный процесс. Любой источник звука может быть представлен как непрерывный набор элементарных точечных излучателей, которые производят звуковые сигналы с разными амплитудами и фазами. Если слушатель находится на достаточном расстоянии от источника звука, он воспринимает всего одну сложную звуковую волну, которая является результирующей от сигналов элементарных источников. Что же служит ключевым моментом при решении вопроса: считать ли источник звука точечным или рассматривать его как совокупность нескольких независимых излучателей? Для этого важно значение угла, вершиной которого является голова слушателя, а стороны определяются протяженностью источника звука. Если оно меньше некоторого значения, то источник считается точечным, если больше — протяженным.

При приближении вертолет перестает быть точечным источником, слушатель начинает отдельно воспринимать звук от лопастей, хвостового винта и турбины. Если в компьютерном приложении представить вертолет как точечный источник, то у пользователя не возникнет ощущения, что мимо него пролетает большой летательный аппарат, скорее он воспримет его как маленький игрушечный вертолетик.

А что в будущем?

Несмотря на внушительный перечень параметров, которые учитываются EnvironmentFX при создании 3D-звука, технология продолжает развиваться и вскоре обогатится новыми функциями, чтобы вывести аудиореализм на новый уровень:

препятствие, или обструкция, — применяется, когда на пути звука находится преграда, например каменная колонна (напрямую звук до слушателя не доходит, но его отражения — да);
заграждение, или окклюзия, — когда источник находится в другом, нежели слушатель, помещении, звук заглушается;
более богатый интерфейс контролирования эффектов — изменения отражающей способности материалов, времени затухания ранних отражений и реверберации, плотности отражений, степени диффузии и размеров помещения смогут динамически контролироваться приложением, позволяя пользователю наслаждаться более реалистичной звуковой средой;
фактор Roll-off — приложение будет управлять изменением громкости отраженных сигналов в зависимости от расстояния между каждым источником звука и слушателем.

Две или четыре?

В принципе качественное позиционирование 3D-звука возможно и при использовании двух колонок, так почему нужно использовать четыре? Этому есть несколько причин.

Самое главное, четыре колонки обеспечивают более точное воспроизведение слабых эффектов.

Используя высококачественные HRTF-фильтры, можно создавать впечатляющие эффекты. Например, заставить источник звука двигаться вокруг слушателя в горизонтальной или вертикальной плоскости. Но создавать эффект нахождения источника звука в определенных местах затруднительно. Например, проблематично добиться разницы звучания между источником, который находится непосредственно перед слушателем, и источником, который находится прямо за ним. Это связано с тем, что до обоих ушей сигналы доходят одновременно. Единственное различие заключается в их спектральных характеристиках, поэтому фронтальный сигнал кажется более «сочным», чем тыловой.

Однако с использованием четырех колонок тыловые эффекты можно воспроизводить более точно. Не менее важной для производителей оказывается поддержка пользователей, уже имеющих многоколоночные системы.

Наборы из четырех колонок стоят дороже традиционных стереосистем и доставляют больше трудностей с проводами. Но тем не менее многие ценители хорошей акустики приобретают их для того, чтобы насладиться звучанием альтернативных форматов, таких как Dolby Digital. Однако большинство подобных технологий могут создать только двухмерный окружающий звук (это, конечно же, не касается A3D).