Вы находитесь на странице: 1из 743

Ю. А.

Ковалгин
Э. И. Вологдин

Аудиотехника
Для студентов высших учебных заведений,
обучающихся по направлению 210400 – «Радиотехника»
квалификации (степени) «бакалавр» и квалификации (степени) магистр,
студентов, обучающихся по направлению 210700 –
«Инфокоммуникационные технологии и системы связи»
соответствующих профилей подготовки

Москва
Горячая линия - Телеком
2013
УДК 681.84
ББК 32.871-5
К56

Ковалгин Ю. А., Вологдин Э. И.


К56 Аудиотехника. Учебник для вузов. – М.: Горячая линия –
Телеком, 2013. – 742 с., ил.
ISBN 978-5-9912-0241-1.
Рассмотрены характеристики музыкальных и речевых сигналов;
звуковые системы телевидения, радиовещания, кинематографа, шоу-
бизнеса. Основное внимание в учебнике уделено цифровой звукотехни-
ке, в частности: аналого-цифровому преобразованию аудиосигналов;
статистическим и психоакустическим методам компрессии цифровых
аудиоданных без потерь (энтропийное, арифметическое и субполосное
кодирование, алгоритмы DST и MLP) и с потерями (стандарты MPEG-1,
ISO/IEC 11172-3, MPEG-2 ISO/IEC 13818-3 и ISO/IEC 13918-7, MPEG-4
ISO/IEC 14496-3, MPEG D Surround, а также Dolby AC-3, apt-X100,
ATRAC); частотной, временной и динамической обработке аудиосиг-
налов, методам получения разнообразных звуковых эффектов. В нем
рассмотрены также звуковое оборудование и аппаратно-программные
средства аппаратно-студийных комплексов, концертных залов, студий
звукозаписи; канальное кодирование и цифровые аудиоинтерфейсы;
контроль качества аудиосигналов, систем и устройств.
Для студентов высших учебных заведений, обучающихся по на-
правлению 210400 – «Радиотехника» квалификации (степени) «бака-
лавр» и квалификации (степени) магистр, студентов, обучающихся по
направлению 210700 – «Инфокоммуникационные технологии и системы
связи» соответствующих профилей подготовки. Будет полезна специа-
листам и широкому кругу читателей, интересующихся современными
технологиями телерадиовещания, кинематографа, шоу-бизнеса.
ББК 32.871-5
Адрес издательства в Интернет www.techbook.ru

Учебное издание
Ковалгин Юрий Алексеевич, Вологдин Эдуард Иванович
АУДИОТЕХНИКА
Учебник для вузов
Редактор Ю. Н. Чернышов
Компьютерная верстка Ю. Н. Чернышов
Обложка художника В. Г. Ситникова
Подписано в печать 03.08.2012. Формат 60×88/16. Усл.-печ. л. 46,375.
Тираж 500 экз. (1-й завод 100 экз.) Изд. № 23241.

ISBN 978-5-9912-0241-1 © Ю. А. Ковалгин, Э. И. Вологдин, 2013


© Издательство «Горячая линия – Телеком», 2013
Предисловие

Дисциплина «Аудиотехника» имеет своей целью изучение совокупности средств,


способов и методов формирования, преобразования и воспроизведения аудиосигна-
лов, знакомство с принципами построения звуковой аппаратуры различного назначе-
ния, с основами проектирования и эксплуатации звукового оборудования студийных и
зрелищных предприятий при формировании, демонстрации и тиражирования аудио-
продукции шоу-, радио-, теле- и кинопрограмм.
Задачей данной дисциплины является подготовка студентов в области цифровой
аудиотехники, направленной на изучение:
• характеристик аудиосигналов и связанных с ними особенностей их восприятия;
структур звуковых систем вещания, кинематографа, шоу-бизнеса, форматов сиг-
налов звуковых систем;
• аппаратно-программных средств, предназначенных для формирования, преобра-
зования и обработки аудиосигналов;
• методов кодирования звуковых сигналов, включая помехоустойчивое кодирова-
ние, исправление ошибок, компрессию и форматы цифровых аудиоданных;
• стандартов цифровой звукотехники;
• систем шумоподавления, электронного монтажа и редактирования фонограмм;
звуковых процессоров;
• звукового оборудования радиодомов, телецентров, киностудий, студий звукоза-
писи, видео- и концертных залов;
• звуковых карт мультимедийных комплексов;
• принципов построения электромузыкальных инструментов и их интерфейсов;
• методов контроля и измерения параметров качества звуковой аппаратуры веща-
ния, кинематографа, шоу-бизнеса, особенностей ее эксплуатации.
Содержание учебника «Аудиотехника» соответствует примерной рабочей прог-
рамме одноименного курса специальности 210312 «Аудиовизуальная техника» на-
правления 654200 «Радиотехника». Дисциплина «Аудиотехника» входит в блок спе-
циальных дисциплин федерального компонента специальности 210312.
Данная книга — первая попытка написания учебника по данной дисциплине. За-
метим, что дисциплина «Аудиотехника» является одной из основных, входящих в
блок специальных дисциплин, определяющих подготовку дипломированного специа-
листа по данной области знаний. В учебнике рассматриваются все темы, относящиеся
к различным аспектом применения знаний в области аудиотехники в телевидении, ра-
диовещании, шоу-бизнесе, кинематографе, аудио- и видеосистемах различного назна-
чения. Изучение дисциплины «Аудиотехника» базируется на физико-математической
подготовке студентов, получаемой при изучении курсов «Высшая математика», «Фи-
зика», «Теория электрических цепей», а также на содержательной части таких дис-
циплин, как «Цифровая обработка сигналов», «Акустика», «Зрительно-слуховое вос-
приятие аудиовизуальных программ».
В результате изучения данной дисциплины студенты должен знать:
• основные типы профессиональных звуковых систем, применяемых в радиовеща-
нии, телевидении, кинематографе, шоу-бизнесе, обеспечиваемое ими качество
звучания; методы его оценки;
• характеристики аналоговых и цифровых звуковых сигналов; форматы звуковых
сигналов при их формировании и воспроизведении;
4 Предисловие

• стереофонический эффект, его механизмы и природу;


• методы и устройства кодирования звуковых сигналов; форматы цифровых зву-
ковых сигналов;
• алгоритмы сокращения избыточности звуковых сигналов, включая алгоритмы
группы MPEG и ATSC;
• помехоустойчивое кодирование, методы обнаружения и исправления цифровых
ошибок;
• устройства, аппаратные средства и программное обеспечение для формирования,
обработки и воспроизведения звуковых сигналов;
• принципы построения адаптивных звуковых систем, звуковых процессоров, син-
тезаторов пространственного звучания;
• профессиональное звуковое оборудование радиодомов, телецентров, киностудий,
студий звукозаписи, видео- и концертных залов;
• звуковые карты для мультимедийных комплексов: стандарты, типы и структу-
ры карт, средства обработки звуковых данных, технологические возможности,
области применения;
• методы синтеза звука на основе частотной модуляции, таблицы волн; принци-
пы работы электронных музыкальных инструментов, компьютерные музыкаль-
ные станции, интерфейс MIDI;
• цифровые соединительные шины и интерфейсы;
• международные стандарты в области аудиотехники;
• контроль, измерение параметров и особенности эксплуатации профессиональной
звуковой аппаратуры.
В результате изучения данной дисциплины студенты должны уметь:
• разрабатывать и обосновывать технические задания на проектирование профес-
сиональной звуковой аппаратуры в целом, структурные и принципиальные схемы
входящих в ее состав узлов и блоков;
• обосновывать технические требования и значения параметров качества как от-
дельных узлов и блоков, так и в целом звуковых комплексов различного наз-
начения; выполнять электрические расчеты схем узлов и блоков аппаратуры с
применением современных пакетов прикладных программ;
• проводить имитационное моделирование устройств и блоков профессиональных
аудиоустройств;
• грамотно эксплуатировать профессиональное звуковое оборудование, включая
текущий контроль и оценку его параметров качества.
Студенты должны иметь навыки и опыт работы c:
• пакетами профессиональных программ, позволяющими выполнять расчет, анализ
технических параметров и режимов работы, а также имитационное моделирова-
ние аудиоустройств в целом, их узлов и блоков;
• аппаратно-программными средствами и устройствами, предназначенными для
формирования, обработки, кодирования, декодирования и воспроизведения зву-
ковых сигналов;
• современным аналоговым и цифровым оборудованием радиодомов, телецентров,
кинотеатров, киностудий, предприятий шоу-бизнеса.
Изучение дисциплины «Аудиотехника» требует сочетания лекций с индивидуаль-
ными занятиями расчетного типа, лабораторными занятиями исследовательского ха-
рактера, курсовым проектированием, обеспечивающим развитие практических навы-
ков использования полученных знаний для решения комплексных инженерных задач.
Предисловие 5

Материал книги методически выверен, хорошо структурирован, дает полное пред-


ставление о данной области науки и техники на современном этапе ее развития.
Предисловие, главы 1, 2, 5 (кроме раздела 5.16), 7, 9, разделы 6.13, 6.18, 6.19
написаны Ю.А. Ковалгиным; главы 3, 4 (кроме раздела 4.7), 6 (кроме разделов 6.13,
6.18, 6.19), 8 — Э.И. Вологдиным; разделы 4.7 и 5.16 написаны Г.Г. Рогозинским.
Книга является учебником для студентов, обучающихся по специальности 210312
«Аудиовизуальная техника» направления 654200 «Радиотехника». Она может слу-
жить учебным пособием при подготовке дипломированных специалистов по специа-
льности 210405 «Радиосвязь, радиовещание и телевидение», а также при подготовке
бакалавров, магистров и аспирантов направлений 210400 «Радиотехника» и 210700
«Инфокоммуникационные технологии и системы связи» соответствующих профилей
подготовки. Книга будет полезна также широкому кругу читателей, интересующих-
ся современными технологиями радиовещания, телевидения, кинематографа, шоу-
бизнеса.
1 Аудиосигналы и их характеристики

1.1. Уровни, динамический диапазон и пик-фактор


аудиосигналов
Уровни. К аудиосигналам относят сигналы, создаваемые различными музыкаль-
ными инструментами и человеческим голосом (речь, пение), а также шумовые сиг-
налы, необходимые для звукового сопровождении разных по жанру и стилю художес-
твенных передач (шум в метро; шум поезда, автобуса, ветра, морских волн; пение
птиц и т. п.).
Звуковые сигналы (ЗС) музыкальных инструментов и голосов в своей основной
массе — это случайные нестационарные процессы. Исключения составляют сигналы,
представляющие собой вой сирены, гудок паровоза или машины и т. п. Несомненно,
что среди сигналов, представляющих собой натуральные звучания музыкальных ин-
струментов и голосов, могут встречаться достаточно продолжительные по времени
участки, когда отображающие их временные функции имеют периодический характер.
Звуковые сигналы и характеризующие их электрические величины непрерывно
изменяются во времени. Графически такой сигнал может быть изображен совокуп-
ностью реализаций случайных функций. Если каждая из них представляет собой из-
меняющееся во времени t напряжение u за определенный интервал наблюдения Tин ,
то такие зависимости u(t) принято называть кривыми изменения мгновенных значе-
ний напряжения во времени (рис. 1.1,а). Напомним, что сигнал на выходе микрофона
(приемника звука) является электрическим (это изменение во времени напряжения),
но его величина пропорциональна звуковому давлению p.
В аудиотехнике для измерения ЗС очень часто используются не абсолютные,
а относительные величины, называемые уровнями. Уровень характеризует сигнал в
текущий момент времени, например t1 . Он представляет собой выраженное в децибе-
лах выпрямленное и усредненное за некоторый предшествующий промежуток времени
напряжение u(t1 ) (черта сверху означает операцию усреднения во времени, t1 — те-
кущий момент времени), отнесенное к некоторой условной величине U0 , т. е.:
ut=t1
Nt=t1 = 20 lg . (1.1)
U0
Здесь Nt=t1 — уровень сигнала в момент времени t1 . Аналогично можно определить
уровень сигнала в моменты времени t2 , t3 и т. д.
Теоретически наиболее просто усреднять мгновенные значения выпрямленного
напряжения с постоянным весовым коэффициентом (рис. 1.1,б). Математически эту
операцию можно записать следующим образом, например, для текущего момента
Аудиосигналы и их характеристики 7

Ðèñ. 1.1. Аудиосигнал: a — изменение мгновенных значений


напряжения во времени; б — усреднение мгновенных значений
выпрямленного напряжения с постоянным весовым коэффи-
циентом; в — изменение усредненных значений выпрямленно-
го напряжения во времени; г — взвешивание сигнала с помо-
щью весовой экспоненциальной функции

времени ti :
∫ t1
1
ut=t1 = |u(t)| dt. (1.2)
T t1 −T

Выражение (1.2) дает среднее за время T


значение функции ut=t1 , причем всем выпрямлен-
ным значениям данной функции приписывается
один и тот же относительный вес, равный dt/T в
интервале от t1 − T до t1 (T — интервал усред-
нения) и нулю вне этого интервала (рис. 1.1,б,
штриховая линия). Точно так же можно опреде-
лить среднее значение выпрямленного напряже-
ния в моменты времени t2 , t3 и т. д.
Звуковой сигнал является нестационарным случайным процессом, поэтому по-
лученные с помощью (1.2) для разных моментов времени t1 , t2 , . . . , tn значения
ut=t1 , ut=t2 , . . . , ut=tn окажутся разными, и мы получим зависимость изменения во
времени среднего значения выпрямленного напряжения (рис. 1.1,в).
Форма зависимости u(t) определяется как особенностями самого звукового сиг-
нала, так и выбранным интервалом усреднения T . При T → 0 временные зависимости
средних значений выпрямленного сигнала практически не отличаются от зависимос-
тей его мгновенных значений. При увеличении T средние значения выпрямленного
сигнала будут тем меньше меняться во времени, чем больше интервал усреднения
T . Если существует минимальный интервал усреднения T = T0 , при достижении
которого среднее значение выпрямленного сигнала не зависит от текущего момента
времени t, т. е. если при T > T0 выполняется равенство
ut=t1 = ut=t2 = · · · = ut=tn , (1.3)
то такой сигнал называется стационарным, а значение T0 — его интервалом ста-
ционарности.
В тех редких случаях, когда условие (1.3) выполняется, предел однородности по-
лучается очень большим: около 2. . . 3 мин, причем значение T0 для речевых сигналов
меньше, чем для музыкальных. Для большинства музыкальных сигналов интервала
однородности не существует.
Орган слуха человека не может усреднять воспринимаемый сигнал за столь дли-
тельное время. Слуховое ощущение в каждый момент текущего времени (например,
t1 ) определяется не только мгновенным значением сигнала в этот момент, но и более
ранними его значениями. Последние при слуховом восприятии оказывают тем мень-
шее влияние, чем дальше они удалены в прошлое от текущего момента времени. Поэ-
тому при определении уровня сигнала усреднение его выпрямленных мгновенных зна-
чений следует выполнять с переменным множителем веса, убывающим в направлении
8 Раздел 1

прошедшего времени. Подходящим приближением является весовая функция вида


( )
1 t1 − t
λ(t1 − t) = exp − (1.4)
T T
при t 6 t1 , причем λ(t1 −t) = 0 при t > t1 ; T — время, характеризующее длительность
«памяти» слуховой системы.
При таком способе усреднения для момента времени t1 среднее значение вып-
рямленного сигнала
∫ t1
ut=t1 = λ(t1 − t)|u(t)| dt. (1.5)
−∞

Взвешивание выпрямленных мгновенных значений реального аудиосигнала пос-


редством весовой функции (1.4) для момента времени t1 показано на рис. 1.1,г.
Изменяющееся во времени выпрямленное нап-
ряжение, усредненное за определенный промежуток
времени с заданным множителем веса λ(t1 −t) и вы-
раженное в децибелах, называется динамическим
уровнем звукового сигнала N (t), т. е.
u(t)
N (t) = 20 lg , (1.6)
U0
где t — текущее время.
Уровнеграммы одного
Ðèñ. 1.2.
и того же отрезка аудиосигнала, Можно сказать иначе: изменяющиеся во вре-
мени уровни звукового сигнала называются дина-
полученные при разной длительности
мическими. Записи динамических уровней, полу-
«памяти» измерительного устройства
чаемые с помощью самописца, называются уровнеграммами (рис. 1.2) в отличие от
временных зависимостей мгновенных значений, когда тем или иным способом фик-
сируется изменение во времени напряжения.
Значение уровня зависит не только от мгновенных значений временной функции
сигнала, но и весьма существенно от множителя веса (1.4) и длительности «памя-
ти» T измерительного устройства. Поэтому, говоря об уровнях, следует непременно
учитывать временны́е параметры приборов, которыми они измерены.
При всем многообразии звуковых сигналов некоторые их статистические свойс-
тва, имеющие практический интерес, оказываются в достаточной мере устойчивыми
и объективно характеризующими их особенности для сигналов разных жанров (речь,
классическая музыка, эстрадная музыка, хоровое пение и т. д.).
Знание статистических свойств ЗС необходимо для понимания процессов, про-
текающих как в отдельных устройствах, так и в целом в различных по структуре и
назначению звуковых системах, системах радиообслуживания, звукоусиления и т. п.;
правильной трактовки свойств и параметров звукового оборудования; создания испы-
тательных сигналов, наилучшим образом имитирующих реальные звуковые сигналы;
разработки оптимальных систем и устройств в максимальной степени учитывающих
как свойства самих сигналов, так и особенности слухового восприятия последних.
Статистические свойства звуковых сигналов характеризуются, прежде всего, за-
конами распределения: мгновенных значений и уровней во времени; длительностей
пауз; длительностей непрерывного существования разных уровней (выбросов ЗС);
распределения напряжений и уровней по частоте и т. п.
Аудиосигналы и их характеристики 9

Не следует путать первичные акустические сигналы, соответствующие натураль-


ным звучаниям музыкальных инструментов и голосов в зале или на открытом возду-
хе, и сигналы звукового вещания, а также сигналы систем звукоусиления, полученные
звукорежиссером из первичных сигналов их частотной, амплитудной и динамической
обработкой. Их параметры и характеристики не идентичны, хотя имеют много обще-
го. Большая часть сведений, имеющихся в опубликованной литературе, все же отно-
сится к сигналам уже прошедшим эту сложную обработку, о чем не следует забывать.
Динамический диапазон. Общее определение динамического диапазона ЗС фор-
мулируется как отношение максимального напряжения (Umax ) к минимальному (Umin ),
характеризующее данный процесс. Однако это определение не содержит сведений о
том, что подразумевается под максимальным и минимальным напряжениями.
При теоретическом определении динамического диапазона вводят понятия ква-
зимаксимального и квазиминимального напряжений. Квазимаксимальным (Uкв.макс )
будем называть такое значение, вероятность превышения которого достаточно мала,
например 0,01. . . 0,02, а квазиминимальным (Uкв.мин ) — такое, вероятность превы-
шения которого, наоборот, достаточно велика и равна 0,98 . . . 0,99.
С учетом изложенного динамический диапазон электрического звукового сигнала
Uкв.макс Uкв.макс Uкв.мин
Dс = 20 lg = 20 lg − 20 lg . (1.7)
Uкв.мин U0 U0
В аудиотехнике обычно U0 = 0,775 В, это напряжение на нагрузке сопротивлением
600 Ом, на которой выделяется мощность 1 мВт.
Динамический диапазон сигнала, определяемый выражением (1.7), будем назы-
вать теоретическим. Наряду с этим динамический диапазон сигнала можно найти
экспериментально с помощью уровнеграммы как разность максимального Nmax и
минимального Nmin уровней для достаточно большого по длительности интервала
наблюдения:
Dс = Nmax − Nmin , дБ. (1.8)
Очевидно, что измеренное значение динамического диапазона сигнала сущест-
венно зависит от выбранного времени интеграции tи и времени возврата tв измерителя
уровней. Чем больше tи , тем в меньшей степени будут регистрироваться кратковре-
менные выбросы сигнала, тем меньшим окажется найденное значение. Аналогичным
образом на регистрацию минимальных уровней влияет и время возврата tв . Заметим,
что теоретическое значение динамического диапазона сигнала, рассчитанное с помо-
щью распределения во времени мгновенных значений напряжения u (1.7), всегда боль-
ше измеренного значения (1.8) для одного и того же исследуемого отрывка звучания.
Динамические диапазоны отдельных жанров музыкальных и речевых сигналов,
измеренные с помощью приборов, показания которых соответствуют слуховому вос-
приятию уровня громкости (tи = tв = 60 мс), составляют в среднем:
60. . . 70 и более дБ для симфонического оркестра;
35 дБ для эстрадной музыки;
20 дБ для джаз-оркестра;
47 дБ для хора;
35 дБ для солистов-вокалистов;
25 дБ для речи диктора.
При воспроизведении речи максимальный акустический уровень составляет
80. . . 86 дБ, Sound Pressure Level (SPL), а при воспроизведении музыкальных сигналов
10 Раздел 1
Аудиосигналы и их характеристики 11
12 Раздел 1

доходит до 90. . . 100 дБ, SPL. Это оптимальные значения, при которых следует прос-
лушивать воспроизводимые сигналы при их записи. Заметим, что в шкале SPL за 0 дБ
принята интенсивность звука I0 = 10−12 Вт/м2 . Этой интенсивности соответствует
звуковое давление P0 = 2 · 10−5 Па. Важно, что акустические уровни звукового дав-
ления Na всегда равны уровням по интенсивности, они рассчитываются по формулам
( ) ( ) ( )
p I p
Na = 20 log и Na = 10 lg = 20 · lg .
p0 I0 p0
Пик-фактор. Разность между квазимаксимальным (Nкв.макс ) и средним (Nср ) за
длительный промежуток времени уровнями называют пик-фактором П = Nкв.макс −
−Nср . Для музыкальных сигналов значение пик-фактора может достигать 20 дБ и
более, а для речевого сигнала в среднем составляет около 12 дБ. Средний уровень
вычисляется для музыкальных отрывков длительностью звучания не менее 1 мин, для
речи — не менее 15 с. Пик-фактор звучания симфонического оркестра около 27 дБ,
средний уровень 70. . . 90 дБ, максимальный может достигать значения 120. . . 130 дБ
в очень короткие промежутки времени.
Пик-фактор показывает, насколько ниже следует установить уровень сигнала в
тракте передачи по сравнению с уровнем ограничения сигнала в канале, чтобы не
возникли в процессе передачи перегрузки и нелинейные искажения.
Некоторые характеристики первичных сигналов музыкальных инструментов и ре-
чи даны в табл. 1.1 [1.6].
Расположение инструментов в оркестре на протяжении веков существенно меня-
лось. В настоящее время набор музыкальных инструментов большого симфоническо-
го оркестра и их размещение более или менее определенны и показаны на рис. 1.3 [1.6].
Спектры частот, занимаемые сигналами отдельных музыкальных инструментов
и голосов, показаны на рис. 1.4.
Энергия большинства музыкальных инструментов имеет весьма неоднородное
распределение по частоте. Для количественной оценки этого явления часто исполь-
зуют такое понятие, как «спектральная неоднородность», под которой понимается
величина, показывающая, насколько спектры реального звукового сигнала и белого
шума отличаются друг от друга. Заметим, что духовые и струнные музыкальные
инструменты (флейта, скрипка и т. п.) создают звучания по своей окраске весьма
близкие к тональным сигналам. Их сигналы имеют значительную спектральную не-
однородность и содержат области частот, не играющие существенной роли при слухо-
вом восприятии. Часто оказывается, что значительная часть энергии сигнала таких
музыкальных инструментов содержится в достаточно узких полосах частот, например
вблизи основного тона и некоторых обертонов. В то же время удары тарелок создают
звуки, напоминающие шум. Их энергия распределяется более или менее равномерно
на большой диапазон частот. Важно, что для сложных по структуре звука музыкаль-
ных инструментов их основной тон расположен в области частот, не превышающей
4000 Гц. При этом вне этой области уровень спектральных составляющих достаточ-
но быстро уменьшается. Именно это свойство звуковых сигналов и используется в
системах цифрового кодирования. В тех субполосах, где энергия звукового сигна-
ла значительна, кодирование выполняется с высоким разрешением (длина кодового
слова больше). И, наоборот, в тех субполосах, где энергия сигнала минимальна, ко-
дирование выполняется с наименьшим разрешением по уровню.
Передача сигнала по звуковому тракту без искажений возможна, если Dc < Dтр .
Так как для реальных музыкальных сигналов это условие в ряде случаев не выпол-
Аудиосигналы и их характеристики 13

Ðèñ. 1.3.Наиболее распространенные схемы расположения музыкальных инструментов


симфонического оркестра на сцене: а — немецкая; б, в — американская

няется, необходима предварительная их обработка, заключающаяся в сокращении


динамического диапазона. Величина Dс в каналах и трактах телевидения и звукового
вещания (после обработки исходных сигналов звукорежиссером) не должна превы-
шать 40 дБ. Обработка звукового сигнала и его характеристики зависят от того,
для какой цели он готовится — радиовещания, звукозаписи, для воспроизведения в
концертном зале и т. п.
14 Раздел 1

Ðèñ. 1.4. Частотные диапазоны звучаний музыкальных


инструментов (а) и распределение уровней спектральной
плотности мощности по частоте для различных групп ин-
струментов (б)

1.2. Распределения мгновенных значений и уровней речевых


и музыкальных сигналов
Напомним, что наиболее распространенной характеристикой любой случайной
величины X, полностью описывающей ее с вероятностной точки зрения, является
функция распределения W (x), под которой понимается вероятность события X < х,
где x — некоторое текущее значение случайной величины, X — заданное значение слу-
чайной величины из множества ее возможных значений. Функция W (x) = W (X < x)
называется одномерной функцией распределения случайной величины. Производная
w(x) от этой функции W (x) называется одномерной плотностью вероятности распре-
деления случайной величины x. Она характеризует вероятность того, что случайная
величина x окажется расположенной в пределах от x до x + ∆x, причем ∆x → 0.
Зависимости W (x) и w(x) определяют закон распределения случайной величины x.
Применительно к звуковым сигналам случайными величинами являются мгновенные
значения напряжения u, а также уровни N .
Законы распределения W (x) и w(x) являются устойчивыми (т. е. получаемые
результаты отличаются только погрешностью эксперимента), если длительность реа-
лизации (выборки сигнала) превышает интервал стационарности T0 . Звуковой сигнал
в строгом понимании не стационарен. Однако с достаточной для практических це-
лей точностью речевой сигнал можно рассматривать как квазистационарный случай-
ный процесс при интервале наблюдения (длительности анализа) Tин , превышающем
2. . . 3 мин. Для музыкальных сигналов интервал стационарности T0 установить не
удается. Поэтому для получения более или менее устойчивых законов распределе-
ния для сигналов разных жанров необходимо существенно увеличить время анализа
(интервал наблюдения Tин ), например до нескольких часов. При более короткой дли-
тельности выборки Tин результаты анализа сильно отличаются и характеризуют не
свойства сигнала в целом, а только исследуемые отдельные отрывки. К сожалению,
в публикациях, посвященных этой проблеме, имеющиеся для музыкальных сигналов
Аудиосигналы и их характеристики 15
x
Dt1 Dt2 Dt3 Dt5 Dt6 ..., Dtn
Dt4

Dx

x1

0 t

Tин

Ðèñ. 1.5. Возможное изменение во времени мгновенных значений напряжения звукового сигнала

данные относятся, как правило, к отрывкам уже обработанным звукорежиссером, а


в отдельных случаях и автоматическим регулятором уровня. Методы ручной регу-
лировки сигналов различными звукорежиссерами не идентичны, а изменения, вноси-
мые в сигнал автоматическими регуляторами, в значительной степени зависят от их
технических характеристик. Кроме того, часто ЗС при мастеринге подвергаются до-
полнительной спектральной, динамической, а в ряде случаев и нелинейной обработке,
например с помощью процессоров. Наконец, распределение уровней во времени су-
щественно зависит и от выбранной весовой функции (1.4), если речь идет об уровнях.
Распределение мгновенных значений сигнала. Предположим, что мы имеем от-
резок, представляющий собой изменение мгновенных значений x напряжения u за
интервал времени наблюдения Tин (рис. 1.5). Теперь, если мы выделим достаточ-
но
∑ узкий интервал ∆x изменения мгновенных значений и найдем суммарное время
∆τi = ∆τ1 + ∆τ2 + . . . + ∆τn , в течение которого мгновенные значения сигнала
находятся внутри данного интервала ∆x, то при ∆x → 0 и Tин → ∞ справедливо
соотношение
1 ∑ 1 ∑
n n
∆xw(x) ≈ ∆τi или ∆uw(u) ≈ ∆τi ,
Tин i=1 Tин i=1

где w(x) — плотность вероятности распределения случайной величины x, или вероят-


ность того, что случайная величина x находится внутри интервала x1 6 x 6 x1 + ∆x,
т. е. W (x1 6 x 6 x1 + ∆x). Это выражение позволяет нам получить кривые распреде-
ления мгновенных значений сигнала экспериментальным путем.
В качестве примера на рис. 1.6 приведены типичные экспериментальные резуль-
таты, полученные для речевого (рис. 1.6,а) и музыкальных (рис. 1.6,б) сигналов, уже
подготовленных звукорежиссером для системы звукового вещания. По оси ординат
отложено произведение плотности вероятности w(x) и среднеквадратического отк-
лонения σ (т. е. w(x)σ); по оси абсцисс — отношение его мгновенных значений x
(например, напряжения u) к σ (x/σ). Величина среднеквадратического отклонения
характеризует рассеяние значений случайной величины x около ее математического
ожидания (среднего значения).
Речевой сигнал имеет устойчивое распределение плотности вероятности мгно-
венных значений напряжения ЗС, симметричное по форме, одновершинное, подчиня-
ющееся экспоненциальному закону.
16 Раздел 1

Ðèñ. 1.6. Распределение плотности вероятности мгновенных значений речевого (а) и музыкального (б)
сигналов во времени

Таблица 1.2
Параметры аппроксимирующей функции
Вид сигнала A B σ1 σ2
Речь информационного характера 0,57 0,43 1,3 0,26
Вокальная музыка (арии из опер, романсы) 0,75 0,25 1,44 0,24
Камерная музыка, фортепьяно 1 0 1,05 —
Симфоническая музыка 0,65 0,35 1,2 0,23

Результаты экспериментального исследования распределений во времени мгно-


венных значений музыкальных сигналов показывают, что разным типам звучаний
(вокал, эстрадная музыка, симфоническая музыка и т. д.) соответствуют сходные по
форме зависимости (рис. 1.6,б, область 1). Все они за редким исключением (кривая
2) имеют также экспоненциальный характер.
Достаточно общей аппроксимацией описанных зависимостей (рис. 1.6) является
выражение вида
( √ ) ( √ )
A 2|x| B 2|x|
w(x) = √ exp − +√ exp − , (1.10)
2σ1 σ1 2σ2 σ2

где x — мгновенное значение сигнала (например, напряжение); σ1 , σ2 — среднеквад-


ратические отклонения; A и B — параметры распределения, причем A + B = 1.
Параметры A, B, σ1 и σ2 изменяются в зависимости от характера исполняемого
произведения (табл. 1.2).
Для речевого сигнала существует достаточно большое число аппроксимирующих
функций, часть из которых представлена в табл. 1.3 [1.16].
Из представленных в табл. 1.3 моделей наиболее известной является аппрокси-
мация, предложенная А.И. Величкиным [1.2] (1.13). Более сложные модели представ-
лены выражениями (1.13) и (1.14) [1.3]. Здесь x — мгновенное значение звукового
давления или напряжения; σ, σ1 , σ2 , — среднеквадратические отклонения; σс , σг —
Аудиосигналы и их характеристики 17
Таблица 1.3
Аппроксимирующие функции распределения во времени мгновенных значений речевого сигнала
Источник, Аппроксимирующее выражение
номер формулы
( √ ) ( √ )
0, 6 2|x| 0,4 2|x|
[7], (1.12) w(x) = √ exp − +√ exp − ,
2σ1 σ1 2σ2 σ2
где σ1 = 1,21 . . . 1,23; σ2 = 0,1 . . . 0,118

k L(L + 1)
[3], (1.13) w(x) = (k|x|)L−1 exp(−k|x|), где k = , L = 0,5 . . . 1
2Г(L) σ2
( ) ( )
0,57 x2 0,43 x2
[2], (1.14) w(x) = √ exp − + √ exp −
1,3 πσс 1,3 · 2σс2 0,26 2πσг2 2 · 0,26σг2
где σс = (0,1 . . . 0,3)σр ; σг = (1,3 . . . 2,9)σр
αβ
[3], (1.15) w(x) = A[e−α|x| + e−β|x| ], где A =
2(α + β)
√ √ ( √ )
3 − 3|x|
[4, 5], (1.16) w(x) = exp
8πσ|x| 2σ
{ [ ] [ ]}
K K|x| K|x|
[4, 5], (1.17) w(x) = exp −(π − 1) + exp −30 , где K — коэффициент
σ σ σ

соответственно среднеквадратические отклонения для согласных и гласных звуков


речи; A, L, α, β — параметры распределений.
В [1.15] для речевого сигнала предложена для полуволн мгновенных значений
речи аппроксимация вида
( )
6e−6x/xmax x √ √
w(x) = √ +δ − α (Ф( 12) − Ф( 12α)),
xmax 6π/xmax xmax
где 0 6 x 6 xmax — нормированное мгновенное
∫ у значение сигнала; xmax — макси-
2 −t2 /2
мальное значение сигнала; Ф(у) = √ e dt — интеграл вероятности; α —
2π 0
коэффициент, учитывающий возможное ограничение сигнала, при отсутствии пос-
леднего он равен 1.
Для программ типа хора с оркестром, эстрадных композиций, джазовой музыки
(см. рис. 1.6,б, кривая 2) наблюдается приближение к гауссовскому закону распре-
деления. В этих случаях
( )
1 x2
w(x) = √ exp − 2 , (1.18)
2σ 2σ
Сопоставляя (1.10) и (1.18) и результаты экспериментальных исследований раз-
ных авторов, можно представить обобщенный закон распределения во времени мгно-
венных значений музыкальных сигналов в виде
[ ( )q ]
qξ ξ|x|
w(x) = exp − , 1 < q < 2, (1.19)
2σГ(1/q) σ
где q — параметр, определяющий степень экспоненты (q = 1 для камерной и сим-
фонической
√ музыки; q = 2 для легкой, эстрадной и джазовой музыки);
ξ = Г(3/q)/Г(1/q); Г — гамма-функция.
Этот закон также получен для сигналов, уже подготовленных звукорежиссером
к передаче по каналам связи.
18 Раздел 1

В [1.15] приведена полученная с использованием более 150 разнообразных жанро-


вых отечественных и зарубежных музыкальных произведений, записанных на компакт-
дисках и сопоставленных с помощью критерия согласия А.Н. Коломогорова и К. Пир-
сона (xи-квадрат) аппроксимация вида
√ √
w(x) = 2Πe− 2Πx ,
где Π — пик-фактор сигнала, значение которого находилось в исследованных отрывках
в интервале от 2,3 до 12. Напомним, что при прохождении по вещательным каналам
сигнал подвергается компрессии и амплитудным ограничениям, что необходимо учи-
тывать в аналитическом представлении кривой распределении плотности вероятности
мгновенных значений с помощью дополнительных коэффициентов
√ √ √ √
w(x) = 2Πe− 2|x| + δ(|x| − α)(e− 2Πα − e− 2Π ), (1.20)
где x — нормированное мгновенное значение музыкального сигнала.
Распределение уровней. Распределение уровней аудиосигналов во времени (как
речевых, так и музыкальных) зависит не только от типа программы и длительно-
сти времени анализа, но и весьма существенно от выбранной весовой функции (1.4)
усредняющего устройства. При относительно малой длительности памяти T эти зави-
симости близки к уже рассмотренным. Увеличение T должно вызывать приближение
закона распределения уровней к гауссовскому. И, наконец, при T → ∞ понятие о
законе распределения вообще теряет смысл, ибо вместо совокупности случайных ве-
личин будет получено одно значение.
В качестве примера на рис. 1.7 приведена функ-
ция распределения уровней во времени, полученная
экспериментально при исследовании записанных на
магнитной ленте обработанных звукорежиссером му-
зыкальных и речевых отрывков. Взвешивание мгно-
венных значений выпрямленного напряжения произ-
водилось посредством весовой функции (1.4) при
T ≈ 25 мс. Существенное отличие этой зависимос-
ти от гауссовской наблюдается лишь в области ма-
Ðèñ. 1.7. Функция рас-
лых уровней, отличающихся от номинального значе-
пределения уровней звуко- ния (N = 0 дБ) более чем на 35 дБ.
вого сигнала во времени Поэтому с достаточным для практики приближе-
нием можно считать, что распределение уровней во времени подчиняется гауссов-
скому закону
∫ N
1 (N − a)2
W (N ) = √ exp dN (1.21)
2σ −∞ 2σ 2
c параметрами а = −24 дБ, σ = 10 дБ, где N — заданное значение уровня, дБ.

1.3. Распределение длительностей выбросов и пауз речевых


и музыкальных сигналов
Распределение длительностей выбросов. Из (1.21) можно получить представ-
ление об общем времени ∆τ , в течение которого достигается или превышается то
или иное значение уровня анализа Nан . Однако рассмотренные зависимости не поз-
воляют ответить на вопрос: из какого числа отрезков это время складывается, из
Аудиосигналы и их характеристики 19

большого или малого, кратковременных или больших по длительности. Этот вопрос


имеет важное практическое значение, например, при выборе режима работы ламп
или транзисторов оконечных каскадов усилителей большой мощности, при ручном и
автоматическом регулировании уровней и т. д.
Для выбранного уровня анализа Nан длитель-
ности выбросов (последние показаны здесь жир-
ной линией) также имеют случайную длительность
(рис. 1.8). По этой причине можно говорить о
плотности вероятности распределения выбросов по
их длительности или другими словами о плотности
вероятности непрерывного существования уровней,
Ðèñ. 1.8. Диаграмма, позволяю-
превышающих наперед заданное значение Nан .
щая оценить длительность непре-
Экспериментальные данные, оценивающие с рывного существования уровней,
вероятностной точки зрения длительность непре- превышающих уровень анализа Nан
рывного существования разных уровней для рече-
вых и музыкальных сигналов, показывают, что диапазон изменения длительностей
выбросов очень широк. Например, максимальная длительность выбросов τ , зафик-
сированная при уровне анализа равном 5 % от максимального значения, составля-
ет для речевого сигнала примерно 1 с, для музыкального — до 4 с. Минимальное
значение τ не превышает единиц миллисекунд. Наибольшее значение плотности ве-
роятности w(τ ) независимо от Nан и жанра программы наблюдается для выбросов
длительностью 12. . . 17 мс.
Длительность выборки при проведении исследований была выбрана для речевого
сигнала больше 3 мин (рис. 1.9,а). Обобщенные сведения, относящиеся к музыкаль-
ному сигналу (рис. 1.9,б), получены в результате усреднения данных для четырех
жанров. По оси ординат отложены плотности вероятности непрерывного существова-
ния (превышения) уровней, превышающих заданное значение Nан (уровень анализа)
в долях квазимаксимального значения Nкв.макс , по оси абсцисс — длительность выб-
роса τ , мс. Выбранные отрывки обработаны звукорежиссером, длительность каждого
из них не менее 2 мин. За максимальный уровень анализа Nан принят наибольший
уровень, полученный прибором с временем интеграции tи = 10 мс и временем воз-
врата tв = 1,3 с; T ≈ 22 мс.
Хорошей аппроксимацией среднестатистических зависимостей w(τ ) при 0 < τ <
< 100 мс является гамма-распределение вида
µτ ( τ)
w(τ ) = 2 exp − , (1.22)
υ υ
где τ — длительность выброса, с; υ — параметр, определяемый отношением
Nан /Nкв. max , Nкв. max — квазимаксимальный уровень сигнала (вероятность его пре-
вышения∫составляет 0,02); µ — параметр, зависящий от Nан и определяемый из

условия w(τ ) dτ = 1.
−∞
Значения параметров υ и µ для разных значений относительного уровня анализа
Nан /Nкв. max приведены в табл. 1.4.
Используя (1.22), нетрудно оценить вероятность W (τ ) превышения длительности
выброса некоторого заданного значения τ1 . По определению при 0 < τ < 100 мс
∫ τ1 ( τ)
τ
W (τ1 ) = 1 − µ 2 exp − d∆τ. (1.23)
0 υ υ
20 Раздел 1

1 1

3
0,1
0,1
3

0,01

0,01
1 2
0,001
1
2
0,001 3 0,0001

0,0001
0 10 100 1000 t, мс 0 10 100 1000 t, мс
а) б)
Ðèñ. 1.9. Плотность вероятности распределения выбросов речевого (а) и музыкального (б) сигналов
по длительности их непрерывного существования при Nан /Nкв.макс = 0,98 (1); Nан /Nкв.макс = 0,8 (2);
Nан /Nкв.макс = 0,02 (3)

Таблица 1.4 Таблица 1.5


Значения параметров распределения (1.22) Вероятности превышения выбросов определенной
длительности
Относительный уровень анализа,
Параметр Nан /Nкв. max Nан /Nкв. max W (τ ) при τ , мс, не менее
0,2 0,4 0,6 0,8 10 20 50 80
υ 0,0242 0,0226 0,0208 0,0195 0,2 0,6 0,38 0,315 0,294
µ 0,66 0,68 0,71 0,73 0,8 0,5 0,264 0,19 0,134

Результаты расчетов для ряда значений τ (табл. 1.5) получены для двух областей
анализа, где уровни близки к минимальному и максимальному значениям. Из табли-
цы следует, что вероятность существования уровней, близких к квазимаксимальному
Nкв.макс , при τ > 20 . . . 50 мс достаточно мала. Длительности τ 6 10 мс более
вероятны. Поэтому общее время существования квазимаксимальных уровней (или
близких к ним) в основном складывается из кратковременных промежутков времени.
Длительные выбросы в этом случае маловероятны.
Распределение длительностей пауз. Если понимать под паузами длительности
выбросов, лежащих ниже определенного фиксированного уровня анализа (обычно он
соответствует квазиминимальному уровню, вероятность превышения которого рав-
на 0,98), превышающего на некоторое значение уровень помех Nп , то вероятность
появления паузы для i-гo порога

 0 при Ni > Nан и любом tп или
Wi (τ ) = при Ni < Nан и tп 6 Tрс ; (1.24)

1 при Ni < Nан и tп > Tрс ,
где Ni — текущий уровень исследуемого сигнала; Nан — уровень анализа, при котором
определяются начало и конец паузы; Tрс — разрешающая способность анализатора;
tп — возможные значения длительности пауз.
При определении закона распределения пауз по длительности для разнородных
Аудиосигналы и их характеристики 21

сигналов (музыка, речь) уже подготовленных звукорежиссером для передачи по кана-


лам вещания, уровень анализа выбирается ниже номинального на 40 дБ. Заметим, что
номинальным называется максимально допустимый уровень, при котором нелинейные
искажения, вносимые устройством, передаю-
щим данный сигнал, не превышают допустимо-
го значения. Экспериментом установлено, что
энергия вещательного сигнала на уровне ниже
номинального на 42. . . 45 дБ практически рав-
на нулю.
Длительность пауз имеет случайный ха-
рактер, колеблется в очень широких пределах
и может доходить до 3 с и более. Однако ве-
роятность появления пауз длительностью свы-
ше 2 с мала. Плотность вероятности распреде-
ления пауз по длительности оказывается наи-
большей в интервале 5. . . 50 мс и быстро убы- Ðèñ. 1.10. Плотности вероятности рас-
вает вне этого интервала. Для речевых прог- пределения длительностей пауз во времени
рамм в среднем приходится 913 пауз в час, для музыкальных — 200. Длительность
пауз без учета перерывов между передачами составляет 5 % от времени передачи, а
с учетом перерывов может достигать 14 %.
Хорошей аппроксимацией закона распределения длительностей пауз активной ре-
чи (художественное чтение; речь, произносимая без подготовленного текста) явля-
ется выражение
( )β−1 [ ( )β ]
β tп − t0 tп − t0
w(tп ) = exp − , (1.25)
α α α
где α > 0 — параметр масштаба; β > 0— параметр формы; t0 характеризует центр
распределения (t0 < tп ); tп — длительность паузы. По данным эксперимента t0 =
= 0,2 с, β = 0,7, а α = 0,5 для группы студентов и α = 0,25 для группы общественных
деятелей и писателей. Средние длительности пауз для этих групп людей составляют
соответственно 0,4 с и 0,71 с (рис. 1.10).
Среднее время длительности пауз для активной речи существенно выше, чем для
пассивной (чтение заранее подготовленного текста информационного характера), и
составляет (от общего времени передачи) 55 % для группы студентов и 47,5 % для
общественных деятелей.
1.4. Статистические характеристики речевых сигналов
Форманты, антиформанты и фонемы
речи. Резонаторы голосового тракта чело-
века обеспечивают усиление звука речи в
определенных полосах частот, называемых
формантами. Каждому звуку речи соответ-
ствует своя форма голосового тракта и свое
положение формант на оси частот. Рас-
пределение плотности вероятности встреча-
емости формант для русской речи представ-
лено на рис. 1.11, а более точные их границы Ðèñ. 1.11. Распределение плотности ве-
даны в табл. 1.6. роятности встречаемости формант речи
22 Раздел 1

Таблица 1.6
Частотные диапазоны и ширина формант для мужского и женского голосов
Форманта Частотный диапазон формант, Гц Ширина полосы
мужской голос женский голос частот формант, Гц
Ф1 200. . . 800 250. . . 1000 40. . . 70
Ф2 600. . . 2800 700. . . 3300 50. . . 90
Ф3 1300. . . 3400 1500. . . 4000 60. . . 180

Отметим также [1.18; 1.20], что форманты звонких звуков занимают полосы час-
тот 150. . . 900 Гц (Ф1 ), 550. . . 2800 Гц (Ф2 ), 1500. . . 3400 Гц (Ф2 ). Форманты глухих
звуков — полосы частот 1000. . . 3500 Гц (Ф1 ), 2500. . . 6000 Гц (Ф2 ), 1500. . . 4000 Гц
(антиформанта, область существенного спада энергии в спектре сигнала). С веро-
ятностью 0,98 частотный диапазон Ф1 равен 200. . . 850 Гц, Ф2 — 850. . . 2550 Гц и
Ф3 — 2100. . . 3300 Гц.
Итак, речь — это непрерывный процесс следования звуков, подчиняющийся оп-
ределенным физическим и статистическим закономерностям. Несмотря на непрерыв-
ный характер речи, каждый говорящий на данном языке человек способен расчленять
речь на отдельные лингвистические элементы: фразу на отдельные слова, слова — на
слоги, слоги — на звуки. Звуки не следует путать с буквами, часто буквы объединяют
несколько звуков, например «я» = «йа». Звуки — это различимые наименьшие сег-
менты речи, уже не имеющие смыслового содержания. Однако если в слове заменить
один из звуков на другой, то оно может изменить или вовсе потерять смысл. При
произнесении разными людьми один и тот же звук может подвергнуться существен-
ным изменениям. Однако, несмотря на это разнообразие вариантов произношения,
тот или иной звук всегда связывается с одним и тем же лингвистическим элементом.
Отсюда возникает представление о некотором типизированном звуке речи, предс-
тавляющем вполне определенную лингвистическую единицу, называемую фонемой.
Поскольку буквы могут объединять несколько звуков, а следовательно, и фонем, то
в большинстве языков количество фонем превышает число букв. Следовательно,
непрерывную картину речи мы представляем как некоторую последовательность во
времени дискретных лингвистических элементов, отчетливо отделенных друг от друга
определенными границами. Фонема и является такой субъективной лингвистичес-
кой единицей речи. Фонемы классифицируют по артикуляционным признакам: по
расположению или динамике движения артикуляционных органов в момент ее про-
изнесения, а также по положению в речевом тракте места их образования. Знание
характеристик фонем может быть использовано при разработке методов автомати-
ческого распознавания речи.
Певческий голос. На рис. 1.12 приведены индивидуальные спектры восьми ба-
сов — солистов Малого оперного театра в Санкт-Петербурге [1.23]. Хорошо видно
индивидуальное различие голосов и наличие явно выраженных формант: Ф0 — об-
ласть основного тона, Ф1 , Ф2 , Ф3 и Ф4 — форманты. Длина анализируемых отрывков
здесь составляет 2,5. . . 3 мин. Сопоставление подобных данных позволяет отметить
следующие особенности. Наибольших уровней в мужских голосах достигают третья
и первая формантные области известные как высокая и низкая певческая форман-
та. Высокая певческая форманта (Ф3 ) придает голосу певца звонкость и полетность,
низкая певческая форманта (Ф1 ) — мягкость, массивность и округлость тембра. Вто-
рая формантная область (Ф2 ) по частоте более всего соответствует второй форманте
звука А, она в голосах певцов выражена менее четко. Четвертая форманта оказывает-
Аудиосигналы и их характеристики 23

дБ

45
Ф1 Ф3
40

35 Ф2
Ф0
30
Ф4
25

20

15

10

0
115 160 225 320 450 640 900 1300 1800 2500 3500 5100 7100 Гц
Ðèñ. 1.12. Интегральные спектры 8 оперных басов-солистов: Ф0 — область основного тона; Ф1 –Ф4 —
формантные области

Таблица 1.7
Частотное расположение формантных областей для мужского голоса
Тип голоса Формантная область, Гц
Ф1 Ф2 Ф3
Басы 380. . . 540 760. . . 1100 2100. . . 2500
Баритоны 450. . . 540 1100 2500
Тенора 540. . . 640 1300 2500. . . 3000

ся еще менее выраженной. Это позволяет в среднем считать, что мужской певческий
голос имеет три форманты.
В качестве дополнения в табл. 1.7 представлено расположение формантных об-
ластей мужского голоса.
Существенное влияние на характер речи оказывают эмоции (рис. 1.13) [1.23].
Хорошо видно, что в структуре вокальных фраз, выражающих разные эмоции, проис-
ходят весьма значительные изменения, как в динамике, так и амплитудном составе.
На рис. 1.14 представлены данные об изменении средней длительности T слога во-
кальной фразы от ее эмоционального контекста. Наибольшая длительность слога
характерна при выражении горя (1290 мс), наименьшая — при страхе (212 мс). Сред-
ние длительности слогов радости и гнева занимают промежуточное положение. На
рис. 1.15 показано изменение среднего уровня звука слогов в функции от эмоциона-
льного контекста. Видно, что сила звучания голоса возрастает при гневе и падает
при страхе. Значительное изменение претерпевают и длительности пауз: они увели-
чиваются при выражении страха, меняется также время атаки и спада.
Основной тон речевого сигнала. Основной тон речи задают колебания голосо-
вых связок. Статистические измерения частоты основного тона речи проводились
многими исследователями. Например, в [1.21] представлены результаты исследова-
ния распределения средней частоты основного тона для 150 мужских и 150 женских
голосов русской речи. Оказалось, что плотность вероятности распределения частоты
24 Раздел 1

Ðèñ. 1.13. Осциллограммы вокальных фраз с различным эмоциональным содержанием в исполнении


Ф.И. Шаляпина: а — горе; б — гнев; в — страх; по вертикали — сила голоса, по горизонтали — время

Т, мс дБ

100
1200
2
96
800 1
2
92
400 1
88

0 0
Р Гр Гн С Р Гр Гн С
Ðèñ. 1.14. Изменение средней длительности слога Ðèñ. 1.15. Средняя сила голоса при выражении
вокальной фразы в зависмости от эмоционального разных эмоций: 1 — Ф.И. Шаляпин, 2 — современ-
контекста у певцов: 1 — Ф.И. Шаляпин; 2 — совре- ные певцы; остальные обозначения те же, что и на
менные певцы; Р — радость; Гр — горе; Гн — гнев; рис. 1.14
C — страх

основного тона является можно описать для мужской и женской речи выражениями:
wм (F0 ) = (2,26/F0 ) exp[−84, 5 lg(F0 /137)2 ] и
2
wж (F0 ) = (3,16/F0 ) exp[−166 lg(F0 /247) ].
С достоверностью 0,95 средняя частота основного тона для мужских голосов
Аудиосигналы и их характеристики 25

Ðèñ. 1.16. Распределение длительностей рече-


вых пауз: а — интегральное (1 — дикторская речь;
2 — стандартные фразы; 3 — телефонный раз-
говор; 4 — распределение длительностей непре-
рывных речевых участков); б — в нормированном
масштабе по оси абсцисс (1 — эксперименталь-
ное; 2 — расчетное; 3 — при нормальном законе
распределения; 4 — при распределении по поли-
номам Эрмита)

Fом = 139+56 +71


−42 Гц, для женских голосов соответственно Fож = 249−54 Гц. Средне-
квадратическое отклонение мгновенной частоты основного тона σ ≈ 0,2F0 (текст,
читаемый диктором) и σ ≈ 0,25F0 (для телефонного разговора). Заметим также,
что средняя частота основного тона и средняя скорость v изменения частоты свя-
заны соотношением

v ≈ 35 F0 .
Исследования, выполненные в [1.22] на голосах шести мужчин и шести женщин
показали следующие результаты. Частотный диапазон изменения основного тона
оказался в пределах 70. . . 240 Гц со средней частотой 129 Гц для мужчин и в пределах
140. . . 450 Гц со средней частотой 256 Гц для женских голосов. Среднеквадратическое
отклонение соответственно составило 35 и 50 Гц.
Распределение длительности пауз для речи. На рис. 1.16 приведено интегральное
распределение длительности пауз, полученное обработкой сигнала дикторской речи
длительностью 22 мин (два диктора центрального радиовещания), [1.8]. Объем из-
мерений, для которого построена кривая 1, достаточен для получения статистически
достоверных данных: число пауз в обработанном тексте равно 2565.
Функция распределения речевых пауз на рис. 1.16,б, кривая 1, построена в нор-
мированном по оси абсцисс масштабе. Она достаточно точно аппроксимируется эм-
26 Раздел 1

Ncp, дБ

50

40

30
Ðèñ. 1.17. Среднестатистическое
распределение спектральной плот-
20 ности средней мощности речевого
2 3 4
10 2 3 4 5 6 7 8 10 2 3 4 5 6 7 8 10 F, Гц сигнала
N, дБ

80
1%
75
%
70 5
10 80
65
20
70
60 30
40 60
55 50
50
60
50
40
45
30
40
20
35
10
30 2 3 4 0 45 50 55 60 65 70 75 N, дБ
10 2 3 4 5 6 7 8 10 2 3 4 5 6 7 8 10 F, Гц
Ðèñ. 1.18. Семейство зависимостей амплитудного состава речи Ðèñ. 1.19. Распределение амплитуд
от частоты речи в полосе частот 1000...1400 Гц

пирической зависимостью вида


W (x) = 0,95 − 0,15e−55x ,
где x = (τ − m)/σ; τ — длина паузы, m = 184 мс — средняя длина паузы; σ =
= 257 — среднеквадратическое отклонение. Функция распределения длин пауз речи
существенно отличается от нормального закона.
Частота появления пауз отличается большой стабильностью, ее среднее значение
равно 2 Гц. В то же время средняя длительность пауз изменяется в очень широких
пределах в зависимости от темпа и особенностей речи диктора. Это наглядно видно
из сравнения кривых 1–3 на рис. 1.16,а. Средние значения длительности пауз для
кривых 1, 2, 3 равны соответственно 184, 65 и 400 мс. Длительность пауз зависит
также от уровня мешающего шума. Она возрастает с появлением шума. Например,
длина пауз в речи одного диктора при чтении текста в помещении без посторонних
шумов равнялась в среднем 194 мс, а в помещениях с уровнем шума 70 и 80 дБ —
270 и 292 мс соответственно.
Аудиосигналы и их характеристики 27

В ряде случаев полезно знание кривой распределения длительности непрерывных


речевых отрывков. Это распределение представлено на рис. 1.16,а, кривая 4. Для об-
работки был использован тот же материал, что и при получении кривой 1. Основные
параметры данного распределения: средняя 270 270
длина непрерывных речевых отрывков 0,3 с, 225 -10 315 225 -10 315
-20 дБ -20 дБ
среднеквадратическое отклонение 280 мс. С ве-
-30 -30 0
роятностью 0,995 длительность непрерывного 180 0 180

речевого участка не превысит 1,5 с.


135 45 135 45
И последнее. Полоса частот речевого сиг- 90
90 100 Гц
нала для мужских голосов составляет 80. . .
270 270
. . . 5000 Гц, для женских — 220. . . 7000 Гц. 225 -10 225 -10
315 315
Среднестатистическое распределение спект- -20 дБ -20 дБ
ральной плотности мощности речевого сигнала 180 -30 0 180 -30 0
по частоте показано на рис. 1.17. Усреднение
проводилось за длительный промежуток вре- 135 45 135 45
мени (время интегрирования более 1 мин). По 90 400 Гц 90
оси ординат отложены средние уровни спект- 270 270
ральной плотности речи, дБ, по оси абсцисс — 225 -10 315 225 -10 315
частота в Гц. При расчетах предполагалось, -20 дБ -20 дБ
-30 -30 0
что в пределах выделяемых полос энергия ре- 180 0 180

чи распределена равномерно. Видно, что ос-


новная энергия речевого сигнала сосредоточе- 135 45 135 45
90 1000 Гц 90
на в полосе частот 250. . . 500 Гц, спад в сто-
270 270
рону высоких частот составляет 6 дБ/октаву. 225 -10
225 -10 315 315
Динамический диапазон речи лежит в пределах -20 дБ
-20 дБ
35. . . 45 дБ, пик-фактор изменяется в пределах -30 -30 0
180 0 180
8. . . 12 дБ.
На рис. 1.18 [1.25] представлены резуль- 135 45 135 45
таты частотного анализа слитной речи шес- 90 4000 Гц 90
ти дикторов-мужчин при малом времени ин- 270
270
тегрирования. Как и ранее (рис. 1.17), ре- 225 -10 315 225 -10 315
чевой сигнал разделялся на полосы системой -20 дБ -20 дБ
-30 -30
фильтров, но время интегрирования было взя- 180 0 180 0
то малым и составляло 1/8 с. Параметром
каждой кривой является выраженное в процен- 135 45 135 45
тах число интервалов длительностью в 1/8 с, 90 10000 Гц 90

в пределах которых уровень в полосе анали-


за превысил значение, определяемой ордина-
той. Информативность этого семейства кри-
вых позволяет получить сведения о распреде-
лении амплитуд речи для различных участков а) б)
частот. Для этого достаточно взять данные Ðèñ. 1.20. Направленность речевого
для любой интересующей нас полосы частот и источника звука: а — горизонтальная
построить кривую распределения амплитудно- плоскость; б — вертикальная плоскость
го состава речи. Эти данные для полосы час-
тот 1000. . . 1400 Гц представлены на рис. 1.18. Анализ показывает, что в речевом по-
токе уровни 70 дБ и выше составляют не более 10 %, уровни 45 дБ и выше — 80 % об-
28 Раздел 1

Таблица 1.8
Характеристики речевого сигнала
Речевой сигнал Расстояние до рта Среднее звуковое Пик-фактор, Область частот для макси-
говорящего, м давление, Па (дБ) дБ мальных уровней, Гц
Речь телефонная: 0,025
средний уровень 2 (100) 10 250. . . 500
громкий уровень 4 (106) 12 500. . . 1000
тихий уровень 1 (94) 8 250. . . 500
Разговор (средний) 1 10 250. . . 500
Оратор 1 12 250. . . 500

щего времени чтения. Низкие уровни в составе речи связаны в основном с согласными
звуками, а они, как известно, — основные носители смысловой информации.
Некоторые дополнительные сведения о речевом сигнале представлены также в
табл. 1.8.
Голосовой такт человека [1.6] создает звуки с короткой атакой 20. . . 30 мс и ко-
ротким временем спада 30. . . 40 мс. Тембр речи многообразен, служит средством
идентификации говорящего человека, отражает широкий спектр эмоциональных от-
тенков. Распределение звукового давления вокруг головы манекена человека пред-
ставлено на рис. 1.20 [1.6].
Подробное описание моделей в целом и отдельных частей речевого тракта чело-
века можно найти в монографии Джеймса Л. Фланагана [1.19] и в работах М.А. Са-
пожкова [1.18].

1.5. Текущая, среднеминутная и долговременная мощности


сигналов речи и музыки
Если u(ξ) представляет собой изменение во времени мгновенных значений на-
пряжения сигнала, то его текущая мощность
∫ ( )
1 t t−ξ
P (t) = exp − u2 (ξ) dξ, (1.29)
T −∞ T
( )
1 t−ξ
где exp − — весовая функция, приписывающая более ранним значениям
T T
сигнала тем меньший относительный вес, чем дальше они удалены в прошлое, равная
0 при ξ > t; T — длительность «памяти»; t — текущее время.
Очевидно, что если P (t) — случайная функция, то можно говорить о плотности
вероятности распределения текущей мощности во времени.
Хорошей аппроксимацией закона распределения значений текущей мощности во
времени являются выражения:
для речевых сигналов
w(P ) = 0,39 exp(−P/P ) − 0,25 exp(−5,7P/P ); (1.30)
для музыкальных сигналов
w(P ) = 0,24 exp(−P/P ) − 0,17 exp(−4P/P ). (1.31)
Эти зависимости соответствуют экспериментальным данным, усредненным по
множеству реализаций (выборок) отдельно для речевых и музыкальных отрывков.
Здесь речь идет о сигналах уже обработанных звукорежиссером для целей вещания.
Величина P представляет собой среднее значение текущей мощности и найдена как
Аудиосигналы и их характеристики 29

математическое ожидание случайной величины P (множество значений P (t)). Для


большинства жанров звуковых сигналов наиболее вероятные значения текущей мощ-
ности лежат на 3 дБ ниже долговременной средней мощности P (исключение состав-
ляет звучание эстрадной музыки и хора с оркестром, где отклонения текущей мощ-
ности от P в ту или другую сторону равновероятны и приблизительно одинаковы).
Поэтому при предварительной установке регуляторов уровня следует ориентирова-
ться на значение P .
Уровень среднеминутной мощности определяется отношением
2
Pср.мин Uср.мин
Nср.мин = 10 lg = 10 lg 2 , (1.32)
P Usin
где Usin — эффективное значение синусоидального напряжения (обычно частотой
1000 Гц), равное квазимаксимальному значению Uкв.макс (вероятность его превыше-
ния в течение всего времени анализа составляет 0,02); Uср.мин — среднее значение
напряжения за время анализа (интервал наблюдения Tин ), равное 1 мин.
Значения Nср.мин , полученные для большого числа разных по содержанию отрыв-
ков звуковых сигналов вещания одноминутной длительности, образуют совокупность
случайных чисел. Величины Nср.мин называют также относительной среднеминутной
мощностью сигнала. Для нее можно построить закон распределения среднеминутной
мощности, сгруппировав отобранные отрывки по жанрам (дикторская речь, хоровое
пение и т. д.). Однако подобное распределение еще недостаточно, чтобы судить о
передаче в целом. Заметим, что суточные программы звукового вещания по содер-
жанию повторяются с большой степенью регулярности. Поэтому усреднение (по мно-
жеству), характеризующее передачу за сутки, выполненное с учетом встречаемости
программ разного жанра, может считаться иден-
W
тичным (по результатам) усреднению за длитель- 0,9
ное время.
0,8
На рис. 1.21 представлено распределение уров-
1
ней среднеминутной мощности, рассчитанное с 0,7
2
учетом встречаемости в этих программах радиове-
0,6
щания передач различного характера. По оси абс-
цисс отложен уровень среднеминутной мощности, 0,5
вычисленный по отношению к мощности синусои- 0,4
дального сигнала, напряжение которого выбрано
0,3
равным наибольшему значению квазимаксималь- 3
ного напряжения, по оси ординат — вероятность 0,2
превышения этих уровней. 0,1
Функции распределения уровней среднеминут-
ной мощности W (Nср.мин ) для программ звуково-
Ncp.min, дБ 8 6 4 2 0 -2
го вещания аппроксимируются с достаточной для
практики точностью законом Рэлея Ðèñ. 1.21. Распределение уров-
( ) ней среднеминутной мощности сиг-
2
Nср.мин нала звукового вещания для первой
W (Nср.мин ) = 1 − exp − , (1.33) (1) и второй (2) программ обще-
2α2
союзного звукового вещания: 1 и
где α — параметр закона распределения. Штри- 2 — экспериментальные данные;
3 — теоретическая зависимость
ховая зависимость на рис. 1.21 вычислена с помо-
щью выражения (1.33).
30 Раздел 1

Ðèñ. 1.22. Зависимости максимальных и средних уровней спектральной плотности мощности для
речевых (а) и музыкальных (б) звуковых сигналов вещания

Уровнем долговременной средней мощности называется выраженное в децибелах


отношение мощности звукового сигнала, полученной в результате усреднения всех ее
значений (например, Nср.мин ) за все время передачи данной программы в течение
суток, к квазимаксимальному значению.

1.6. Частотный диапазон и спектры музыкальных и речевых


сигналов
Если отрывок сигнала пропустить через набор полосовых фильтров, охватыва-
ющих весь диапазон слышимых частот, то можно определить для него плотности
вероятности текущей мощности wi (Pi ) как в выделенных узких полосах ∆Fi , так и в
широкой (полной) ∆F полосе w(P ).
Имея совокупность таких экспериментальных зависимостей w1 (P1 ), w2 (P2 ), . . . ,
wn (Pn ) и w(P ), можно определить значения текущей мощности P1 , P2 , . . . , Pn , P , ве-
роятность превышения которых составляет наперед заданное значение. Если послед-
нее принять равным 0,02, то полученная совокупность значений
Pi
Ni = 10 lg (1.34)
P
будет представлять собой распределение квазимаксимальных уровней текущей мощ-
ности для совокупности выделенных полос. Если же значение вероятности принять
равным 0,5, то получим распределение средних значений уровней текущей мощности
исследуемого отрывка сигнала.
Если найденные значения Ni отнести к ширине выделенной полосы частот ∆F ,
Аудиосигналы и их характеристики 31

Ðèñ. 1.23. Уровни спектральной плотнос-


Ðèñ. 1.24. Диапазон спектров музыкальных ти средней мощности: а — фортепиано, во-
сигналов кальная и камерная музыки; б — легкая и эс-
традная музыка; в — симфоническая музыка

а далее, как и ранее, взять отношение


( )
∆F Pi
Ni′ = 10 lg , (1.35)
∆Fi P
то определим уровень спектральной плотности максимальной (средней) мощности
или распределение соответствующих уровней (максимальных, средних), по частоте
для исследуемого отрывка сигнала.
На рис. 1.22,а и б для речевых и музыкальных сигналов представлены зависи-
мости, усредненные для множества отрывков длительностью звучания от 1 до 3. . . 5
минут, максимальных и средних уровней спектральных плотностей мощности.
Как показывает анализ, для многих звучаний уровень спектральной плотности
средней мощности, кроме речи, может иметь значения, близкие к максимальным
вплоть до самых нижних частот (рис. 1.23), в то время как для большинства типов
сигналов звукового вещания (СЗВ) он существенно понижается на частотах, превы-
шающих 5000. . . 7000 Гц и тем значительнее, чем выше частота.
Отметим, что каждый отрезок сигнала, даже очень большой длительности и со-
ответствующий одному и тому же виду звучания, обладает своим индивидуальным
спектром максимальных и средних значений мощности, своим распределением спект-
ральной плотности мощности. Кроме того, применение необычных способов инстру-
ментовки произведений, характерное для современной музыки, а также электронных
методов преобразования спектров сигналов и синтезаторов привело к расширению
спектров (для отдельных фрагментов программ) вплоть до самых высших частот
(рис. 1.24).
Психоакустические эксперименты показывают, что для высококачественной пе-
редачи музыки канал звукового вещания должен иметь полосу частот 40. . . 15000 Гц.
32 Раздел 1

Ðèñ. 1.25. Частотные диапазоны основных музыкальных инструментов

При этом отсутствие более высоких частот все же отчетливо замечается молодыми
слушателями, музыкантами и, по их мнению, ухудшает качество восприятия. Поэтому
в студийной аппаратуре полоса передаваемых частот составляет 20. . . 20 000 Гц.

Ðèñ. 1.26. Трехмерный спектр звука гитары (а) и ее характеристики направленности (б)
Аудиосигналы и их характеристики 33

Частотный диапазон — важнейший параметр, определяющий звучания музыкаль-


ных инструментов (рис. 1.25) [1.6]. Весьма важное значение при восприятии играет
также характеристика направленности музыкального инструмента и голоса. В ка-
честве примера на рис. 1.26 показаны трехмерный спектр звучания гитары (а) и ее
характеристика направленности на разных частотах (б). Частотный диапазон гитары
составляет 82,4. . . 1046,5 Гц; форманты расположены в области частот 100. . . 140 Гц
и 200. . . 280 Гц; основная энергия сосредоточена в полосе 100. . . 1000 Гц; динамичес-
кий диапазон 20 дБ; время атаки 10. . . 50 мс; время спада до 0,2. . . 1 с. Для других
музыкальных инструментов аналогичные сведения приведены в табл. 1.1 [1.6].
1.7. Средняя мощность речевых и музыкальных сигналов
Если принять, что распределение уровней звукового сигнала во времени подчи-
няется закону Гаусса (а это весьма часто допускается при расчетах), то отношение
средней мощности (Pср ) сигнала звукового вещания к квазимаксимальной (Pкв.макс )
можно найти из выражения
[ ( )][ ( ) ( )]
Pср 0,115Dс 0,115Dс 0,115Dс
= exp −0,115Dс 1 − 2
Φ zmax − − zmin − ,
Pкв. max 2zmax zmax zmin
(1.36)
где Dс — динамический диапазон СЗВ; zmin = Nкв. min /σ = −2,05; zmax =
= Nкв. max /σ = 2,05; σ — среднеквадратическое отклонение; Φ(·) — значение ин-
теграла вероятностей (для его вычисления составлены таблицы).
Из (1.36) следует, что отношение Pср /Pкв. max зависит только от значения Dс и
от заданных вероятностей превышения квазимаксимального Nкв. max и квазиминима-
льного Nкв. min уровней, определяющих нормированные отклонения zmax и zmin . Если
эти вероятности соответственно равны 0,02 и 0,98, то zmin = −2,05, а zmax = 2,05.
Зависимость изменения относительной средней
мощности звукового сигнала вещания от динамичес-
кого диапазона Pср /Pкв. max = f (Dс ), полученная с по-
мощью выражения (1.36), приведена на рис. 1.27. При
реальных значениях Dc = 20 . . . 40 дБ в трактах сис-
темы звукового вещания отношение изменяется в пре-
делах 0,053. . . 0,155 (теоретические результаты), т. е.
остается существенно меньшим 1.
По экспериментальным данным отношение
Pср /Pmax (где Pmax — мощность синусоидального сиг-
нала, равного наибольшему значению СЗВ) за боль-
шой промежуток времени после регулирования уров- Ðèñ. 1.27. Изменение относите-
ней звукорежиссером составило 0,07, а для автомати- льной средней мощности ЗС веща-
ния от динамического диапазона
ческого регулятора-ограничителя максимальных амп- (среднестатистические данные)
литуд 0,13. Например, FM-процессор, стоящий в трак-
те перед модулятором, дополнительно сокращает динамический диапазон сигнала на
5. . . 6 дБ (редко до 10 дБ). Отклонение отношения Pср /Pmax от значения 0,13 сос-
тавляет не более 20 %, т. е. изменяется в пределах 0,104. . . 0,156.
Столь малое отношение средней мощности к максимальной свидетельствует о
том, что режим номинальной мощности достигается лишь в течение незначительной
части общего времени передачи. Это следует учитывать при разработке аппаратуры,
особенно мощных вещательных усилителей, развивающих номинальную мощность в
течение коротких (длительностью не более 10. . . 20 мс) промежутков времени.
34 Раздел 1

1.8. Огибающая и мгновенная частота звуковых сигналов


Понятия огибающей и мгновенной частоты вводятся для пары сигналов: исход-
ного s(t) и сопряженного с ним по Гильберту ŝ(t), причем
∫ ∫
1 ∞ s(t1 ) 1 ∞ ŝ(t1 )
ŝ(t) = dt1 ; s(t) = dt1 .
π −∞ t − t1 π −∞ t − t1
Преобразование Гильберта — распространенное линейное преобразование ∑ сигна-
лов. С точки зрения спектрального анализа ∑ сигналу вида s(t) = C k cos(ωk t + φk )
оно ставит в соответствие сигнал ŝ(t) = Ck sin(ωk t + φk ), т. е. переводит сумму ко-
синусоид в сумму синусоид с сохранением значений амплитуд и фазовых углов, что в
электрических цепях выполняется фазовращателями. Сигналы s(t) и ŝ(t) имеют оди-
наковые амплитудные, но разные фазовые спектры: все спектральные составляющие
сигнала ŝ(t) отстают от одноименных составляющих сигнала s(t) на 90◦ . Мощность
обоих сигналов одинакова.
Преобразование Гильберта позволяет любой звуковой сигнал представить про-
изведением двух функций — огибающей и косинуса фазы:
∫ t
s(t) = S(t) cos φ(t) = S(t) cos ω(t1 ) dt1 ,
0

где S(t) = s2 (t) + ŝ2 (t); φ(t) = arctg[ŝ(t)/s(t)].
Мгновенную частоту определяют как производную фазы
1
ω(t) = φ′ (t) = [s(t)ŝ′ (t) − s′ (t)ŝ(t)] .
s2 (t) + ŝ2 (t)
Модуляционный анализ звукового сигнала, впервые в России широко исследо-
ванный Ю.М. Ишуткиным, состоит в определении двух его модулирующих функций:
огибающей S(t) и мгновенной частоты ω(t). Обратное преобразование называется
модуляционным синтезом.
Математические оценки функций S(t) и ω(t) тесно связаны со спектральными
и статистическими свойствами сигнала, но время обработки сигнала в модуляцион-
ном анализе много меньше, чем, например, в спектральном, потому что обработка
проводится не в узкой, а в широкой полосе частот — в полном частотном диапазоне
сигнала. На рис. 1.28 показаны осциллограммы звукового сигнала и его модули-
рующих функций. Обе модулирующие функции представляют собой колебательные
процессы, ширина спектра S(t) и ω(t) не менее половины и не более полной шири-
ны спектра сигнала s(t).
Мгновенная частота — знакопеременная функция времени, однако ее отрицате-
льные значения наблюдаются в сигналах музыки и речи редко и на коротких проме-
жутках времени, так что вероятность W {ω < 0} = 0,01 . . . 0,03. Влияние знака ω(t)
на характер звучания музыки и речи при сравнении на слух сигналов
∫ t ∫ t
S(t) cos ω(t1 ) dt1 и S(t) cos |ω(t1 )| dt1
0 0

в экспериментах не обнаружено. Числовые оценки мгновенной частоты — среднее


и пиковое значения — находятся в хорошем соответствии с положением максиму-
ма спектральной плотности и шириной спектра. Значения этих числовых оценок по
данным В.К. Уварова приведены в табл. 1.9.
Аудиосигналы и их характеристики 35

Ðèñ. 1.28. Осциллограммы речевого сигнала (а), его огибающей (б) и мгновенной частоты (в)

Таблица 1.9
Некоторые характеристики звуков речи
Звук Мгновенная частота, Гц Оценка спектра, Гц
средняя максимальная Положение Ширина спектра
максимума по уровню −30 дБ
А 950 3000 600 2500
Э 660 3000 450 3000
У 570 2600 250 800
И 430 3300 350 3000
Л 550 2160 250 900
Х 1370 4500 1200 8000
В 450 2350 300 1000
СЬ 8600 16000 5000 >10000

Огибающая S(t) — неотрицательная функция. Мощность огибающей в 2 раза


больше мощности сигнала, что следует из равенства модулей амплитудных спектров
s(t) и ŝ(t). Следовательно, уровнеграмма огибающей тождественна уровнеграмме
самого сигнала с точностью до постоянного слагаемого 3 дБ на шкале уровней, и все,
что говорилось о статистике уровней сигналов ранее, справедливо и для уровней их
огибающих. Интуитивную кривую, которую в обиходе называют огибающей звукового
сигнала, не вскрывая математической связи между нею и самим сигналом, можно
описать функцией Стеклова от гильбертовой огибающей

1 t
SФ (t) = S(t1 ) dt1 .
τ t−τ
Сглаживание огибающей с помощью ФНЧ при ширине временного окна T ≈ 10
мс показано на рис. 1.28 штриховой линией. По форме сглаженной огибающей судят о
36 Раздел 1

Ðèñ. 1.29. Пороги заметности изменения па-


раметров звуковой атаки: а — пояснения затя-
гивания и акцента звуковой атаки; б — поро-
ги заметности затягивания атаки фортепиано
и щипковых инструментов (1), смычковых инс-
трументов (2); в — порог заметности акцента
атаки в функции его длительности

переходных процессах в акустических сигналах — атаке и затухании звука. Искажение


атак в тракте 3B ведет к неправильной передаче тембра, а к изменению параметров
затухания ухо мало чувствительно.
Чувствительность слуха к изменениям параметров звуковой атаки v и tv можно
видеть из графиков, представленных на рис. 1.29. Там показаны измеренные Е.Н. Ос-
ташевским пороги заметности затягивания атаки в функции частоты основного тона
для ряда музыкальных инструментов и порог заметности акцента (выброса) в функ-
ции его длительности. Приведенные графики могут послужить основой для суждения
о качестве звуковых трактов при их испытаниях тональными импульсами.
1.9. Моделирование и синтез аудиосигналов
Моделирование аудиосигналов. Самой очевидной и, на первый взгляд, наиболее
естественной, является так называемая синусоидальная модель (Sinusoidal Model)
вида
∑I ∫ t
jφi (t)
y(t) = Ai (t)e ; φi (t) = ωi (τ ) dτ,
i=1 −∞

где Ai (t) — изменяющаяся во времени амплитуда i-й спектральной компоненты;


φi (t) — ее фаза; ωi (τ ) — изменяющаяся во времени мгновенная частота данной спек-
тральной компоненты; I — число спектральных компонент. В дискретно-временном
представлении мы можем соответственно записать данный сигнал так:
∑I ∫ nT
y(n) = Ai (n) cos[φi (n)]; φi (n) = ωi (τ ) dτ + φ0i ,
i=1 0

где n — номер сегмента сигнала.


В реальном звуковом сигнале наряду с тональными компонентами, резко отли-
чающимися по уровню (основной тон, гармонические компоненты, кратные по часто-
те основному тону, отдельные тональные компоненты достаточно высокого уровня),
обычно имеется множество спектральных компонент, близких по уровню. Их сумму
Аудиосигналы и их характеристики 37

Ðèñ. 1.30. Спектральный анализ и разделение аудиосигналов на компоненты

можно представить как некий шумоподобный сигнал. В этом случае более продук-
тивной моделью является представление звукового сигнала как некоторого набора
детерминированных тональных сигналов и шумоподобной части (Sinus + Noise) в виде

I
y(n) = Ai (n) cos[φi (n)] + e(n).
i=0

Здесь первое слагаемое представляет собой сумму спектральных компонент с изме-


няющимися во времени значениями амплитуд, частот, фаз и шумопобной части e(n).
Подобная модель, например, лежит в основе алгоритма параметрического коди-
рования звукового сигнала, реализованного в стандарте компрессии MPEG-4 ISO/IEC
14496-3. Разделение реального аудиосигнала на эти две части может быть выполнено
на основе быстрого преобразования Фурье (БПФ) (рис. 1.30). Звуковой сигнал прохо-
дит анализирующую оконную функции, с помощью которой выделяется его фрагмент
или выборка. Затем выполняется прямое БПФ, в итоге мы получаем комплексный
дискретный спектр, где каждая спектральная компонента имеет определенные зна-
чения амплитуды и фазы. Для каждой выделенной спектральной компоненты далее
выполняется точная оценка значений ее амплитуды, частоты и фазы. Эти параметры
могут изменяться в пределах выборки. По данным параметрам синтезируется сиг-
нал выборки, далее в петле анализа-синтеза минимизируется сигнал ошибки с целью
уточнения их значений для каждой спектральной компоненты. После уточнения выде-
ленные компоненты исключаются из исходного сигнала анализируемой выборки, и то,
что остается после выполнения этой процедуры, представляет шумоподобную часть
сигнала выборки. Более подробно алгоритм разделения реального звукового сигнала
на тональные и шумподобные компоненты, процедуры оценки амплитуды, частоты и
фазы каждой выделенной спектральной компоненты, энергии шумоподобной компо-
ненты, а также процедура выделения его огибающей рассмотрены в главе 5. Разде-
ление звукового сигнала на две части (детерминированную и шумоподобную) позво-
ляет далее вести раздельно обработку (преобразование) каждой из них (рис. 1.31),
изменяя окраску (тембр) реальных музыкальных сигналов и получая при этом также
различные звуковые эффекты, например подчеркивание тех или иных особенностей
звучания. Но обработка звуковых сигналов — это отдельная область, о которой бу-
дем говорить в других главах.
38 Раздел 1

Ðèñ. 1.31. Обработка отдельных частей аудиосигналов

Представление звукового сигнала в виде медленно изменяющихся по частоте и


амплитуде ограниченного числа медленно изменяющихся тональных сигналов (сину-
соид) и квазипостоянных шумов — это весьма сильное упрощение структуры реальных
сигналов, поскольку не учитывается здесь их самая важная часть — наличие переход-
ных процессов (выбросов). Изменение звучания при обработке переходных процессов
(изменение характеристик атаки и спада) было бы более эффективным и позволило
бы получить большее число самых разнообразных эффектов, если бы эти выбросы
были бы дополнительно выделены на этапе анализа (Sinus + Noise + Transients).
Такое разделение сигнала на три части можно выполнить, используя структуру, по-
казанную на рис. 1.32. Каждый выброс — это короткий импульс, который также
может быть представлен в виде определенного числа спектральных компонент его
шумоподобной части. Для их выделения шумоподобная часть анализируемой вы-
борки аудиосигнала подвергается прямому дискретному косинусному преобразованию
(ДКП). Далее из полученного числа коэффициентов ДКП выделяются (с помощью
похожей процедуры) наиболее значимые из них. Затем именно для этой группы выде-
ленных коэффициентов выполняется обратное ДКП (ОДКП), что и дает нам выбросы
сигнала. После их исключения (вычитания) их исходной части шумоподобной компо-
ненты e1 получаем остаточную шумоподобную компоненту e2 исходной выборки сиг-
нала (рис. 1.32). Каждая из этих компонент при необходимости может подвергаться
дополнительной обработке с целью получения разнообразных звуковых эффектов.
LPC-моделирование. Широко используется при кодировании речевых сигналов
методом линейного предсказания. Основы теории линейного предсказания подробно
изложены в главе 6 и по этой причине здесь не рассматриваются.
Синтез звука. Применяемые здесь в настоящее время алгоритмы крайне сложны.
Однако все начиналось с довольно простых идей. Они применяются в различного
рода синтезаторах звука, где те или иные виды звучаний реализуются на основе моду-

Ðèñ. 1.40. Схема выделения выбросов аудиосигналов


Аудиосигналы и их характеристики 39

ляции: амплитудной, частотной и фазовой. При этом следует различать следующие


разновидности синтеза.
Табличный синтез. Множество синусоидальных сигналов, представляющих собой
аудиосигнал, можно получить, используя так называемый цифровой генератор (его
параметры можно менять определенным образом), а можно записать (запомнить) в
виде так называемой звуковой таблицы и затем с помощью специальных процедур из-
менять из длительность, амплитуды, частоты и фазы во времени. Здесь каждая такая
синусоида синтезируется цифровым генератором. Если имеется одна такая большая
таблица и ее данные могут циклически считываться при моделировании (синтезе ре-
ального звука), то такой способ называют Wavetable Oscillator.
Но возможен и другой подход к данной проблеме. Например, когда имеется мно-
жество таких (по числу данных) таблиц, но коротких по числу записанных данных.
Эти данные могут читаться с различной скоростью, при этом совокупность данных,
полученных при чтении каждой такой короткой таблицы, образует так называемые
гранулы, их совокупности, определенным образом во времени наложенные друг на
друга, позволяют моделировать сложный по структуре звуковой сигнал. Это так
называемый Granular synthesis. Структуры эти гранул, их расположение во времени
друг относительно друга определяют тембр (окраску) звука. Существует достаточ-
но большое число работ, поясняющих особенности данного способа моделирования
реальных аудиосигналов.
Субтрактивный синтез звука. Он состоит в следующем: колебательный кон-
тур (генератор, управляемый напряжением, — Voltage Controlled Oscillator, VCO), на
который подаётся определённое управляющее напряжение, генерирует волну опреде-
лённой формы и частоты. Частота генератора, а значит, и высота тона как раз от
напряжения и зависят. Как правило, в субтрактивном синтезе используются синусо-
идная (sine), квадратная (square), пилообразная (sawtooth) и треугольная (triangle)
форма волны, — каждая обладает своим характерным звуком, весьма, кстати, узна-
ваемым. Далее сгенерированная таким образом волна пропускалась через фильтры,
которые обрезали одни и «выпячивали» другие частоты, изменяя тембр (окраску)
звука. Итак, ядром субтрактивного синтеза является фильтр. Разработанные докто-
ром Могом low-pass фильтры, подавляющие верхние частоты, до сих пор считаются
классикой, в том или ином виде их реализуют все или почти все уважающие себя
производители синтезаторов.
Своим «жирным» звуком субтрактивные синтезаторы обязаны, в первую оче-
редь, нестабильной работой VCO, что приводило к небольшому (как правило) рас-
хождению в частотах формируемых ими волноформ, а это, в свою очередь, делало
звук, как ни парадоксально, гуще и интереснее. Ведь, по большому счёту, синтеза-
торы делались поначалу вовсе не для того, чтобы имитировать звук акустических
инструментов, — интереснее было как раз их собственное уникальное звучание.
Аддитивный синтез звука. Любое звучание состоит из множества присутству-
ющих в различных количествах в каждый момент времени гармоник. Наложением
множества этих волноформ, соответствующих разным гармоникам и со своей огиба-
ющей амплитуды, можно получать очень богатые тембры. Обычно для этого исполь-
зуются сразу несколько генераторов, каждый из которых настроен на свою частоту,
кратную основной.
FM-АМ-синтез. Идея выглядит просто: несколько волн простой формы моду-
лируются по частоте медленно меняющимися сигналами разной формы, затем эти
40 Раздел 1

модулированные колебания суммируются. Одновременно с частотой может менять-


ся и амплитуда каждого из этих колебаний. В итоге может получиться на выходе
очень богатый и интересный звук. Могут вводится также определенного вида не-
линейные искажения.
Физическое моделирование звучаний музыкальных инструментов. Это одновре-
менно и самый простой для объяснения, и самый, возможно, сложный для практи-
ческой реализации метод, заключающийся в математическом представлении физи-
ческих процессов, происходящих в музыкальном инструменте при извлечении звука.
А тут и колебания струн, и колебание воздуха, и колебания корпуса инструмента, и
ещё огромное количество факторов, влияющих на звучание «живого инструмента».
Естественно, перевести их в алгоритмы полностью не удается, обычно имеет место
приближение (например, алгоритм Карплюса–Стронга для имитации колебания стру-
ны), но по идее такой метод должен давать наиболее точную имитацию звучания
акустического инструмента.
Контрольные вопросы к главе 1
1. Опишите методику статистической обработки звукового сигнала для выяснения плотности рас-
пределения его мгновенных значений. Что такое интервал однородности, стационарности, эргодичности?
Каким условиям должны удовлетворять отрывки сигнала, отобранные в качестве реализаций случайно-
го процесса?
2. Поясните различия между понятиями: мгновенное значение звукового сигнала, уровень, динами-
ческий уровень. От каких факторов зависит измеренное значение уровня?
3. Изобразите графически распределение мгновенных значений и уровней звуковых сигналов во вре-
мени. Какими зависимостями они могут быть аппроксимированы?
2. Почему мгновенные значения сигналов в оркестровых и хоровых программах хорошо описыва-
ются нормальным законом распределения? Подойдет ли этот закон для описания разговорного шума в
аудитории?
3. Что такое уровень сигнала, каковы стандартные нулевые уровни звуковых сигналов? Какова мето-
дика обработки уровнеграммы для выяснения функции распределения уровней?
4. Что называется квазиминимальным, средним, квазимаксимальным и номинальным уровнями? Ка-
кова длительность наиболее вероятных выбросов?
5. Как определяют динамический диапазон музыкальных и речевых сигналов? Что такое уровень от-
носительной средней мощности? Каковы уровни долговременной и среднеминутной мощности в каналах
звукового вещания?
6. Назовите основные характеристики речевых сигналов, поясните их смысл и возможности учета
при разработке звуковой аппаратуры.
7. Какие форманты свойственны речевому сигналу, что называется певческой формантой и каковы
ее влияние на слуховое восприятие?
8. Как определить пик-фактор музыки и речи? Каковы средние значения пик-фактора для основ-
ных видов звуковых сигналов?
9. Что такое пауза и выброс звукового сигнала? Каковы законы распределения длительности выб-
росов речи и музыки?
10. Определите понятия: текущая, среднеминутная, долговременная мощности, энергетический
спектр. Изобразите графически спектры речевых и музыкальных сигналов.
11. Что называют динамическим диапазоном звукового сигнала? Как определяется этот параметр?
12. Почему возникает необходимость сокращения динамического диапазона первичного звукового
сигнала? Как эта операция выполняется?
13. Почему с возрастанием динамического диапазона сигнала падает его средний уровень?
14. Определите понятия «огибающая» и «мгновенная частота» звукового сигнала. Каковы основные
свойства этих функций, что можно сказать о нестационарных фазах сигнала по его сглаженной огибающей?
15. Поясните основные методы моделирования звуковых сигналов.
16. Назовите основные способы и идеи, лежащие в основе синтеза звука.
2 Звуковые системы

2.1. Качество звучания при естественном слушании


Предположим, что мы находимся в концертном зале 1 с хорошей акустикой и
слушаем звучание оркестра (рис. 2.1). На эстраде 2 расположены исполнители (их
положение отмечено крестиками). Звуковые волны приходят к ушам слушателя 3 от
каждого из музыкальных инструментов по разным путям. Первой приходит прямая
звуковая волна, распространяющаяся по кратчайшему пути. Вслед за ней поступает
множество волн, отраженных от поверхностей помещения. Совокупность отраженных
волн образует реверберационный процесс в помещении. Он играет очень важную роль
в слуховом восприятии, имеет сложную спектральную, временную и пространствен-
ную структуры. Благодаря реверберации звучания инструментов и голосов кажутся
нам более богатыми в тембральном отношении и тоньше нюансированными, более
объемными и пространственными; ревербрационный процесс несет также информа-
цию об акустических особенностях помещения.
Несмотря на разнообразие форм, размеров и акустического оформления студий,
концертных залов, контрольных и жилых комнат, временная структура ревербераци-
онного процесса во всех помещениях имеет общие особенности. Типичная картина
реверберационного процесса для помещения любой формы изображена на рис. 2.2,а.
По оси ординат отложены уровни N , дБ, сигналов прямого звука и отзвуков, по оси
абсцисс — время их поступления τ , мс, в точку приема звука. В начальной стадии вре-
менная структура реверберационного процесса дискретна. С увеличением времени за-
паздывания отраженных сигналов их количество возрастает, а временные интервалы

Ðèñ. 2.1. Реверберационный процесс в помещении


42 Раздел 2

Ðèñ. 2.2. Временная структура реверберационного процесса в помещении (а), его кратковременная
функция корреляции (б) и содержащиеся в нем группы периодически следующих отзвуков (в)

между ними уменьшаются. Уровень отзвуков с течением времени также постепенно


уменьшается. Однако данный процесс имеет флуктуационный характер.
Начальный (дискретный) участок реверберационного процесса несет информа-
цию о геометрических размерах помещения, его объеме, определяет такую важную
особенность восприятия, как пространственность звучания, а также свойственную
помещению специфическую окраску звучания. Завершающий участок ревербераци-
онного процесса характеризуется поступлением в каждый момент времени достаточно
большого числа отраженных сигналов. Здесь имеет место энергетическое сложение
отзвуков. Он определяет свойственную помещению гулкость звучания.
Между сигналом прямого звука и завершающим участком реверберационного
процесса располагаются ранние отражения. Их интенсивность, направления прихода
к слушателю, время запаздывания по отношению к сигналу прямого звука определяют
плохие и хорошие места в зале. Картина ранних отражений индивидуальна для каждо-
го слушательского места, а значит, отличаются и ощущения, возникающие при прос-
лушивании одной и той же программы. Заметим (за исключением крайних случаев),
что слушатель концерта или оперы воспринимает лишь от 5 до 20 % общей энергии в
виде прямого звука, 10 % энергии приходится на завершающий участок ревербераци-
онного процесса. Остальное, примерно 70. . . 80 %, — это энергия дискретных отраже-
ний. Многие авторы утверждают, что начальная часть реверберационного процесса
гораздо важнее для субъективного восприятия, чем его завершающий участок.
В дискретной части реверберационного процесса следует различать условно ран-
ние и поздние отражения. Граница между ними лежит вблизи 50 мс для речи и
80 мс для музыки. Многочисленными экспериментальными наблюдениями отмечена
важная роль первых (ранних) дискретных отражений в создании эффекта простран-
ственности звучаний речи и музыки. При звучании музыки максимальный эффект
Звуковые системы 43

пространственности и прозрачности звучания достигается, если первое отражение


запаздывает по отношению к сигналу прямого звука примерно на 20. . . 30 мс, а пер-
вые три запаздывающих сигнала размещаются в интервале 45. . . 75 мс. При звучании
речи высокая разборчивость достигается, если первый запаздывающий сигнал при-
ходит не позже 10. . . 15 мс после сигнала прямого звука, а первые три отражения —
в интервале 25. . . 35 мс. Увеличение времени запаздывания первого отражения уси-
ливает эффект пространственности звучания, но при этом, как правило, снижается
разборчивость. Отсутствие участка дискретных отражений приводит к ощутимому
ухудшению качества звучания. Можно сказать, что самые ранние отражения повы-
шают разборчивость и прозрачность звучания, а более поздние — пространственное
впечатление. Первый запаздывающий сигнал, как правило, приходит, отразившись от
потолка: отражение от пола обычно ослабляется ковровым покрытием. Отражения
от боковых стен, приходящие в интервале времени от 25 до 80 мс, могут одновременно
повышать как прозрачность звучания, так и пространственное впечатление. Прост-
ранственность прихода ранних отражений — очень важная особенность дискретного
участка реверберационного процесса в помещении.
Более детальное представление о временной структуре реверберационного про-
цесса дает кратковременная корреляционная функция импульсного отклика помеще-
ния B0 (τ ) (рис. 2.2,б). Она содержит множество энергетических пиков, отличающих-
ся как по уровню, так и по расположению их на оси текущего времени τ . Все это поз-
воляет рассматривать реверберационный процесс как совокупность (сумму) аперио-
дических отражений и групп периодически следующих отзвуков (рис. 2.2,в), каждая из
которых имеет различный период следования Ti и неодинаковое расположение на оси
текущего времени τ . Отзвуки, приходящие апериодически, образуют так называемый
реверберационный фон (плавно спадающий по уровню) и воспринимаются слитно.
Энергетические пики кратковременной функции корреляции образуют (при слу-
ховом восприятии реверберационного процесса) отзвуки высокого уровня, несущие
информацию об акустических свойствах помещения. Если разница по времени поступ-
ления к слушателю соседних пиков кратковременной корреляционной функции ∆τ1,2 ;
∆τ2,3 ;. . . ;∆τi,j меньше порогового значения ∆τпoр , то эти отзвуки высокого уровня вос-
принимаются слитно (рис. 2.2,б). При ∆τi,j > ∆τпoр они воспринимаются раздельно.
В реальных условиях это последнее условие выполняется достаточно часто. Отсюда
следует, что при окончательной обработке реверберирующего сигнала в высших цен-
трах головного мозга слушателя, т. е. при его превращении в ощущения образуется
ряд раздельно воспринимаемых вторичных звуковых образов.
Пространственность прихода отзвуков уменьшает их взаимное маскирующее
действие. Следствием этого является улучшение условий для их обработки в слу-
ховом анализаторе человека. Это, в свою очередь, улучшает условия восприятия
акустической обстановки помещения, свойственной ему окраски и гулкости звучания,
способствует более точной оценке тембров инструментов и голосов.
Итак, при слушании в концертном зале сигналы на левом (Л) и правом (П) ушах
слушателя не тождественны (см. рис. 2.1). Они имеют разные временные структу-
ры, различные пространственные и спектральные особенности. Эта так называемая
бинауральная пара сигналов определяет всю совокупность ощущений, свойственных
естественному слушанию. При этом основными ощущениями или признаками качес-
тва звучания являются следующие.
1. Пространственное впечатление, объемность, протяженность звучания, ощуще-
ние расположения источников звука оркестра в разных точках пространства, как по
44 Раздел 2

фронту, так и по глубине. Местоположение источников звука — музыкальных инстру-


ментов — может быть достаточно четко локализовано в пространстве, однако число
одновременно воспринимаемых направлений на источники звука и звуковых планов
невелико. Обычно в том и другом случае не более двух-трех. Чаще всего в каж-
дый текущий момент времени выделяется лишь одно доминантное направление, все
остальное воспринимается как размытый в пространстве звуковой образ.
2. Прозрачность или раздельность звучания. Прозрачность звучания опреде-
ляется способностью слушателя выделять и раздельно воспринимать инструменты,
голоса или их группы на фоне звучащего ансамбля.
3. Естественность и богатство тембров инструментов и голосов.
4. Музыкальное равновесие, баланс громкостей отдельных составных частей
сложного звукового образа.
5. Восприятие акустической обстановки помещения (концертного зала), свойст-
венных ему гулкости, теплоты, мягкости, светлости, звонкости и т. п.
Каждый такой признак качества включает обычно еще и несколько более прос-
тых ощущений.

2.2. Назначение и классификация звуковых систем, форматы


звуковых сигналов
Звуковые системы предназначены для возможно более полной передачи всей со-
вокупности ощущений из первичного помещения (студии, концертного зала) во вто-
ричное — жилую комнату радиослушателя или телезрителя, а также в помещение
кинозала и т. п. Акустические характеристики этих помещений очень сильно отлича-
ются друг от друга, что создает дополнительные трудности и оказывает существенное
влияние на структуру самой звуковой системы. Система звукопередачи должна пре-
доставлять широкие возможности для реализации творческой фантазии звукорежис-
сера, в том числе и для создания звуковых эффектов, осуществить которые трудно
или даже невозможно в условиях естественного слушания. При этом не ставится за-
дача точного копирования в помещении прослушивания всех особенностей звукового
поля первичного помещения, да это практически и невозможно.
Итак, звукопередача — это не пассивное отображение звукового поля студии,
а процесс активной творческой переработки звукорежиссером исходного множества
первичных звуковых сигналов, создания на приемной стороне системы нового звуко-
вого поля, может быть даже непохожего на исходное, но обеспечивающего полноцен-
ное слуховое восприятие, свойственное тому или иному способу звукопередачи.
Обобщенная структурная схема звуковой системы радиовещания и телевидения
изображена на рис. 2.3. Она состоит из двух основных частей: одна находится на
стороне передачи, а другая — на стороне приема звуковой информации. Звуковые
системы радиовещания, телевидения, кинематографа — это разомкнутые системы.
В противоположность этому системы звукоусиления, например концертных залов,
являются замкнутыми.
На рис. 2.3 используются следующие обозначения:
1, 2, 3,. . . ,N — входные каналы первичных звуковых сигналов (N — число таких
первичных сигналов);
xi (t) — i-й первичный сигнал. Множество таких первичных сигналов {xi (t)}N
поступает от микрофонов и с выходов многоканального магнитофона. Каждый пер-
вичный сигнал формирует на стороне воспроизведения (жилая комната радиослуша-
Звуковые системы 45

Ðèñ. 2.3. Обобщенная структурная схема звуковых систем радиовещания, телевидения, кинематографа

теля или телезрителя) свой источник звука (действительный или кажущийся), явля-
ющийся составной частью сложного звучания;
Φ — совокупность устройств, предназначенных для формирования и обработки
звуковых сигналов: регуляторы уровня (установочные и оперативные), коммутаци-
онные и смесительные устройства, панорамно-кодирующие устройства (регуляторы
направления и протяженности стереопанорамы), регуляторы АЧХ, эквалайзеры, ре-
вербераторы, процессоры спектральной и динамической обработки, устройства созда-
ния звуковых эффектов и т. д.; большая часть этих устройств входит в состав пульта
звукорежиссера;
n — число раздельных каналов передачи звуковых сигналов на приемную сторону
системы, обычно N существенно больше n;
B — совокупность устройств для воспроизведения звуковых сигналов на прием-
ной стороне системы звукопередачи;
N ′ — число каналов воспроизведения;
Гр1 , Гр2 ,. . . , ГрN ′ — громкоговорители системы воспроизведения (СВ).
Получателем информации является слушатель.
Звуковые системы классифицируют, прежде всего, по числу каналов передачи
(записи информации) n. Различают одно- и многоканальные или стереофонические
(n > 2) звуковые системы.
Из всего многообразия звуковых систем, предложенных разными авторами на
определенных этапах развития звукотехники, наиболее жизнеспособными и распрос-
траненными в настоящее время оказались следующие.
Монофоническая система передачи звука. Здесь на передающей стороне сис-
темы формируется один сигнал, для его передачи используется один канал связи
(n = 1), воспроизводится этот сигнал в жилой комнате одним громкоговорителем.
В такой системе нет дополнительных каналов для передачи и воспроизведения в жи-
лом помещении реверберационных компонентов сигналов, составляющих звучания
отдельных источников звуковой картины. При этом сигнал, излучаемый громкогово-
рителем, содержит оптимальное с позиций слухового восприятия соотношение энер-
гий сигналов прямых звуков и их реверберирующих продолжений. Качество звучания,
обеспечиваемое данным способом передачи звука из первичного помещения (студии,
концертного зала) во вторичное (жилое) помещение, наихудшее. Однако в силу сво-
ей простоты данный способ передачи звука и сегодня является распространенным,
например, при проведении информационных передач.
Условное обозначение системы N -1-1-1, а формата воспроизведения звука
«1/0», где первая цифра 1 слева от косой черты означает число раздельных кана-
лов воспроизведения звуковых сигналов, содержащих как прямые, так и отраженные
46 Раздел 2

Ðèñ. 2.4. Звуковые форматы и системы воспроизведения: а — система воспроизведения моно-


фонической звукопередачи, звуковой формат «1/0»; б — система воспроизведения квазистерео-
амбиофонической системы звукопередачи, формат «1/2»; в — система воспроизведения обычной
стереофонической звукопередачи, формат «2/0»; г — системы воспроизведения стереоамбио-
фонической звукопередачи, форматы «2/1» и «2/2»; д — системы воспроизведения матричных
звуковых систем, форматы «3/0» и «4/0»

звуки в оптимальном соотношении или только прямые звуки, а цифра 0 — число кана-
лов, служащих для воспроизведения только реверберирующих сигналов (рис. 2.4,а).
Таких каналов в данном случае нет.
Квазистереоамбиофоническая система звукопередачи, условное обозначение сис-
темы N -1-1-3, формат воспроизведения звуковых сигналов 1/2 (рис. 2.4,б). В этом
случае из исходного монофонического сигнала на приемной стороне звуковой сис-
темы формируются, например, с помощью ревербераторов один или несколько до-
полнительных сигналов, содержащих в основном реверберирующий звук. Для их
воспроизведения используются дополнительные громкоговорители, размещаемые в
тыловой части пространства. Часто для усиления эффекта пространственности ты-
ловые громкоговорители включают через линию задержки с временем запаздывания
∆τ = 20 . . . 50 мс. Величина ∆τ обычно тем больше, чем больше объем вторичного
помещения, и зависит также от жанра программы. Такие системы способны доста-
точно полно передать акустические особенности первичного помещения (концертного
зала, студии). Пространственной звуковой панорамы здесь нет, звучание — это раз-
мытые объемные звуковые образы, наложенные друг на друга.
Обычная двухканальная стереофоническая система содержит два раздельных ка-
нала передачи звука и два канала для воспроизведения этих сигналов в жилом поме-
щении. Никаких дополнительных преобразований сигналов стереопары в помещении
воспроизведения не производится, за исключением регулирования громкости, темб-
ров по нижним и верхним частотам и стереобаланса. Иначе говоря, декодирование
сигналов стереопары выполняется в слуховой системе человека. Условное обозна-
чение такой системы N -2-2-2, формат воспроизведения «2/0» (рис. 2.4,в). Важно
отметить две особенности, присущие сигналам обычной стереофонии. Во-первых,
совместимость — сумма левого и правого сигналов стереопары должна давать пол-
ноценное монофоническое звучание; во-вторых, левый и правый сигналы стереопары
содержат как сигналы прямых звуков, так и их реверберационные продолжения, и что
самое существенное — имеют примерно одинаковое соотношение энергий сигналов
Звуковые системы 47

Ðèñ. 2.5. Расположение громкоговорителей в системах воспроизведения фирмы Dolby Lab:


а — Dolby Stereo, формат 3/1; б — Dolby Surround, Dolby Pro Logic I, Dolby Pro Logic II,
формат 3/2; Dolby Surround Digital, формат 5.1; в — системы Dolby THX Matrix и Dolby
EX, формат 3/3, а также Dolby Digital EX 6.1, формат 6.1: L, R — левый и правый ка-
налы; S — канал окружения; LS, RS и TS — левый, правый и тыловой каналы окружения

прямых и отраженных звуков в каждом из каналов воспроизведения. Эти системы


являются пока наиболее распространенными в России. Им присущи две особеннос-
ти: малый размер зоны стереофонического эффекта и недостаточно полная переда-
ча акустических особенностей помещения, откуда идет передача. Качество звучания
обычной стереофонии существенно уступает слушанию в концертном зале. Тем не
менее, их внедрение в свое время в практику радиовещания и телевидения — это
качественный скачок в развитии техники передачи звука.
Двухканальные стереофонические системы повышенного качества звучания име-
ют два канала передачи и четыре или пять каналов для воспроизведения звука. Рас-
пространены следующие разновидности этих систем:
стереоамбиофонические системы, имеющие фронтальную и тыловую пары гром-
коговорителей (рис. 2.4,г). Фронтальная пара громкоговорителей воспроизводит пол-
ноценный стереофонический сигнал обычной двухканальной системы передачи. Ты-
ловая пара громкоговорителей (два или один) воспроизводит в основном сигналы
реверберации. Условное обозначение системы N -2-2-3 или N -2-2-4, форматы вос-
произведения «2/1» и «2/2» соотвественно;
матричные системы передачи, они имеют два канала передачи звука (n = 2) и
три (или четыре, или большее число) каналов воспроизведения. Эти системы прошли
достаточно большой путь в своем развитии от квадрафонии (рис. 2.4,д) до систем
пространственного звучания, широко представленных сегодня фирмой Dolby Lab. Из-
начально фирма Dolby Lab разрабатывала свои звуковые системы применительно к
кинематографу — Dolby Stereo, формат «3/1» (рис. 2.5,а); позже появились системы
Dolby Surround и Dolby Pro Logic I и Dolby Pro Logic II, формат «3/2» (рис. 2.5,б),
затем Dolby THX Matrix, формат «3/3» (рис. 2.5,в). Из систем, разработанных в
России, к этому классу относятся две: «Суперфон-35» (аналог Dolby Stereo) и ABC-
Stereo (рис. 2.6). Условное обозначение системы звукопередачи Dolby Stereo имеет
вид N -4-2-4 или N -4-2-5, а системы ABC-Stereo — N -2-4 или N -2-5;
бинауральные системы. Эта особая разновидность двухканальных звуковых сис-
тем повышенного качества звучания, совершенствованию которых сегодня уделяется
особое внимание разработчиков.
Многоканальные звуковые системы. К ним обычно относятся звуковые системы
с числом раздельных каналов передачи звука n > 2. Наиболее распространенной их
разновидностью являются системы Dolby Digital 5.1 (рис. 2.7,а), Dolby Digital Surround
EX 6.1 (рис. 2.7,б), Dolby Digital THX Surround EX 7.1 (рис. 2.7,в), Sony Dynamic Digital
48 Раздел 2

Ðèñ. 2.6. Расположение громкоговорителей в системе «ABC-стерео»: ЛФ, ПФ — левый и пра-


вый фронтальные сигналы; ЛТ, ПТ — левый и правый тыловые сигналы; Ц — центральный фрон-
тальный сигнал; крестиками на левом рисунке изображены места возможных локализаций КИЗ

Ðèñ. 2.7. Расположение громкоговорителей в цифровых многоканальных системах пространс-


твенного звучания: а — Dolby Surround Digital, DTS, формат «5.1»; б — системы Dolby Digital
Surround EX, формат «6.1»; в — Dolby Digital THX Surround EX 7.1; системы фирмы Sony форма-
тов «7.1» (SDDS) (в) и «8.1» (г)

System 7.1 и т. п. Это уже дискретные звуковые системы, где число раздельных кана-
лов передачи равно числу формируемых на передающей стороне звуковых сигналов.
Это цифровые звуковые системы с комрессией цифровых аудиоданных. Заметим,
что увеличение числа фронтальных громкоговорителей по сравнению с форматом
3/2 расширяет зону стереофонического эффекта.
Появляются цифровые звуковые системы все с большим числом раздельных ка-
налов, например в 2005 г. продемонстрирована система формата 22.2 (Япония).

2.3. Звуковые системы и качество звучания


Наиболее полные исследования в этом направлении были выполнены в Японии.
Варианты исследованных систем показаны на рис. 2.8. Здесь изображено соответ-
ственно расположение микрофонов в помещении записи и громкоговорителей в по-
мещении воспроизведения. Варианты самих систем обозначены цифрами 0,1,. . . , 11.
Результатом экспертиз явилась обобщенная сравнительная оценка качества звучания
Q (рис. 2.8,в), полученная методом парных сравнений. По оси абсцисс отложен поряд-
ковый номер системы. По оси ординат — разница в звучании, в баллах. Шкала оценки
пятибалльная. За базовый вариант при сравнительном прослушивании принято зву-
чание обычной стереофонической системы (n = N = 2), поэтому для нее Q = 0.
Заметим, что все исследованные варианты систем — это дискретные звуковые систе-
мы, где каждый микрофон отдельным каналом связан со своим громкоговорителем.
Расположение микрофонов и громкоговорителей одинаково.
Результаты экспертиз позволяют сделать следующие выводы:
Звуковые системы 49

Ðèñ. 2.8. Расположение микрофонов (а), громкоговорителей (б) и обобщенная оценка


качества звучания (в) для исследованных вариантов многоканальных стереофонических систем

1) увеличение числа раздельных каналов передачи повышает качество звучания;


лучшие варианты многоканальных систем (6, 7 и 11 на рис. 2.8,в) уверенно пред-
почитаются обычной стереофонической системе звукопередачи, их внедрение может
обеспечить новый качественный скачок в развитии радиовещания, телевидения, ки-
нематографа;
2) для каждого числа раздельных каналов передачи существует свой оптималь-
ный с позиций пространственного слуха человека вариант расстановки громкогово-
50 Раздел 2

рителей в помещении прослушивания, обеспечивающий предельно достижимое для


данного значения n качество звучания Q. При этом, чем больше область прост-
ранства, в пределах которой система звукопередачи способна обеспечить восприятие
направлений прихода звуков, тем выше (при прочих равных условиях) обеспечивае-
мое ею качество звучания;
3) при многоканальной передаче основную роль играют признаки качества, свя-
занные с пространственным восприятием: глубина звуковых образов F1 , полнота зву-
чания F2 , ясность звучания F3 . Линейная многомерная модель оценки качества зву-
чания (ESP-модель, глава 10) при этом имеет вид
Q = 0,253F1 + 0,365F2 + 0,161F3 .
Цифры перед значениями факторов Fi в этой модели представляют собой значи-
мость (вес) каждого из них при формировании суждения о качестве звучания (обоб-
щенной оценки качества).
Новейшие результаты исследований природы стереофонического эффекта, широ-
кое внедрение в практику звуковоспроизведения систем пространственного звучания
позволяют утверждать, что передача пространственной информации с наибольшей
точностью и в максимально возможном объеме — важнейшее условие дальнейше-
го повышения качества звучания. В пределе необходимо стремиться к тому, что-
бы пространственные характеристики системы звукопередачи (или, что тоже самое,
области уверенной локализации кажущихся источников звука) были бы адекватны
возможностям пространственного слуха человека при локализации действительных
источников звука.

2.4. Обычная стереофоническая звуковая система


Обычная стереофоническая звуковая система имеет два независимых канала пе-
редачи (рис. 2.9,а). Исходное множество первичных сигналов {xi (t)}N источников
звука преобразуется в левый Л(t) и правый П(t) сигналы стереопары по правилу

N
Л(t) = a1i (t)xi (t − ∆τ1i );
i=1
(2.1)

N
П(t) = a2i (t)xi (t − ∆τ2i ),
i=1

где a1i , a2i и ∆τ1i , . . . , ∆τ2i — амплитуды и временные сдвиги для i-гo первичного
сигнала xi (t), формирующего при воспроизведении i-й источник звука стереопанора-
мы (пары коэффициентов кодирования для сигнала i-го источника звука). Значения
этих параметров однозначно определяют местоположение i-гo звукового образа на
линии базы громкоговорителей Гр1 и Гр2 . Формирование сигналов стереопары Л(t)
и П(t) выполняется с помощью панорамно-кодирующего устройства (ПКУ) или мик-
рофонных систем AB, XY и M S.
Сигналы Л(t) и П(t) по двум раздельным каналам передачи поступают на со-
ответствующие входы тракта воспроизведения. В его состав входят двухканальный
стереофонический усилитель (СУ) и система воспроизведения (СВ), содержащая два
громкоговорителя Гр1 и Гр2 , обычно располагаемых на некотором расстоянии друг от
друга перед слушателем (С). Никакие дополнительные преобразования над сигнала-
ми стереопары здесь не выполняются: левый громкоговоритель Гр1 излучает сигнал
Звуковые системы 51

Ðèñ. 2.9. Структурная схема (а), варианты


построения систем воспроизведения обычной
(б) и комбинированной (в ,г) стереофонической
системы звукопередачи

Л(t), а правый Гр2 — сигнал П(t). Декодирование сигналов Л(t) и П(t) осуществля-
ется непосредственно в слуховом анализаторе человека.
Сигналы стереопары воспроизводятся с помощью разнесенной СВ, состоящей из
двух одинаковых громкоговорителей, устанавливаемых перед слушателем на некото-
ром расстоянии друг от друга (рис. 2.9,а); совмещенной СВ (рис. 2.9,б) — громко-
говорители Гр1 и Гр2 конструктивно объединены в одном корпусе, где также обычно
располагается и электрическая часть приемника, телевизора, магнитофона и т. п.;
комбинированной (рис. 2.9,в), в которой низкочастотные звенья левого и правого
громкоговорителей объединены, а средне- и высокочастотные звенья выполнены в
виде отдельных выносных громкоговорителей, имеющих сравнительно малые разме-
ры (здесь же приведены рекомендуемые значения граничных частот для громкогово-
рителей СВ). Варианты комбинированных СВ отличаются друг от друга тем, что в
одном случае они совмещены с корпусом ТВ приемника (рис. 2.9,г), а в другом —
выполнены в отдельных конструкциях, что в ряде случаев гораздо удобнее с потре-
бительской точки зрения.
В последние годы особое распространение получают СВ, имеющие общий ка-
нал сверхнизких частот (СНЧ) и соответствующий ему громкоговоритель (называ-
емый Subwoofer), работающий в полосе частот от 20. . . 25 до 80. . . 125 Гц, и два
громкоговорителя левого и правого каналов, работающие в полосе частот от 125 до
52 Раздел 2

18000. . . 20000 Гц. Такая СВ очень удобна для размещения в жилой комнате, при
этом Subwoofer может располагаться в любом месте жилого помещения.
Наряду с громкоговорителями для воспроизведения сигналов Л(t) и П(t) часто
используют стереотелефоны.

2.5. Стереофонический эффект


Анализ большого числа экспериментальных данных убедительно доказывает, что
восприятие всех сопутствующих стереофоническому эффекту признаков качества воз-
можно, пока звуковые образы, составляющие стереопанораму, разнесены в простран-
стве, а реверберационные продолжения сигналов стереопары различны. При этом
решающее значение при восприятии стереофонического эффекта играют механизмы
пространственного слуха человека и прежде всего механизмы образования кажущихся
источников звука, их локализации и пространственной демаскировки.
Локализация кажущегося источника звука. Рассмотрим особенности образова-
ния и локализации звуковых образов при двухканальном воспроизведении. Предполо-
жим, что слушатель находится на оси симметрии Y системы воспроизведения Гр1 и
Гр2 , а излучаемые громкоговорителями сигналы Л и П не имеют различий по време-
ни (∆τ = 0) и уровню (∆N = 0) и получены от одного и того же источника звука M
(рис. 2.10). Громкоговорители Гр1 и Гр2 включены синфазно. В этом случае звучания
обоих громкоговорителей сливаются в единый звуковой образ, который кажется слу-
шателю расположенным посередине линии базы громкоговорителей в точке 0. Этот
звуковой образ является кажущимся (КИЗ), его появление возможно, если сигналы,
излучаемые громкоговорителями, статистически связаны (коррелированны). По мере
снижения коэффициента корреляции между канальными сигналами KИЗ локализуется
все менее четко, его протяженность увеличивается, и при уменьшении коэффициента
корреляции R(∆τ ) сигналов Л и П до значения 0,1. . . 0,15 наступает разрыв КИЗ на
два действительных источника звука. Последние воспринимаются раздельно и лока-
лизуются соответственно в позициях левого (Гр1 ) и правого (Гр2 ) громкоговорителей.
Феномен образования КИЗ, возможность его локализации в разных точках прост-
ранства — наиболее яркая особенность стереовоспроизведения, определяющая такой

Ðèñ. 2.10. Экспериментальная установка для изучения особенностей локализации КИЗ: ЛЗ1 и ЛЗ2 —
линии задержки; М — магнитофон
Звуковые системы 53

его признак качества, как пространственное впечатление. Локализация КИЗ вклю-


чает оценку азимута и расстояния до источника звука. Глубинная локализация КИЗ
изучена недостаточно: не в полной мере выявлены стимулирующие ее факторы, не
разработаны полные модели этого механизма слуха, адекватные восприятию.
Положение КИЗ на линии базы громкоговорителей (оценка его азимута) зави-
сит только от временных ∆τб и интенсивностных ∆Nб различий между сигналами,
достигающими ушей слушателя. Эти различия могут быть обусловлены либо свойс-
твами сигналов Л и П стереопары (∆N = 20 lg(a2i /a1i ) и ∆τ = ∆τ2i − ∆τ1i ), либо
местом расположения слушателя относительно громкоговорителей (∆Nx,y , ∆τx,y , где
x и y — координаты слушателя). При дальнейшем рассмотрении смещение КИЗ (S,
см. рис. 2.10) вправо от центра базы будем считать положительным (+S), а влево —
отрицательным (−S).
Интенсивностная стереофония (∆τ = 0, ∆N ̸= 0), симметричное расположение
слушателя относительно громкоговорителей (x = 0, y ̸= 0). Зависимости, характе-
ризующие смещение КИЗ под действием разности уровней ∆N сигналов Л и П, для
разных условий проведения эксперимента представлены на рис. 2.11. Здесь по оси
ординат отложено относительное смещение S/(B/2) кажущегося источника звука в
долях полубазы B/2, а по оси абсцисс — значения ∆N в децибелах, определяемые
как 20 lg(pзв2 /pзв1 ), где pзв1 и pзв2 — звуковые давления, развиваемые соответствен-
но левым и правым громкоговорителями СВ.
Характер зависимостей S/(B/2) = f1 (∆N ) на рис. 2.11 для всех типов вещатель-
ных сигналов (речевых и музыкальных) одинаков. Введение ∆N сопровождается пере-
мещением КИЗ от своего первоначального положения (S = 0 при ∆N = 0) в сторону
громкоговорителя, излучающего сигнал с большим уровнем. При N = 12 . . . 18 дБ
КИЗ локализуется практически в позиции громкоговорителя и дальнейшее увеличе-
ние ∆N не вызывает его дальнейшего перемещения.
Величина относительного смещения S/(B/2) КИЗ при ∆N = const практически
не зависит от расстояния y между слушателем и линией базы Гр1 и Гр2 для ма-
лых баз (B = 0,8 . . . 1,8 м, рис. 2.11,а). Поэтому здесь представлены результаты,
усредненные по y.
Для относительно больших баз (B > 2,8 м) это утверждение справедливо только
при y > В (рис. 2.11,б). При приближении слушателя к системе воспроизведения на
расстояние y < В наблюдается (при ∆N = const) смещение КИЗ тем меньшее, чем
ближе расположен слушатель к линии базы громкоговорителей.
Реверберационный процесс помещения прослушивания (из-за эффекта предшес-
твования) практически не влияет на азимутальное положение КИЗ, но приводит к

Ðèñ. 2.11. Зависимость относительного смещения КИЗ от разности уровней при ∆τ = 0иx = 0
54 Раздел 2

увеличению протяженности последнего (вследствие снижения корреляции между вос-


принимаемыми сигналами), что снижает точность локализации КИЗ. Можно сказать,
что азимутальная локализация КИЗ практически определяется сигналами прямого
звука, поступающими от громкоговорителей к левому и правому ушам слушателя
по кратчайшему пути.
Временная стереофония (∆N = 0, ∆τ ̸= 0), симметричное положение слушате-
ля относительно громкоговорителей системы воспроизведения (x = 0, y ̸= 0). При
введении временного сдвига ∆τ КИЗ смещается в сторону громкоговорителя, излуча-
ющего опережающий сигнал. Перемещение КИЗ с увеличением ∆τ носит монотонный
характер только для сигналов, спектры которых не имеют ярко выраженных неодно-
родностей распределения энергии по частоте (рис. 2.12,а). При изменении ∆τ от 0 до
0,8. . . 1,2 мс наблюдается быстрое перемещение КИЗ до позиции (0,7. . . 0,8)В/2, да-

льнейшее увеличение ∆τ до ∆τпор = 30 . . . 150 мс, соответствующей разрыву КИЗ на
два действительных источника звука, сопровождается медленным его перемещением
на участке (0,7. . . 0,8)B/2 . . . B/2. Для сигналов, спектры которых имеют ряд энер-
гетических пиков, зависимость S/(B/2) = f2 (∆τ ) носит ярко выраженный индивиду-
альный характер. В этом случае монотонное перемещение КИЗ наблюдается только
на начальном участке кривой S/(B/2) = f2 (∆τ ), где ∆τ < 0,5 . . . 1,0 мс (рис. 2.12,б).
В интервале же временных задержек от 0,5. . . 1,0 до 5. . . 7 мс наблюдается неоднократ-

Ðèñ. 2.12. Зависимость относительного смещения КИЗ от временной разности сигналов сте-
реопары с достаточно однородным спектром мощности (а, где 1 — арфа, 2 — рояль, 3 — тру-
ба, 4 — кастаньеты) и неравномерным распределением мощности по частоте (б, где 1 — жен-
ская речь, 2 — флейта, 3 — скрипка) при B = 1,8 м; ∆N = 0; x = 0; y = 1,5 м
Звуковые системы 55

Ðèñ. 2.13. Связь временного (∆τ )


и интенсивностного (∆N ) факторов
(B = 1, 8 м; y = 1,8 м и x = 0):
1 — кривая компенсации; 2 — та
же самая зависимость, полученная
при поочередном действии ∆τ и ∆N
Таблица 2.1
Пороговые значения временного сдвига сигналов, вызывающие разрыв кажущегося источника звука
Вещательный сигнал ′ , мс
∆τпор ′′ , мс
∆τпор Вещательный сигнал ′ , мс
∆τпор ′′ , мс
∆τпор
Кастаньеты 30 4 Речь женская 50 5. . . 8
Ксилофон 50 5 Скрипка 100 9. . . 12
Барабан малый 50 5 Альт 100 9. . . 12
Барабан большой 50 6 Рояль 100 12. . . 16
Коробочка 40 6 Кларнет 100 16. . . 20
Бубен 40 6 Виолончель 100 21. . . 30
Речь мужская 50 5. . . 7

ное возвращение КИЗ к центру базы с ростом ∆τ . Однако величина этих «колебаний»
уменьшается с увеличением ∆τ и уже при ∆τ = 5 . . . 7 мс становится незначительной.
Увеличение временной разности сопровождается уменьшением корреляции меж-
ду сигналами Л и П, что приводит к ухудшению четкости локализации. С ростом ∆τ
(при ∆τ > 5 . . . 7 мс) в звучании появляется гулкость, растет протяженность КИЗ,

которая при ∆τ ≈ ∆τпор становится равной B. Распад КИЗ (при ∆N = 0) наступает
при коэффициенте корреляции сигналов стереопары R(∆τ ) = 0,1 . . . 0,15. Значения
∆τ ’пор для разных типов звуковых сигналов приведены в табл. 2.1.
Смешанная стереофония (∆N ̸= 0, ∆τ ̸= 0), симметричное положение слушате-
ля относительно громкоговорителей системы воспроизведения. В этом случае оценка
азимута КИЗ определяется совместным действием на орган слуха величин ∆N и ∆τ .
Компенсация временного сдвига ∆τ разностью уровней ∆N (рис. 2.13, кривая 1) воз-
′′ ′′
можна до тех пор, пока ∆τ < ∆τпор . Значение ∆τпор , при котором наступает распад

КИЗ, также зависит от структуры сигнала, причем всегда значительно меньше ∆τпор
(см. табл. 2.1). При компенсации распад КИЗ наступает при R(∆τ ) ≈ 0,15 . . . 0,2.
Совместное действие ∆τ и ∆N (кривая 1) сопровождается следующими изменения-
ми в слуховой оценке:
1) при ∆τ < 3 . . . 4 мс опережающий и задержанные сигналы формируют ком-
пактный, четкий КИЗ; протяженность КИЗ составляет 10. . . 20 см и не изменяется
с введением ∆N . Такое восприятие будем называть устойчивым слиянием опережа-
ющего и задержанного сигналов;
2) при 3 . . . 4 < ∆τ < 7 . . . 15 мс локализация КИЗ затруднена, звучание при-
обретает гулкость и объемность. С ростом ∆τ (особенно при попытке компенсации
временного фактора разностью уровней) начинает изменяться протяженность КИЗ.
Она максимальна, если КИЗ расположен в центре базы громкоговорителей, когда
действие ∆τ скомпенсировано разностью уровней. Образование КИЗ в данном слу-
чае возможно еще при любых значениях ∆τ . Это область почти устойчивого слияния
опережающего и задержанного сигналов;
56 Раздел 2

Ðèñ. 2.14. Зависимость порогового значения интенсивностной разности ∆Nп , вызывающей разрыв
КИЗ, от ∆τ : I и II — области соответственно раздельного и слитного восприятия звучаний Гр1 и Гр2

3) при 7 . . . 15 < ∆τ < 100 . . . 120 мс слияние обоих сигналов и образование КИЗ
возможно, если ∆N = Nзan − Nоп < ∆Nп , где Nзап и Nоп — уровни запаздывающего
и опережающего сигналов; ∆Nп — пороговое значение ∆N , соответствующее распаду
КИЗ. Зависимость ∆Nп от ∆τ представлена на рис. 2.14. Она соответствует речевому
КИЗ, получена при B = 2,4 м и y = В (x = 0). При приближении ∆N (компенсирую-
щей действие ∆τ ) к ∆Nп протяженность КИЗ возрастает и при ∆N = ∆Nп становится
равной величине базы. Область выше кривой соответствует распаду КИЗ и раздель-
ному восприятию звучаний двух действительных источников звука — громкоговори-
телей. Этот временной интервал — область неустойчивого слияния опережающего
и задержанного сигналов;
4) при ∆τ > 100 . . . 120 мс слияние невозможно, слушатель воспринимает раз-
дельно звучание двух действительных источников звука — громкоговорителей, если
превышается порог слышимости.
Приведенные выше числовые значения соответствуют речевому сигналу. Для
сигналов других типов качественно картина не изменяется, возникают лишь те или
иные количественные изменения.
Асимметричное положение слушателя относительно громкоговорителей систе-
мы воспроизведения. При боковом смещении x слушателя (рис. 2.15,а) появляются
дополнительные интенсивностные ∆Nx,y и временны́е ∆τx,y различия сигналов, пос-
тупающих от громкоговорителей в точку прослушивания A(х, у):
l1 (x, y)D2 (ψ2 ) l1 (x, y) − l2 (x, y)
∆Nx,y = 20 lg ; ∆τx,y = ,
l2 (x, y)D1 (ψ1 ) cзв
√ √
где l1 (x, y) = (B/2 + x)2 + y 2 ; l2 (x, y) = (B/2 − x)2 + y 2 — расстояния до Гр1
и Гр2 ; B — размер базы громкоговорителей; x, y — координаты слушателя; cзв —
скорость звука; D1 (ψ1 ), D2 (ψ2 ) — значения характеристик направленности левого
(Гр1 ) и правого (Гр2 ) громкоговорителей соответственно для углов ψ1 и ψ2 .
Оба фактора ∆Nx,y и ∆τx,y действуют в согласии, вызывая смещение КИЗ в
сторону ближайшего к слушателю громкоговорителя. Основную роль при этом играет
∆τx,y . Однако нельзя пренебрегать и влиянием ∆Nx,y , особенно при малых значениях
y и больших значениях x.
Влияние бокового смещения слушателя на локализацию КИЗ показано на
рис. 2.15,б. Перемещение КИЗ начинает ощущаться только при достижении опреде-
ленного значения ∆N , компенсирующего действие на орган слуха величин ∆τx,y , ∆Nx,y
Звуковые системы 57

Ðèñ. 2.15. Пример бокового смещения слу-


шателя (а) и зависимость относительного
смещения КИЗ от бокового смещения слуша-
теля при ∆r = 0, B = 2,8 м, y = 2 м (б)

(там, где это еще не приводит к распаду КИЗ). Неизменность форм данных кривых
на рис. 2.15,б свидетельствует о независимости действия на орган слуха временных и
интенсивностных различий и позволяет характеризовать местоположение каждой кри-
вой величиной ∆N0 , необходимой для возвращения КИЗ в центр базы громкоговори-
телей. На рис. 2.16,а приведены кривые зависимости ∆N0 от x, а на рис. 2.16,б пред-
ставлена зависимость ∆N0 от размеров базы громкоговорителей. Момент перехода
КИЗ через центр базы громкоговорителей характеризуется наибольшим разбросом
экспертопоказаний. Штриховой линией показаны аппроксимированные значения ∆N0 .
Коэффициент эквивалентности. Величины ∆N и ∆τ эквивалентны по действию
на орган слуха. Определенные пары значений ∆N ′ и ∆τ ′ могут вызывать одно и то

Ðèñ. 2.16. Влияние бокового смещения x на компенсирующую интенсивностную разность: а — при


различных y и B = 2,8 м; б — при различных значениях базы громкоговорителей (x = 0,5 м; y = 2 м)
58 Раздел 2

Ðèñ. 2.17. Коэффициент эквивалентности в функции: а — бокового смещения слушателя (штриховая


линия — аппроксимация выражением (2.2)); б — положения КИЗ на линии базы громкоговорителей
при симметричном (1) и асимметричном (2) положениях слушателя (x = 0,5 м; y = 2 м; B = 1,8 м)

же смещение КИЗ от своего первоначального положения. Их отношение называют


коэффициентом эквивалентности:
K(x) = ∆N ′ (x, y)/∆τ ′ (x, y),
где ∆N ′ (x, y) и ∆τ ′ (x, y) — соответственно интенсивностное и временное различия
сигналов громкоговорителей, необходимые для возвращения КИЗ в центр базы при
расположении слушателя в точке с координатами x и y. Значение K(x) не зависит от
размеров базы B громкоговорителей, расстояния до нее, если y > 1, 0 м, и составляет
около 10 дБ/мс при x = 0; резко уменьшается с увеличением x, составляя уже при
x = 1 м около 1,5 дБ/мс. Экспериментальная зависимость (сплошная линия на
рис. 2.17,а) хорошо аппроксимируется выражением
K(x) = [2/(x + 0,2)] − 0,3. (2.2)
Здесь x выражено в метрах. Величина K(x) постоянна для КИЗ, расположенных в
средней части стереопанорамы (рис. 2.17,б). Для КИЗ, удаленных от центра базы
более, чем на 0,8B/2, значение K(x) несколько уменьшается.
Используя понятие коэффициента эквивалентности, нетрудно при одновременном
действии на орган слуха ∆N , ∆τ , ∆Nx,y , ∆τx,y перейти к чисто интенсивностной или
чисто временной стереофонии
∆Nэ = ∆N + ∆Nx,y + K(x)(∆τ + ∆τx,y ); ∆τэ = ∆τ + ∆τx,y + (∆N + ∆Nx,y )/K(x)
и затем с помощью зависимостей S/(B/2) = f1 (∆N ) и S/(B/2) = f2 (∆τ ), полученных
соответственно при ∆τ = 0 и x = 0 или ∆N = 0 и x = 0, найти относительное
смещение S/(B/2) кажущегося источника звука. Здесь ∆Nэ и ∆τэ — эквивалентные
значения разности уровней и времени запаздывания, вызывающие такое же смещение
КИЗ от центра базы громкоговорителей, как и совместно действующие величины
∆N , ∆Nx,y , ∆τ , ∆τx,y .
Пространственная звуковая панорама. Совокупность кажущихся источников зву-
ка, различающихся по положению в пространстве, образует пространственную звуко-
вую панораму (или стереопанораму). Все вышеизложенное справедливо и для мно-
жества KИЗ, но при условии, что каждый из них формирует пара коррелированных
сигналов Лi и Пi . В то же время корреляционная связь между парами коррелиро-
ванных сигналов практически отсутсвует. По этой причине корреляционная связь
между сигналами Л(t) и П(t), формирующих множество пространственно разнесен-
ных КИЗ, также мала. Каждой паре сигналов Лi и Пi соответствуют те или иные
Звуковые системы 59

Ðèñ. 2.18. Пространственные искажения стереопанорамы при боковом смещении слушателя


относительно громкоговорителей системы воспроизведения (B = 1,8 м; y = 1,5 м)

значения ∆Ni и ∆τi , которые и определяют положение этого i-го КИЗ на линии базы
громкоговорителей. Локализация кажущихся источников звука, составляющих сте-
реопанораму, взаимонезависима.
Появление ∆Nx,y и ∆τx,y при асимметричном положении слушателя относительно
Гр1 и Гр2 сопровождается смещением КИЗ от своего исходного положения и возник-
новением вследствие этого пространственных искажений. Наглядное представление
об их характере дает рис. 2.18. Начальные положения КИЗ, соответствующие сим-
метричному положению слушателя (x = 0 и y = 1,5 м), обозначены цифрами 1–5 и
показано в левой части рисунка. Из рис. 2.18 следует, что наибольшее смещение от
своего первоначального положения претерпевают КИЗ в средней части стереопано-
рамы (источники 2–4). КИЗ, находящиеся вблизи позиций громкоговорителей (1-й и
5-й), подвержены пространственным искажениям в меньшей степени, вследствие не-
линейности зависимостей S/(B/2) = f1 (∆N ) и S/(B/2) = f2 (∆τ ). Источники звука,
расположенные в позициях Гp1 и Гр2 , являются действительными и пространствен-
ным искажениям не подвержены.
Пространственные искажения достигают максимума при x = В/2, т. е. когда слу-
шатель находится напротив одного из громкоговорителей. При этом наблюдается
разрыв стереопанорамы на две части: большая часть КИЗ локализуется в направ-
лении ближайшего громкоговорителя, остальные — в области наиболее удаленного
громкоговорителя. В центральной части панорамы кажущихся источников звука нет.
Появление пространственных искажений стереопанорамы неизбежно сопровож-
дается нарушением баланса громкостей КИЗ, особенно заметным для крайних источ-
ников, ухудшением прозрачности звучания и, как следствие этого, снижением пред-
почтительности стереовоспроизведения.
Аналитические методы расчета азимутальной локализации кажущегося источни-
ка звука. Известно множество методов оценки азимута КИЗ: от простых (так на-
зываемый закон синусов) до наиболее сложных (корреляционные, энергетический,
волновой).
Корреляционная модель механизма локализации. Из всех известных моделей, по-
жалуй, наиболее строгой является модель, предложенная Черри-Сайерсом. Ее струк-
турная схема изображена на рис. 2.19. Входные сигналы гребенкой фильтров разделя-
60 Раздел 2

Ðèñ. 2.19. Структурная схема корреляционной модели пространственного слуха: а — левое ухо;
б — центральная нервная система; в — правое ухо

ются на полосы, по ширине соответствующие критическим полосам слуха. Для выде-


ленных пар полосных сигналов x′1 (t), x′′1 (t), x′2 (t), x′′2 (t),. . . ,x′m (t), x′′m (t) вычисляются
функции взаимной корреляции. В диапазоне частот выше 1,6 кГц полосные сигналы
предварительно детектируются и усредняются с целью выделения огибающей.
Все обработанные таким образом пары полосных сигналов затем вводятся в блок
распознавания, который определяет, какому из хранящихся в слуховой памяти образ-
цов соответствует полученная совокупность взаимнокорреляционных функций.
Положение максимума взаимной корреляционной функции связано с боковым
смещением (латерализацией) источника звука. Слияние возбуждений в слуховом цен-
тре головного мозга слушателя и образование КИЗ становятся возможными, если
коэффициенты корреляции сигналов, воспринимаемые от разных источников звука,
превышают некоторое пороговое значение.
Объясняя процесс образования КИЗ, его латерализацию при введении ∆N и ∆τ ,
модель не позволяет рассчитать местоположение этого КИЗ на линии базы громко-
говорителей. Однако этот недостаток может быть устранен, если предположить, что:
• оценка временного сдвига бинауральной пары сигналов определяется по величине
∆τ , при которой функция взаимной корреляции воздействующих сигналов дости-
гает своего максимального значения; в результате такого временного «сканиро-
вания» временной сдвиг входных сигналов компенсируется в слуховой системе,
когда функция взаимной корреции достигает своего максимального значения;
• вследствие латерального торможения временной сдвиг сигналов преобразуется в
эквивалентную разность уровней ослаблением по интенсивности запаздывающих
сигналов;
• направление на источник звука совпадает с положением максимума функции вза-
имной корреляции бинауральных сигналов в субъективном слуховом простран-
стве;
• вводимые в слуховой системе значения ∆τ изменяются в соотвествии с поворо-
том головы (так называемое сканирование по азимуту);
• положение максимального значения функции взаимной корреляции однозначно
связано с разностью уровней и временным сдвигом бинауральной пары сигналов.
Покажем, что введение этих уточнений достаточно для оценки азимута КИЗ при
двухканальном воспроизведении.
Звуковые системы 61

Ðèñ. 2.20. К определению функции локализации rлок

Пусть (рис. 2.20) громкоговоритель Гр1 излучает сигнал ax(t), а громкогово-


ритель Гр2 — сигнал aqx(t − ∆τ ), отличающийся от него по амплитуде в q раз и
запаздывающийся по времени на ∆τ . Будем считать, что направление на КИЗ в этой
модели совпадает с угловым положением максимума функции взаимной корреляции
rвз бинауральной пары сигналов, воспринятых микрофонами М1 и М2 :
rвз (φ) = r1 (∆τ12,11 ) + r2 (∆τ11,22 − ∆τ ) + r3 (∆τ21,12 + ∆τ ) + r4 (∆τ21,22 ) = rлок . (2.3)
Она является суммой четырех корреляционных функций. В этом выражении
первое слагаемое r1 (∆τ12,11 ) характеризует воздействие сигнала левого громкогово-
рителя на левое 1 и правое 2 уши слушателя; четвертое слагаемое r4 (∆τ21,22 ) —
то же самое, но для сигнала правого громкоговорителя Гр2 . Второе слагаемое
r2 (∆τ11,22 − ∆τ ) — результат воздействия сигнала Гр1 на левое ухо 1 и сигнала Гр2 —
на правое ухо 2. Третье слагаемое r3 (∆τ21,12 + ∆τ ) — результат перекрестного воз-
действия сигналов Гр1 и Гр2 соответственно на правое 2 и левое 1 уши слушателя.
В данном выражении ∆τ12,11 ; ∆τ11,22 − ∆τ ; ∆τ21,12 + ∆τ ; ∆τ21,22 — временны́е разности
соответствующих пар бинауральных сигналов поступающих от Гр1 и Гр2 на левое 1
и правое 2 уши слушателя.
Функция взаимной корреляции rвз (φ) сиг-
налов y1 (t) и y2 (t) может быть измерена с
помощью корреляционного пеленгатора (см.
рис. 2.20). Он содержит искусственную голову
с микрофонами М1 и М2 , микрофонные усили-
тели МУ1 и МУ ∫ 2 , перемножитель сигналов Х,
интегратор Т1 dt и самописец, фиксирующий
измеренные значения на диаграммной ленте.
При повороте искусственной головы будут
меняться величины l11 , l12 , l21 , l22 , а следовате-
Ðèñ. 2.21. Зависимость бинаураль-
льно, и соответствующие им временные задер-
ных временных сдвигов ∆τ11,12 , ∆τ21,22 ,
жки τ11 = (l11 /c); τ12 = (l12 /c); τ21 = (l21 /c);
∆τ11,22 , ∆τ21,12 от угла поворота искусст-
τ22 = (l22 /c) и значения ∆τ12,11 = τ12 − τ11 ; венной головы, аппроксимированной шаром
∆τ12,21 = τ12 − τ21 ; ∆τ21,22 = τ21 − τ22 ; ∆τ11,22 =
= τ11 − τ22 . Это, в свою очередь, вызовет изменение функций, составляющих rвз (φ).
62 Раздел 2

Зависимости ∆τ12,11 , ∆τ11,22 , ∆τ21,12 , ∆τ21,22 в функции от угла поворота φ легко вы-
числить теоретически, представив упрощенно искусственную голову в форме шара
диаметром, как это обычно принято, равным D = 16,6 см. Вид этих кривых показан
на рис. 2.21. Здесь по оси абсцисс отложены значения угла поворота искусственной
головы относительно медианной плоскости, в градусах, по оси ординат — значения
временных сдвигов, в мс. Заметим, что функцию r1 (∆τ12,11 ) можно измерить отде-
льно от всей суммы, выключив правый громкоговоритель, а функцию r4 (∆τ21,22 ) —
выключив левый громкоговоритель.
Зависимость rвз = f (φ) называют функцией локализации rлок . Если сигналы,
излучаемые Гр1 и Гр2 , имеют вид aqx(t − ∆τ ′ ) и ax(t) и представляют собой белый
Звуковые системы 63

Ðèñ. 2.22. Функция локализации и ее составляющие (белый шум в полосе частот 100...1000 Гц;
B = 2,8 м; y = B): а — при воспроизведении тождественных сигналов; б — при интенсив-
ностной стереофонии (x = 0); в — при временной стереофонии (x = 0); г — многознач-
ность функции локализации при F0 > 1000 Гц (белый шум в полосе частот 4000...6000 Гц)

шум в полосе частот от ω1 до ω2 , то их функция корреляции


a2 q∆ω sin(∆ω∆τ ′ /2)
r(∆τ ′ ) = cos(ω0 ∆τ ′ ), (2.4)
2 ∆ω∆τ ′ /2
где ∆ω = ω2 − ω1 — полоса круговых частот; ω0 = (ω1 + ω2 )/2 — средняя круго-
вая частота.
Расчетные выражения для вычисления составляющих r1 (∆τ12,11 ); r2 (∆τ11,22 −∆τ );
r3 (∆τ21,12 + ∆τ ); r4 (∆τ21,22 ), аналогичны выражению (2.4). Разница состоит лишь в
том, что для каждой из них существует свое максимальное значение, равное a2 ∆ω/2
для r1 (∆τ12,11 ); a2 q 2 ∆ω/2 для r4 (∆τ21,22 ; a2 q∆ω/2 для r2 (∆τ11,22 − ∆τ ) и r3 (∆τ21,12 +
+ ∆τ ), а также свой временной сдвиг ∆τ ′ , указанный для них в круглых скобках.
64 Раздел 2

Поведение функции локализации при разных ситуациях (интенсивностная, вре-


менная и смешанная стереофония) показано на рис. 2.22. Однако угловое положение
максимального значения функции локализации совпадает с направлением на КИЗ
только в случае чисто интесивностной стереофонии, когда ∆τ = 0 и входное поворт-
ное устройство корреляционного пеленгатора расположено на оси симметрии Y гром-
коговорителей Гр1 и Гр2 системы воспроизведения (рис. 2.22,а и б). Расчеты показы-
вают, что при расположении входного поворотного устройства на оси симметрии гром-
коговорителей Гр1 и Гр2 и ∆τ ̸= 0 (временная стереофния) имеет место (рис. 2.22,в)
смещение максимумов функций r2 (∆τ11,22 −∆τ ) и r3 (∆τ21,12 +∆τ ) в разные стороны от
значения φ = 0. При этом функция локализации уплощается, ее максимум не изме-
няет своего углового положения, но становится весьма неопределенным, в то время
как слушатель уверенно локализует КИЗ и отмечает его смещение в сторону громко-
говорителя, излучающего опережающий сигнал. Не обеспечивается также получение
правильных результатов и при асимметричном положении входного поворотного ус-
тройства пеленгатора вследствие появляющегося при этом временного сдвига ∆τx,y .
Последний обусловлен различием расстояний до громкоговорителей Гр1 и Гр2 .
Для преодоления этих трудностей необходима предварительная коррекция вход-
ных сигналов, выполняемая так же, как об этом свидетельствуют результаты новей-
ших исследований, и в слуховой системе человека. Разница по времени ∆τ заме-
няется эквивалентной разностью уровней ∆Nэ = Kx ∆τ с использованием уже вве-
денного ранее коэффициента эквивалентности Kx . Вполне понятно, что если эта
коррекция будет выполняться для сигналов, воспринятых микрофонами М1 и М2 (см.
рис. 2.20), то количественные соотношения между величинами ∆Nэ и ∆τ будут ины-
ми по сравнению с тем, что имело бы место, если бы она проводилась для сигналов,
подводимых к Гр1 и Гр2 .
Введение величины ∆τопт , компенсирующей временной сдвиг ∆τ сигналов, «воз-
вращает» функции r2 (∆τ11,22 − ∆τ ) и r3 (∆τ21,12 + ∆τ ) в первоначальное положение,
когда максимальные значения последних совпадают с направлением на центр базы.
Ослабление же запаздывающего сигнала по интенсивности приводит случай чисто
временной стереофнии к чисто интенсивностной стереофонии.
И еще одно обстоятельство непременно должно быть учтено. При достаточно
высокой средней частоте (F0 > 1000 Гц) полосы шума каждое из слагаемых функции
локализации rлок , вычисленное с помощью выражения (2.4), становится многознач-
ным ввиду быстрого изменения сомножителя cos(ω0 ∆τ ′ ). Вследствие этого функция
локализации также становится многозначной (рис. 2.22,г). При этом ее главный мак-
симум в общем случае уже не совпадает с направлением на КИЗ. Для устранения
этого затруднения уместно вспомнить следующее. Механизм локализации, являясь
инерционным элементом органа слуха (время адаптации слуха на оценку направле-
ния составляет около 120. . . 150 мс), реагирует не на мгновенные значения звукового
сигнала, а на его огибающую. Она получается выпрямлением (линейный детектор) и
усреднением (RC-фильтр) мгновенных значений. Напомним, что длительность слухо-
вой памяти составляет 30. . . 50 мс. Если допустить, что в слуховой системе происхо-
дит выделение огибающей сигнала, то выражение (2.4) для расчета слагаемых rлок
при F0 > 1000 . . . 1500 Гц преобразуется к виду

′ ′

2 ∆ω sin(∆ω∆τ /2)
r (∆τ ) = a q .
2 ∆ω∆τ /2

Учет этого обстоятельства и замена r(∆τ ′ ) на r′ (∆τ ′ ) приводит к тому, что и в


Звуковые системы 65

этом случае функция локализации имеет один четкий максимум, а угловое положение
последнего совпадает с направлением на КИЗ.
Сопоставление теоретических результатов и данных экспертиз показывает, что
учет всех изложенных выше дополнений приводит к тому, что функция локализации
имеет один четкий максимум. При этом его угловое положение при любых услови-
ях проведения эксперимента всегда совпадает с направлением на кажущийся источ-
ник звука. Таким образом, корреляционный пеленгатор с блоками дополнительной
коррекции представлет собой прибор для оценки азимута КИЗ при двухканальном
стереовоспроизведении. В случае многоканальной стереофонии картина существенно
усложняется, но об этом будет сказано в разд. 2.6.
Ассоциативная модель слуха и оценка азимута источника звука. Ассоциативная
модель локализации источника звука предполагает наличие двух последовательных
этапов обработки информации в слуховой системе: ассоциации места действительно-
го источника звука в пространстве и ассоциации формы, где возможны образование
КИЗ и оценка его азимута.
Звуковая волна, распространяясь от источника звука (рис. 2.23,а) соотвественно
к левому и правому входам слухового анализатора, претерпевает изменения, вызван-
ные частотно-зависимым затуханием звука в воздухе с расстоянием, дифракционными
явлениями, определяемыми формой головы и ушных раковин слушателя. Все эти из-
менения могут быть однозначно описаны парой образующих матрицу D передаточных
функций H1i и H2i линейной цепи, расположенной между источником звука и левым
и правым входами слуховой системы.
Матрица D однозначно определяет место действительного источника звука в
пространстве. Этот процесс можно представить как пространственное кодирование
источника звука. При этом бинауральная пара сигналов Лб и Пб , соотвествующая
источнику звука, расположенному в точке i (рис. 2.23,а),
Лб = H1i Q; Пб = H2i Q,

Ðèñ. 2.23. К пространственному кодированию и декодированию одного (а) и двух (б) действительных
источников звука
66 Раздел 2

где Q — сигнал, излучаемый источником звука; H1i и H2i — коэффициенты передачи,


описывающие все те изменения, которые претерпевает звуковая волна, распростра-
няясь от места i нахождения источника звука до левого 1 и правого 2 уха слушателя.
При наличии двух действительных источников звука, расположенных в местах i
и j и излучающих соотвественно сигналы a и b (рис. 2.23,б), результат их простран-
ственного кодирования можно представить в виде
Лб = H1i a + H1j b; Пб = H2j b + H2i a.
Здесь H1i , H1j , H2j , H2i — зависящие от места коэффициенты передачи, описыва-
ющие изменения, претерпеваемые звуковой волной при распространении от каждого
источника звука i и j соответственно до левого 1 и правого 2 уха слушателя С.
Пространственное декодирование заключается в разделении (селекции) пар би-
науральных сигналов по принципу места. Этот этап обработки информации в слу-
ховой системе является первым, он носит название ассоциации места. В памяти
слуха для каждой совокупности мест {i, j} существует инверсная матрица D−1 , ко-
эффициенты передачи которой для каждого из пары бинауральных сигналов обратны
соотвествующим коэффициентам матрицы D. С ее помощью осуществляется разде-
ление (селекция) сигналов источников звука по принципу места (рис. 2.23,б). Для
источника звука, расположенного в месте i (рис. 2.23,а), матрица декодирования D−1
адаптивным путем принимает коэффициенты передачи равные 1/H1i и 1/H2i , что
обеспечивает выделение сигнала Q′ . Действительно,
Лб · 1/H1i = Q′ ; Пб · 1/H2i = Q′ .
При наличии двух действительных источников звука i и j коэффициенты передачи
инверсной матрицы D−1
H2j Лб − H1i Пб H1j Пб − H2i Лб
и
H1i H2j − H2i H1i H1i H2j − H2i H1i
обеспечивают распознавание сигналов a′ и b′ , отличающихся от исходных a и b на
величину погрешности. Процесс декодирования рассматривается как следствие ассо-
циации признаков бинауральных пар сигналов источников, подвергнутых пространст-
венному кодированию, с образцами, хранящимися в слуховой памяти.
После пояснения процессов пространственного кодирования и декодирования сиг-
налов источников звука можно перейти к изложению общих принципов функциони-
рования ассоциативной модели (рис. 2.24). Предварительно заметим, что ассоци-
ативный метод обработки информации, по-видимому, свойственен всем «живым»
системам с памятью.
Бинауральные сигналы Лб и Пб источников звука, подвергнутые пространствен-
ному кодированию, в периферийном отделе слуховой системы разделяются системой
фильтров СФ на полосы частот приблизительно одинаковой относительной ширины,
называемые критическими полосами (или частотными группами) слуха. Дальнейшая

Ðèñ. 2.24. Ассоциативная модель пространственного


слуха: 1 — система полосовых фильтров, тождественных
по ширине критическим полосам слуха; 2 — адаптивный
фильтр, описываемый матрицей D−1 ; 3 — этап ассоциации
формы G; 4 — оценка корреляции бинауральной пары сиг-
налов; 5 — блок идентификации корреляционных образцов;
6 — слуховая память
Звуковые системы 67

обработка этих выделенных пар полосных сигналов осуществляется в центральной


части слуховой системы раздельно в два этапа.
На этапе ассоциации места сигналы источников звука отделяются друг от дру-
га их пространственным декодированием. Процесс переработки информации на этом
этапе можно описать действием адаптивного фильтра D−1 , параметры которого регу-
лируются на основе ассоциативного распознавания образов. Путем сравнения приз-
наков, полученных в результате пространственного кодирования сигналов источников
звука, с приобретенными на основании жизненного опыта эталонными образцами,
хранящимися в слуховой памяти, сигналы источника распознаются слушателем, и
адаптивный фильтр D−1 принимает коэффициенты передачи, обратные матрице D.
По-видимому, целесообразным сигналом для ассоциативного процесса распознава-
ния является бинауральный корреляционный образец.
На выходе адаптивного фильтра D−1 сигнал источника «освобождается» от всех
тех изменений, которые были внесены на этапе пространственного кодирования.
Таким образом осуществляется ассоциативная селекция источников звука, опре-
деляющая их место в пространстве. Информация о месте источника звука и соот-
ветствующий ему сигнал, освобожденный от искажений, внесенных на этапе прост-
ранственного кодирования, передаются дальше.
На этапе ассоциации формы G представлены все механизмы слуха, предназна-
ченные для анализа разделенных по принципу места сигналов действительных источ-
ников звука. Сюда относятся механизмы слияния возбуждений и образования КИЗ,
анализа тембра, динамики звука, высоты тона, уровня громкости и т. д. Распознава-
ние звуковых образов на этапе ассоциации формы есть также результат обращения
к слуховой памяти, представляющей собой банк данных, где хранятся соответству-
ющие эталонные образцы, приобретенные на основании жизненного опыта. Нельзя
узнать и идентифицировать звучание, если человек его ни разу не слышал. Так же,
как этап ассоциации места, он содержит механизм селекции локализованных возбуж-
дений, вызванных сигналами отдельных источников звука. Этап ассоциации формы
содержит механизм селекции сигналов последних по форме.
В соответствии с ассоциативной моделью слуха проблема локализации звуковых
образов в пространстве трактуется следующим образом: одиночный действительный
источник звука всегда вызывает одну ассоциацию места, которая и определяет его
местоположение в пространстве; два пространственно разнесенных источника зву-
ка на этапе ассоциации места также разделены друг от друга. Если сигналы этих
источников некоррелированы, то на этапе распознавания формы они вызывают две
ассоциации формы, воспринимаются как два раздельных звуковых образа, положения
в пространстве которых по-прежнему определяются по принципу локализации места
на первом этапе обработки информации. Наличие корреляции между сигналами ис-
точников звука на этапе ассоциации формы приводит к слиянию событий слушания
и образованию одного кажущегося источника звука. В этом случае локализация КИЗ
является уже следствием двух этапов переработки информации — ассоциации места
и ассоциации формы.
Ассоциативная модель слуха в том виде, как она изложена в работе Г. Тей-
ле (Theile G. Zur Theorie der Optimalen Wiedergabe von Stereofonen Signalen ueber
Lautsprecher und Korphoerer// Rundfunktechnische Mitteilungen. 1981. J. 25, Heft 4.
S. 155–170), собственно механизм оценки азимута КИЗ не поясняет. Ее развитием
могут считаться сведения, изложенные в разд. 2.6.
68 Раздел 2

Прозрачность звучания. Важнейшим свойством пространственного слуха чело-


века, в значительной степени определяющим такое качество стереовоспроизведения,
как прозрачность звучания, является бинауральная демаскировка сигналов.
Напомним, что демаскировкой называют снижение порога маскировки при выде-
лении отдельных сигналов (источников звука) из одновременно действующей на уши
слушателя их совокупности. Это обеспечивается соответствующей дополнительной
обработкой входной информации как в периферийном, так и в центральном отделах
слуховой системы. Заметим, что звуковые сигналы имеют перекрывающиеся спект-
ры, поэтому классическая теория фильтров с ее областями пропускания и затухания
здесь оказывается непригодной. Ухо является в этом смысле гораздо более тонким
инструментом. Бинауральное освобождение от маскировки предполагает использова-
ние слуховой системой временных ∆τб и интенсивностных ∆Nб различий бинаураль-
ных пар сигналов, соответствующих отдельным источникам звука, для разделения и
демаскирования их друг от друга.
Прозрачность звучания определяется способностью слушателя разделять вос-
принимаемые сигналы, используя их упорядоченность по форме и в пространстве.
Приведем следующий пример. Представим себе несколько прозрачных контурных ри-
сунков животных, наложенных друг на друга. В этой ситуации разделение и после-
дующее опознавание животных становится возможным только благодаря различию
их форм. Термин «форма» имеет здесь тот же самый смысл, что и в теории сиг-
налов, а сама эта ситуация эквивалентна монофонической передаче, при которой все
инструменты ансамбля локализуются слушателем в одной точке — позиции громкого-
ворителя. Следуя взглядом за линией одного из рисунков, мы тем увереннее выбираем
путь дальнейшего следования, чем более отчетливо чувствуется (опознается) форма
животного, т. е. связь уже пройденного пути с дальнейшим его продолжением.
Очевидно, что разделение совмещенных в пространстве рисунков тем сложнее,
чем ближе формы животных (тембры и ритмы звучаний). Если же эти рисунки раз-
нести в пространстве (пусть даже на небольшой угол), то данная задача решается
значительно проще. Точно также разнесение источников звука в пространстве явля-
ется определяющей причиной повышенной прозрачности звучания при стереовоспро-
изведении. Слушатель, желая выделить из общего состава звучания партию какого-
либо инструмента, концентрирует свое внимание в направлении его расположения в
пространстве, что приводит к уменьшению маскирующего действия звуков, восприни-
маемых с других направлений. За счет этого повышается отношение сигнал-помеха
для выделяемого источника звука и, как следствие этого, улучшается прозрачность
звучания.
Накопленные сведения в области физиологии слуха, известные особенности пос-
троения его периферийных и центральных отделов, новейшие знания субъективного
поведения экспертов при оценке порогов маскировки, порогов слышимости, величин
разборчивочивости речевых источников в различных экспериментальных условиях и,
наконец, известные из классической теории методы обнаружения и выделения сигна-
лов из помех позволили разработать ряд моделей бинаурального освобождения от
маскировки.
Наиболее известны из них три: модель накопления, корреляционная ЕС-модель и
модель корреляционного пеленгования (см. книги: Ю.А. Ковалгин, А.В. Борисенко,
Г.С. Гензель. Акустические основы стереофонии. — М.: Связь, 1978, или Ю.А. Ко-
валгин. Стереофония. — М.: Радио и связь, 1989).
Звуковые системы 69

Ðèñ. 2.25. К изменению пространствен-


ной демаскировки КИЗ: а — пространствен-
ная звуковая панорама, состоящая из трех
КИЗ и соответствующее им распределение
обостренных функций локализации; б —
зависимость изменения отношения сигнал-
помеха для боковых (1) и центрального (2)
КИЗ: ∆N1 = −8 дБ, ∆N2 = 0 дБ, ∆N3 =
= 8 дБ

Например, в модели корреляционного пеленгования, уже рассмотренной выше,


в качестве критерия, характеризующего способность слушателя выделять полезный
сигнал на фоне маскирующих звуков, может служить, отношение
/∑
n

K = rm лок max ri′ лок φm , (2.5)
i=1

где i = 1, 2, . . . , n — число маскирующих сигналов; m — выделяемый сигнал;



rm лок max — максимальное значение обостренной функции локализации для сигна-
ла, выделяемого КИЗ; ri′ лок φm — значение обостренной функции локализации сиг-
нала i-го КИЗ, вычисленное для направления φm на оцениваемый источник звука
(рис. 2.25,а, интенсивностная стереофония, x = 0).
В основе критерия (2.5) лежит связанная с моделью корреляционного перенго-
вания следующая гипотеза:
• положение в пространстве, протяженность и воспринимаемая громкость КИЗ оп-
ределяют место, форму и интенсивность очага возбуждения в слуховом центре
головного мозга слушателя;
• при одновременном восприятии нескольких пространственно разнесенных КИЗ
в слуховом центре головного мозга слушателя возникает соответствующее про-
странственное распределение очагов возбуждений (по-видимому, эта картина яв-
ляется уменьшенной копией исходной стереопанорамы);
• функциональной зависимостью, связывающей азимутальное положение КИЗ, его
протяженность и воспринимаемую громкость, во-первых, с параметрами ∆N и ∆τ
стереосигнала и, во-вторых, с пространственным положением, формой и интен-
сивностью соответствующего этому КИЗ очага возбуждения, может служить так
70 Раздел 2


называемая обостренная функция локализации rлок , полученная из (2.3) попар-
ным вычитанием составляющих:
r′ лок = [r2 (∆τ22,11 − ∆τ ) + r3 (∆τ21,12 + ∆τ )] − r1 (∆τ12,11 ) − r4 (∆τ21,22 ).
Здесь первое слагаемое характеризует возбуждение центральной концептуальной
поверхности корреляционной модели слуха, два последних слагаемых — возбуж-
дения соответственно левой и правой концептуальных поверхностей. Возбужде-
ния этих трех поверхностей сливаются в единый очаг, пространственное положе-
ние которого в слуховом центре головного мозга слушателя однозначно связано с
направлением на КИЗ. Методы расчета этих функций уже были изложены выше.
Влияние пространственного разнесения КИЗ на изменение условий для их вы-
деления оценивается критерием
K∆′ N,∆τ = K∆N ̸=0,∆τ ̸=0 /K∆N =0,∆τ =0 ,

где числитель и знаменатель вычисляются по формуле (2.5).


Демаскировка сигналов при пространственном разнесении КИЗ (рис. 2.25,б) соп-
ровождается увеличением отношения K∆′ N,∆τ . Здесь по оси ординат отложены зна-
чения K∆′ N , в дБ, а по оси абсцисс — разность уровней ∆N , также в дБ, канальных
сигналов, формирующих боковые речевые источники стереопанорамы для всех КИЗ,
однако для боковых источников (кривая 1) это отношение растет значительно быст-
рее, чем для центрального КИЗ (кривая 2). Последнее создает неодинаковые условия
для их выделения и воспринимается субъективно как «провал середины». Для со-
хранения наилучшей прозрачности при одновременном звучании источников уровень
громкости КИЗ в стереопанораме должна возрастать при их смещении к центру базы
(при их поочередном предъявлении слушателю).
И последнее замечание, являющееся следствием полученных здесь результатов.
Воспроизведение стереосигнала в жилой комнате, строго говоря, должно выполнять-
ся при том же самом расстоянии между громкоговорителями, что и его формиро-
вание, тогда не будет нарушен задуманный звукорежиссером баланс громкостей в
звучании отдельных элементов стереопанорамы. Чаще всего при формировании сте-
реопанорамы значение B составляет 2,4. . . 3,0 м, при этом баланс уровней будет нез-
начительно нарушен для малых баз воспроизведения (B 6 1,8 м). Кроме того, вос-
приятие середины будет оставаться еще достаточно хорошим и при больших базах
(B > 3,5 м), которые в обычной жилой комнате могут быть реализорваны значи-
етельно реже. Заметим, что при размерах базы громкоговорителей, превышающих
4,5. . . 5,0 м, центральный звуковой образ стереопанорамы становится крайне неустой-
чивым: малейшее смещение слушателя с оси симметрии громкоговорителей вызывает
значительное перемещение КИЗ. Следовательно, применение слишком больших баз
является нежелательным.
Передача акустической атмосферы первичного помещения. При стереовоспроиз-
ведении реверберационные продолжения канальных сигналов различны, поэтому вели-
чина интенсивностного различия ∆Nτ реверберирующих сигналов стереопары непре-
рывно меняется (и в широких пределах) как по величине, так и по знаку с изменением
текущего времени τ реверберационного процесса в первичном помещении. Типичный
пример изменения величины ∆Nτ , дБ, от τ , мс, для дискретного участка ревербе-
рационных продолжений сигналов стереопары представлен на рис. 2.26,а. Значения
∆Nτ вычислены для моментов τ , соответствующих приходу сигналов отзвуков. Если
Звуковые системы 71

Ðèñ. 2.26. Типичный пример изменения разности уровней ∆Nτ реверберирующих сигналов стереопары
(а) и формальная картина относительного смещения КИЗ, формируемого этим сигналом в каждый
текущий момент времени — (б), при затухании звуковой энергии в помещении (без учета временных
характеристик слуха)

теперь формально для каждого найденного значения ∆Nτ определить местоположе-


ние КИЗ на линии базы громкоговорителей Гр1 и Гр2 , то получим картину изменения
локализации в функции от τ (рис. 2.26,б). При выполнении этих построений исполь-
зовалась зависимость S/(B/2) = f1 (∆N ), показанная на рис. 2.11.
Кривая S/(B/2) = f (τ ) получена без учета временных свойств механизма лока-
лизации и свидетельствует лишь об имеющихся предпосылках к смене направлений
локализации отзвуков первичного помещения при стереовоспроизведении.
Принимая во внимание корреляционную природу слуха и особенности временных
и корреляционных структур реверберирующих сигналов (см. разд. 2.1), можно пред-
положить, что группы периодически следующих отзвуков составляют при стеревосп-
роизведении в помещении прослушивания отзвуки высокого уровня, несущие инфор-
мацию об акустических свойствах первичного помещения. Измерения временных ин-
тервалов ∆τi,j между соседними пиками кратковременной функции корреляции B0 (τ )
реверберационных процессов в помещениях (см. рис. 2.2) показало, что условия раз-
дельного восприятия соответствующих этим пикам отзвуков высокого уровня выпол-
няются достаточно часто. Поэтому при окончательной обработке реверберирующего
сигнала в высших нервных центрах, т. е. при его превращении в ощущения образуется
целый ряд раздельно воспринимаемых так называемых вторичных звуковых образов.
Последние определяют слуховую оценку акустических особенностей помещения.
Кратковременные функции корреляции реверберирующих сигналов в каналах при
стереопередаче различны (рис. 2.27). По оси ординат здесь отложены значения крат-
ковременной функции корреляции реверберирующих сигналов левого B0′ (τ ) и правого
B0′′ (τ ) каналов стереопары; по оси абсцисс — текущее время τ реверберационного
процесса. Представленные коррелограммы отличаются числом энергетических пи-
ков, их уровнем и расположением на оси текущего времени. При воспроизведении
таких реверберирующих сигналов громкоговорителями Гр1 и Гр2 образуется совокуп-
ность вторичных кажущихся звуковых образов, локализуемых слушателем в различ-
ных точках на линии базы Гр1 и Гр2 . Вторичные КИЗ формируются парами соседних
энергетических пиков левого и правого сигналов стереопары, если (см. рис. 2.27)
72 Раздел 2

∆τi < ∆τпор . Вторичные КИЗ будут воспри-


ниматься раздельно, если ∆τi,j > ∆τпор , где
∆τi,j — временной сдвиг между соседними пара-
ми энергетических пиков кратковременных фун-
кций корреляции реверберирующих сигналов.
Измерения показали, что оба эти условия
также выполняются достаточно часто. Таким
образом, при стереовоспроизведении благода-
ря этому механизму частично (в пределах угла
на громкоговорители) восстанавливается прос-
транственность прихода отзвуков, свойственная
первичному помещению, а значит, работает ме-
ханизм пространственной демаскировки и, как
следствие этого, улучшаются условия для вос-
приятия отзвуков. Однако восстановление нап-
равлений прихода отзвуков первичного помеще-
ния при стереовоспроизведении ограничено уг-
лом, под которым видны громкоговорители из
точки расположения слушателя. Именно этим
объясняется недостаточно полное восприятие
слушателем акустической обстановки первично-
Ðèñ. 2.27. Схематическое представ- го помещения, свойственое обычной двуканаль-
ление кратковременных функций ной звуковой системе.
корреляции реверберирующих сиг-
налов при двухканальной передаче
При монофонической передаче все отзву-
ки, составляющие реверберационный процесс в
первичном помещении, воспринимаются слушателем как исходящие из одного на-
правления — громкоговорителя. Они в значительной степени маскируются сигнала-
ми прямых звуков, что затрудняет выделение отзвуков, а следовательно, и слуховую
оценку акустических свойств первичного помещения. Правильность этого заключе-
ния подтверждается данными экспертиз по оценке порогов слышимости первичного и
вторичного КИЗ в условиях стереофонического и монофонического воспроизведений.
Естественность и богатство тембров инструментов и голосов. Реверберационный
процесс обогащает звучание, делает воспринимаемые тембры более разнообразными
и тоньше нюансированными.
Мгновенный спектр мощности сигнала, формирующего слуховое ощущение в тот
или иной момент времени τ реверберационного процесса помещения, имеет вид
{ k k } {
∑∑ τi < τ,
Gt (ω, τ ) = Gt (ω)Gτ (ω) = Gt (ω) ai aj m(τj − τ ) cos[ω(τi − τj )] при
i=1 j=1
τj < τ,

где Gt (ω) — мгновенный спектр мощности сигнала, излучаемого источником звуковых


колебаний; Gτ (ω) — мгновенный спектр мощности импульсного отклика помещения,
найденный с учетом памяти слуховой системы, причем

k ∑
k ∑
k
Gt (ω, τ ) = Gt (ω) a2i m2 (τi − τ ) + Gt (ω) ai aj m(τi − τ )m(τj − τ ) cos[ω(τi − τj )]
i=1 i̸=j (2.6)
Звуковые системы 73

при τi < τ и τj < τ , где ai , aj и τi , τj — соответственно амплитуды и времена прихода


в точку наблюдения i-го и j-гo отзвуков; m(τi − τ ) — функциональная зависимость,
характеризующая память слуховой системы.
Заметим, что наличие большого числа повторений звука в первичном помещении
увеличивает длительность слухового восприятия каждого элемента быстро изменяю-
щегося во времени звукового события и создает тем самым необходимые предпосылки
для тонкого анализа спектральных особенностей воспроизводимых сигналов. Напом-
ним, что чем больше время анализа, тем выше его точность. Однако использование
этой возможности затруднено из-за наличия интерференционных явлений, возника-
ющих при одновременном восприятии нескольких таких повторений, различающихся
по уровню, фазе и времени поступления.
Можно предположить, что информация о тембральных особенностях звучания
будет передана тем точнее, чем лучше в каждый момент времени соответствие меж-
ду огибающими мгновенного спектра мощности реверберирующего сигнала и сигнала,
излучаемого источником звуковых колебаний. Иначе говоря, передаваемые тембры
воспринимаются наилучшим образом, если огибающая мгновенного спектра мощнос-
ти импульсного отклика помещения, найденного с учетом памяти слуха, не зависит
от частоты при всех возможных значениях τ . В противном случае тембр звучания
будет меняться при переходе из одного помещения в другое. При этом не следует
смешивать такие два разных понятия, как тембр и объемность, гулкость звучания.
Продукты интерференционных искажений содержит второй сомножитель в (2.6).
Критерием их оценки может служить отношение ηt (τ ) = Pτ′′ /Pτ′ , где
∫ ω2 ∑
k ∑ k



Pτ′′ = ai aj m(τi − τ )m(τj − τ ) cos[ω(τi − τj )] − G′τ Gt (ω) dω;
ω1
i̸=j
∫ ω2 [∑ k
]
′ ′′
Pτ = ai m (τi − τ ) + Gτ dω; τi < τ и τj < τ,
2 2
ω1 i=1

Числитель выражения ηt (τ ) представляет собой мощность продуктов интерференци-


онных искажений, а знаменатель — полную мощность реверберирующего сигнала в
момент времени τ , причем G′′τ — величина, постоянная во всем диапазоне воспроиз-
водимых частот и определяемая из условия
∫ ω2 ∑k ∑ k
′′ 1
Pτ = ai aj m(τi − τ )m(τj − τ ) cos[ω(τi − τj )] dω.
∆ω ω1
i̸=j

По-видимому, орган слуха обрабатывает реверберирующий сигнал таким обра-


зом, чтобы интерференционные искажения были минимальны (оптимальный прием).
Последнее будет выполнено, если для каждого τ справедливо условие
∫ ω2
[G′′τ (ω) − G′τ ] dω = 0.
ω1

По-видимому, тембры инструментов и голосов воспринимаются наилучшим обра-


зом, если при всех значениях τ величина ηt (τ ) = 0. Порогу заметности интерферен-
ционных искажений соответствует значение ηt (τ ) = 0,2 (испытательный сигнал — по-
лосы белого шума). Эффекты текущей интерференции, приводящие к тембральным
74 Раздел 2

Ðèñ. 2.28. Кривые равной предпочтительности (а) и зоны полного (1) и частичного (2)
стереоэффекта (б); А — точка оптимального слушания: x = 0, 2ψ = 60◦

изменениям, наиболее заметны на начальном участке реверберационного процесса,


где слуховое ощущение в момент времени τ определяется малым числом отзвуков. На
завершающем участке реверберационного процесса ηt (τ ) ≈ 0. Поэтому наблюдается
хорошее соответствие между Gt (ω) и Gt (ω, τ ). Этот участок определяет восприятие
так называемой «гулкости», свойственной первичному помещению.
Как показали многочисленные расчеты, величина ηt (τ ) имеет существенно ме-
ньшее значение в случае, когда временные структуры бинауральной пары сигналов
различны. Последнее свойство — отличительный признак стереопередачи и одна из
причин более правильной передачи тембров инструментов и голосов, свойственной
стереовоспроизведению. Другая причина заключается в уменьшении частотных иска-
жений, вызванных интерференцией сигналов на пути распространения звуковой волны
от источника звука до микрофонов (первичное помещение) и от громкоговорителей
Гр1 , Гр2 до левого и правого ушей слушателя (жилая комната радиослушателя). И,
наконец, пространственное разнесение звуковых образов, присущее стереовоспроиз-
ведению, уменьшает их взаимное маскирующее действие, являющееся, как известно,
частотно-зависимым, что также должно способствовать улучшению условий для бо-
лее правильного восприятия тембров инструментов и голосов.
Зона стереофонического эффекта. Качество стереофонического звучания су-
щественно зависит от местоположения слушателя относительно громкоговорителей
системы воспроизведения. На рис. 2.28,а представлены кривые равной предпочтите-
льности, подтверждающие это заключение. В очень малой области (1 на рис. 2.28,б)
предпочтительность составляет более 85 %. Эту область назовем зоной полного сте-
реоэффекта. Она расположена вокруг точки оптимального слушания. В этой области
сохраняется качественно правильная локализация KИ3, пространственные искажения
малы: смещения КИ3 от своего истинного положения не превышают 10 % от размера
базы B громкоговорителей. По мере смещения слушателя с оси симметрии громко-
говорителей предпочтительность стереовоспроизведения падает. Она сохраняется до
тех пор, пока ансамбль воспринимается слушателем пространственно разделенным
хотя бы на три группы. Когда число воспринимаемых направлений сокращается до од-
ного, предпочтительность стереовоспроизведения исчезает. Эта закономерность еще
раз подтверждает тот факт, что решающее значение в восприятии стереофоничес-
Звуковые системы 75

кого эффекта играют механизмы пространственного слуха человека — образования


КИЗ, их локализации и пространственной демаскировки.
Площадь зоны прослушивания, где предпочтительность стереовоспроизведения
(перед монофоническим звучанием) составляет 60 %, но не превышает 85 %, назовем
зоной частичного стереоэффекта (2 на рис. 2.28,б). В этой зоне число раздельно
воспринимаемых направлений не менее трех.
И последнее. Совокупность изложенных представлений о природе стереофони-
ческого эффекта позволяет утверждать, что передача пространственной информации
с наибольшей точностью и в максимально возможном объеме — важнейшее условие
дальнейшего повышения качества звучания. В пределе необходимо стремиться к то-
му, чтобы пространственные характеристики системы звукопередачи были адекватны
возможностям пространственного слуха человека при локализации действительных
источников звука.

2.5. Стереоамбиофонические звуковые системы


Стереоамбиофонические системы, показанные на рис. 2.29, имеют следующие
особенности.
1. На передающей стороне используются микрофонные системы XY (рис. 2.29,а),
АВ (рис. 2.29,б) или их сочетания. С помощью этих микрофонных групп происхо-
дит разделение всей воспринимаемой информации на две части — левую и правую,
отдельно для сигналов прямых (Лd , Пd ) и отраженных (Лr , Пr ) звуков. Выполняе-
мые над этими сигналами преобразования показаны на этом рисунке. Заметим, что
расстояние между тыловыми микрофонами М3 , М4 системы АВ (см. рис. 2.29,б)
выбирается достаточно большим (по сравнению с передней парой), благодаря чему
воспринимаемые ими сигналы Лr и Пr оказываются в значительной степени некор-
релированными как между собой, так и по отношению к сигналам прямых звуков,
что способствует их независимому слуховому восприятию и уменьшает маскирующее
действие друг на друга.
2. По каналам связи передаются левые Л′d и правый П′d сигналы, воспринимаемые
стереомикрофоном M1 или одиночными монофоническими микрофонами M1 и М2
(см. рис. 2.29,а), к которым в определенном соотношении в противофазе добавлен
разностный сигнал (Л′r − П′r ) от стереомикрофона М2 (см. рис. 2.29,а) или левый Л′r
и правый П′r сигналы от микрофонов М3 и М4 (см. рис. 2.29,б), воспринимающих
преимущественно отраженные звуки. Соответственно имеем:
Л = Л′d + k1 (Л′r − П′r ) или Л = Л′d + k2 L′r ;
(2.7)
П= П′d + k1 (П′r − Л′r ) или П = П′d + k2 П′r ,
где k1 и k2 — постоянные коэффициенты.
3. На приемной стороне системы сигналы Л и П (2.7) воспроизводятся фрон-
тальной парой громкоговорителей. Заметим, что добавление (2.7) в определенном
соотношении реверберирующих звуков к сигналам прямых звуков обогащает звучание
передней пары громкоговорителей, делает воспринимаемые тембры более богатыми,
мягкими и тоньше нюансированными. Тыльная пара громкоговорителей Гр3 и Гр4 ,
ориентированная также на пространственное рассеяние звуковой энергии, питается
разностным сигналом k[Л′d − П′d + 2k(Л′r − П′r )] в противофазе. Эта пара сигналов
содержит преимущественно энергию отраженных звуков, воспринятых стереомикро-
фоном М3 (см. рис. 2.29,а) или микрофонами М3 и М4 (см. рис. 2.29,б). Включение
76 Раздел 2

Ðèñ. 2.29. Структурные схемы стереоамбиофонической системы звукопередачи по Кейбсу с


использованием: а — микрофонной системы XY; б — микрофонной системы АВ

в цепь тыльной пары громкоговорителей дополнительной линии задержки ∆τ1 , ре-


вербератора P и частотного корректора ЧК (см. рис. 2.29,б) существенно расширяет
возможности этой структуры: повышается объемность, прозрачность звучания, ста-
новятся возможными оперативное изменение акустических условий прослушивания и
перенос слушателя в помещения с разными акустическими свойствами.
Стереоамбиофонические системы сочетают в себе преимущества обычной сте-
реофонической и квазистереофонической звуковых систем. Они способны в равной
степени донести до слушателя информацию об акустической атмосфере первично-
го помещения и о пространственном размещении инструментов ансамбля по фрон-
ту и глубине с сохранением уверенной и четкой локализации KИЗ в пределах базы
фронтальной пары громкоговорителей. Все же возможности этих систем по переда-
Звуковые системы 77

че пространственной информации и обеспечиваемое ими качество звучания уступают


аналогичным параметрам лучших разновидностей многоканальных стереофоничес-
ких систем.

2.6. Системы пространственного звучания с панорамным


кодированием сигналов источников звука
Психофизическая модель двухканальной звуковой системы
Обобщенная структурная схема звуковой системы с панорамным кодированием
сигналов источников звука представлена на рис. 2.30. Здесь: 1, 2, . . . , N — ка-
налы первичных звуковых сигналов (сигналов источников звука); ПКУ — панорамно-
кодирующее устройство, которое входит в состав пульта звукорежиссера и с помощью
которого сигналы источников звука без промежуточных преобразований (не имея до-
полнительной процедуры кодирования, связаной с формированием чтырехканального
стереофонического сигнала) непосредственно преобразуются в двухканальный сиг-
нал; ДКУ — декодирующее устройство сигналов стереопары Л и П. Громкоговорители
Гр1 , . . . , Гр′N системы воспроизведения СВ в помещении прослушивания расположе-
ны в вершинах равнобедренной трапеции (см. рис. 2.4–2.6).
С учетом ассоциативной модели слуха (см. разд. 2.4) в любой стереофо-
нической системе процессы кодирования, передачи, декодирования, воспроизведе-
ния и восприятия пространственной информации можно представить выражением
(рис. 2.31,а)
x̂i (t, φ) = ABDCGxi (t), (2.8)
где x̂i (t, φ) — оценка слухового сигнала; каждый такой сигнал формирует при слу-
ховом восприятии в жилом помещении i-й кажущийся источник звука; t — текущее
время; φ — азимутальный угол этого кажущегося источника звука; A — матрица па-
норамного кодирования множества сигналов источников звука {хi (t)}N в левый Л(t)
и правый П(t) сигналы стереопары. Уравнения кодирования при этом имеют вид

N ∑
N
Л(t) = a1i xi (t); П(t) = a2i xi (t). (2.9)
i=1 i=1

Здесь xi (t) — сигнал i-го источника звука. Каждый такой сигнал на стороне воспро-
изведения образует свой кажущийся источник звука; множество сигналов {xi (t)}N
формирует стереопанораму в помещении прослушивания; a1i и a2i — пары коэффи-

Ðèñ. 2.30. Обобщенная структурная схема звуковой системы с панорамным кодированием сигналов
источников звука
78 Раздел 2

Ðèñ. 2.31. Кодирование, передача, воспроизведение и восприятие пространственной информации:


а — психофизическая структура матричной системы звукопередачи с панорамным кодированием
источников звука; б — пример оценки азимута КИЗ в системе воспроизведения «треугольник» на
этапе ассоциации формы; в — случай невозможного слияния звучаний пары громкоговорителей

циентов панорамного кодирования сигналов каждого источника звука, значения этих


коэффициентов зависят от угла локализации образуемого сигналами каждой из этих
пар кажущегося источника звука; φ — угол, под которым этот кажущийся источник
звука локализуется слушателем при воспроизведении этой пары сигналов. Необхо-
димо отметить также, что
∆Ni = 20 lg(a2i /a1i ); a22i + a21i = 1. (2.10)
Здесь ∆Ni — разность уровней, определяющая оценку азимута i-го КИЗ, дБ; B —
матрица панорамного декодирования сигналов Л(t) и П(t), с помощью которой они
преобразуются к виду
yj (t) = bj1 Л(t) + bj2 П(t),
где yj (t) — сигнал, воспроизводимый j-м громкоговорителем СВ в жилом помеще-
нии; N ′ — число громкоговорителей, образующих СВ; bj1 и bj2 — пары коэффи-
циентов декодирования для сигналов Л(t) и П(t); D — матрица пространственного
кодирования сигналов громкоговорителей СВ при их слуховом восприятии; C — мат-
рица пространственного декодирования сигналов действительных источников звука —
громкоговорителей в слуховой системе слушателя; G — матрица, характеризующая
обработку векторных сигналов громкоговорителей в слуховой системе человека при
оценке азимута КИЗ.
Звуковые системы 79

При воспроизведении сигнал yj (t) каждого громкоговорителя СВ кодируется


пространственным фильтром, в качестве которого выступают голова и ушные ра-
ковины слушателя. Процесс пространственного кодирования сигналов громкоговори-
телей записывается в виде
′ ′

N ∑
N
Лб = H1j yj (t); Пб = H2j yj (t),
j=1 j=1

где Лб и Пб — левый и правый бинауральные слуховые сигналы; N ′ — число каналов


воспроизведения адаптивного декодирующего устройства (АДУ) или громкоговори-
телей СВ, H1j и H2j — коэффициенты передачи, описывающие изменения, которые
претерпевает звуковая волна, распространяясь от j-гo громкоговорителя СВ к левому
1 (H1j ) и правому 2 (H2j ) ушам слушателя. Множество {H1j , H2j }N образует матри-
цу пространственного кодирования D сигналов действительных источников звука —
громкоговорителей СВ.
Напомним, что в ассоциативной модели слуха процесс обработки сигналов Лб и
Пб разделен на два этапа. На первом из них (этап ассоциации места) сигналы дейс-
твительных источников звука — громкоговорителей СВ — адаптивной фильтрацией
освобождаются от «искажений», внесенных на этапе пространственного кодирования
(см. рис. 2.23,б). Поэтому (см. рис. 2.31,а) формально имеем CD = E, где E — еди-
ничная матрица, причем C = D−1 при N ′ = 2 и C = D+ при N ′ > 2. Здесь D и
D+ — обратная и псевдообратная матрицы соответственно. Заметим, что элементы
псевдообратной матрицы вычисляются как произведение матриц D′ и (DD′ )−1 , т. е.
D+ = D′ (DD′ )−1 ,
где D′ — матрица, полученная из D транспонированием ее элементов, a (DD′ )−1 —
обратная матрица по отношению к квадратной матрице (DD′ ). Размер матрицы (DD′ )
определяется числом громкоговорителей СВ.
Итак, с учетом изложенного выше выражение (2.8) можно записать как
{
ABDD−1 Gxi (t) при N ′ = 2’
x̂(t, φ) =
ABDD+ Gxi (t) при N ′ > 2.

Поясним подробнее процедуру получения псевдообратной матрицы D+ на при-


мере системы воспроизведения, состоящей из трех громкоговорителей (рис. 2.31,б).
Для данной системы воспроизведения матрица пространственного кодирования
( )
H11 H12 H13
D= ,
H21 H22 H23
соотвествующая ей транспонированная матрица имеет вид
 
H11 H21
D =  H12 H22  .

H13 H23

Матрица D′ всегда (при любом значении N ′ ) соответствует матрице D, так как


число столбцов первой равно числу строк второй. Поэтому умножение матриц воз-
можно, произведение DD′ является квадратной матрицей; последняя имеет три стро-
80 Раздел 2

ки и три столбца, ее элементы


 
∑n 
(DD′ ) = (cik )(m,q) = (aij bjk ) ,
 
j=1
(m,q)

где D = (aik )(m,n) ; D = (bi,k )(p,q) , причем ai,k — элементы матрицы D′ , имеющей

три строки (m = 3) и два столбца (n = 2); bik — элементы матрицы D, имеющей


две строки (p = 2) и три столбца (q = 3). Произведение матриц DD′ — квадратная
матрица, так как m = q = 3.
Для системы воспроизведения, состоящей из N ′ громкоговорителей, соответст-
венно имеем m = q = N ′ . По сути дела размер матрицы DD′ определяется числом
громкоговорителей N ′ системы воспроизведения.
Определитель квадратной матрицы DD′

∆= cik ∆ik ,
i

где ∆ik — ее алгебраические дополнения, в данном случае


∆11 = c22 c33 − c23 c32 ;
∆12 = (−1)(c21 c33 − c23 c31 ); (2.11)
∆13 = c21 c32 − c22 c31 .

По определению элемент dik обратной матрицы (DD′ )−1 равен транспонирован-


ному алгебраическому дополнению ∆ki соотвествующего элемента исходной матрицы
DD′ , деленному на определитель ∆:
dik = ∆ki /∆.
Транспонированные алгебраические дополнения нетрудно получить из (2.11) пе-
рестановкой индексов. При этом матрица (DD′ )−1 не существует, если определитель
матрицы DD′ равен нулю. И наконец, вычисляются элементы псевдообратной матри-
цы D+ как результат произведения матриц D′ и (DD′ )−1 .
Итак, результатом пространственного декодирования CD = E при N ′ = 2 или
CD = E при N ′ > 2 является разделение сигналов yj (t) друг от друга и выделение
+

информации об уровне сигнала каждого громкоговорителя и о направлении φj на


него. Начало всей этой совокупности векторов совпадает с точкой расположения
слушателя (см. рис. 2.31,б).
Оценка азимута КИЗ формируется на этапе ассоциации формы (второй этап об-
работки информации в слуховой системе). Для системы воспроизведения, состоящей
из N ′ громкоговорителей, имеем (см. рис. 2.31,б):


N
y= mj yj ; mj = 10−0,05Kj ∆τj
j=1

где y — вектор кажущегося источника звука; yj — векторный сигнал j-го громкого-


ворителя; mj — коэффициент, учитывающий ослабление запаздывающих сигналов в
слуховой системе человека; Kj — коэффициент эквивалентности действия на орган
слуха значений ∆Ni и ∆τi ; ∆τj — время запаздывания сигнала j-гo громкоговорителя
Звуковые системы 81

относительно опережающего сигнала. Из этого выражения следует, что матрица


G = (m1 , m2 , . . . , mj , . . . , mN ′ )
содержит одну строку и
 ′ / N′ 
∑N ∑
φ = arctg  mj yj sin φj mj yj cos φj  .
j=1 j=1

Здесь φ — азимут кажущегося источника звука; φj — азимут j-гo громкоговорителя;


yj — амплитуда сигнала j-гo громкоговорителя; N ′ — их общее число. Значения
углов отсчитываются относительно медианной плоскости головы слушателя. При
этом начало координат в векторной модели совмещено с центром головы слушателя.
Условие сохранения неизменным уровня громкости КИЗ при его перемещении в
пространстве выполняется, если


N
yj2 = const .
j=1

Теперь назовем ряд общих психофизических закномерностей, подлежащих учету


при оценке азимута КИЗ в ассоциативной модели слуха на этапе ассоциации формы:
1) кажущийся источник звука образуется, если сигналы громкоговорителей ста-
тистически связаны и коэффициент корреляции R между ними превышает некоторое
пороговое значение Rп ;
2) обработка бинауральной пары Лб и Пб выполняется в полосах, соответствую-
щих критическим полосам слуха; для каждой пары сигналов в каждой такой полосе
вычисляется вектор yj , суждение о направлении локализации КИЗ является резуль-
татом сложения полученной совокупности векторов {yj }N ;
3) локализация КИЗ является функцией соотношения уровней и временных сдви-
гов сигналов прямых звуков громкоговорителей, их взаимного расположения в прост-
ранстве относительно слушателя. Эти факторы определяют величины и направления
векторов yi . Отделение сигналов прямых звуков от отзвуков оказывается возможным
благодаря эффекту предшествования; наличие отражений от поверхностей помеще-
ния приводит к появлению гулкости и объемности в звучании, к росту протяженности
формируемых КИЗ;
4) выбранное расположение громкоговорителей в пространстве должно обеспе-
чивать разделение векторных сигналов на этапе ассоциации места. Это условие вы-
полняется не всегда. Пусть система воспроизведения содержит два громкоговорите-
ля Гр1 и Гр2 (рис. 2.31,в), расположенных зеркально относительно линии базы II–II
ушей слушателя. В данном случае значения бинауральных параметров для этой пары
громкоговорителей практически равны, приблизительно одинаковы для них и пары ко-
эффициентов пространственного кодирования (H11 ≈ H12 и H21 ≈ H22 ) матрицы D.
Поэтому определитель этой матрицы стремится к нулю (∆ = H11 H22 − H21 H12 → 0),
а следовательно, обратная матрица D−1 пространственного декодирования в этом
случае не существует и разделение сигналов громкоговорителей Гр1 и Гр2 на этапе
ассоциации места оказывается невозможным. При N ′ > 2 также возникают ситу-
ации, когда определитель матрицы DD′ равен нулю, тогда псевдообратная матрица
D+ не существует и разделить сигналы громкоговорителей СВ на этапе ассоциации
82 Раздел 2

места также нельзя. Отсутствие по этой причине полной информации на этапе ас-
социации формы делают невозможным в такой СВ образование КИЗ и его плавное
перемещение вдоль линий базы громкоговорителей соответствующих пар. Заметим,
что данный вывод справедлив для любой пары источников звука, расположенных зер-
кально относительно линии II–II (рис. 2.31,в). Отсутствие всей полноты информации,
необходимой для обработки слуховых сигналов на этапе ассоциации формы, делает
невозможной образование КИЗ и его плавное перемещение вдоль линий базы гром-
коговорителей Гр1 и Гр3 или Гр2 и Гр4 системы воспроизведения типа «квадрат»
(см. рис. 2.4). Здесь возможно лишь скачкообразное перемещение КИЗ из позиции
одного громкоговорителя в позицию другого. При близких же уровнях сигналов этих
громкоговорителей возникает ощущение неопределенности в локализации. Именно по
этой причине система воспроизведения не должна содержать пар громкоговорителей,
расположенных зеркально относительно линии базы (II–II) ушей слушателя. С этих
позиций системы воспроизведения типа «квадрат» и «параллелепипед» и располо-
жение слушателя в точке симметрии последних не могут быть признаны удачными,
так как локализация КИЗ на линиях боковых баз громкоговорителей окажется невоз-
можной. Этот вывод подтвержден практикой;
5) величины m1 , m2 ,. . . , mN ′ , образующие вектор-строку, учитывают особеннос-
ти обработки сигналов в слуховой системе человека. В отсутствие корреляционной
связи сигнала j-го действительного источника звука — громкоговорителя — соот-
ветствующий ему коэффициент mi принимает значение, равное 0, и этот сигнал при
образовании КИЗ на этапе ассоциации формы не учитывается. Для сигналов корре-
лированных источников звука величины mj не равны 0. Напомним, что временной
сдвиг ∆τ между коррелированными сигналами, поступающими от громкоговорителей
СВ, трансформируется в слуховой системе в соотвествующее изменение их уровня.
При этом величина ослабления уровня каждого запаздывающего сигнала может быть
рассчитана с помощью коэффициента эквивалентности K. Этот производимый в
слухововой системе «обмен» времени на интенсивность должен приводить к изме-
нению величины вектора mj yj сигнала, соответствующего j-му громкоговорителю.
При этом, если уровень запаздывающего сигнала в результате этого «обмена» уме-
ньшается, то величина mj должна быть меньше 1, но больше 0.
В простейшем случае, когда расстояния от слушателя до громкоговорителей СВ
одинаковы, а излучаемые громкоговорителями сигналы отличаются только по уров-
ню (∆τ = 0), значения параметров mj в первом приближении могут быть приняты
равными 1. Покажем справедливость этого заключения для данного частного случая.
Если допустить, что при оценке азимута источника звука (особенно в области нижних
частот F < 600 Гц) решающую роль оказывает значение бинауральной временной
разности ∆τб′ , то для указанного здесь простейшего случая справедливо соооношение
dэкв y1 sin φ1 + y2 sin φ2 + . . . + yN ′ sin φN ′
∆τб′ = sin φ = ,
c y1 + y2 + . . . + yN ′
где y1 , y2 , . . . , yN ′ — амплитуды сигналов yj xj (t), излучаемых громкоговорителями
системы воспроизведения; φ1 , φ2 , . . . , φN ′ — значения углов на громкоговорители СВ,
отсчитываемые относительно медианой плоскости головы слушателя; N ′ — число
громкоговорителей системы воспроизведения; dэкв — расстояние между фазовыми
центрами раскрыва ушных раковин; c — скорость звука. Напомним, что в случае
одного действительного источника звука величина ∆τб бинауральной пары сигналов
Звуковые системы 83

определяется выражением
∆τб = dэкв sin φ/c.
Здесь φ — направление на действительный источник звука, как и ранее, отсчитывае-
мое относительно медианной плоскости головы слушателя. Если величины ∆τб и ∆τб′
равны, то оценки азимута φ кажущегося источника звука, формируемого сигналами
{yj xj (t)} системы воспроизведения, состоящей из N ′ равноудаленных от слушателя
громкоговорителей, и единственного действительного источника звука должны сов-
падать. Отсюда следует
y1 sin φ1 + y2 sin φ2 + . . . + yN ′ sin φN ′
sin φ = , (2.12)
y1 + y2 + . . . + yN ′
где φ — оценка азимута КИЗ в системе воспроизведения, состоящей из N ′ равноу-
даленных от слушателя громкоговорителей. Заметим, что при N ′ = 2 и φ1 = −φ2
(случай симметричного расположения громкоговорителей относительно медианной
плоскости головы слушателя) имеем
sin φ = sin φ1 (y1 − y2 )/(y1 + y2 ).
Это равенство известно в стереофонии под названием «закон синусов».
Далее, если учесть, что при оценке азимута слушатель, во-первых, «поворачи-
вает» голову в направлении φ кажущегося источника звука и, во-вторых, совершает
непроизвольно вращательные движения головой около этого направления с амплиту-
дой ψ → 0, то выражение (2.12) может быть преобразовано к виду
y1 sin φ1 + y2 sin φ2 + . . . + yN ′ sin φN ′
tg φ = . (2.13)
y1 cos φ1 + y2 cos φ2 + . . . + yN ′ cos φN ′
Выражение (2.13) соответствует представлениям векторной модели локализации
КИЗ, если mj = 1. При N ′ = 2, φ1 = −φ2 = 30◦ для значений углов φ1 6 30◦
с достаточной для практики точностью оценка азимута КИЗ может быть рассчи-
тана по формуле
φ ≈ 0,58[(y1 − y2 )/(y1 + y2 )],
что хорошо согласуется с данными профессора Я.А. Альтмана. Это равенство подт-
верждается экспериментом: в области малых значений углов φ1 6 30◦ на громкогово-
рители из точки расположения слушателя оценка азимута КИЗ при интенсивностной
стереофонии и смметричном расположении слушателя относительно последних оп-
ределяется только соотношением уровней сигналов громкоговорителей и не зависит
от расстояния y до линии базы Гр1 и Гр2 .
В случае, когда расстояния до громкоговорителей не одинаковы и излучаемые
ими сигналы отличаются как по уровню, так и по времени запаздывания (смешаная
стереофния) для преодоления затруднений в оценке азимута КИЗ необходимо, ис-
пользуя понятие коэффициента эквивалентности, перейти от смешаной стереофонии
к чисто интенсивностной и лишь после этого воспользоваться выражением (2.13).
И последнее. Проблема повышения качества звучания матричных систем требует
поиска оптимальных структур матриц A и B и системы воспроизведения, обеспечи-
вающих передачу пространственной информации в максимальном объеме при мини-
мальных величинах пространственных искажений. Работа устройств, определяющих
структуру этих матриц, должна рассматриваться во взаимосвязи с учетом условий
84 Раздел 2

прослушивания и свойств пространственного слуха человека. При этом имеющаяся в


сигналах Л(t) и П(t) информация о пространственном размещении звуковых образов в
стереопанораме, их количестве и другие возможные сведения должны быть использо-
ваны для управления процессом их декодирования с целью получения наиболее четких
и уверенно локализуемых КИЗ, максимально возможного размера области уверенной
локализации KИЗ и зоны стереофонического эффекта [2.18; 2.22]. Именно комп-
лексный учет всей этой совокупности факторов должен выполняться при разработке
эффективных алгоритмов декодирования сигналов Л(t) и П(t). Процесс управления
декодированием сигналов стереопары не должен быть заметен на слух.
Предельно-достижимым качеством звучания в таких системах является то, ко-
торое обеспечивается в многоканальной стереофонической системе звукопередачи с
числом раздельных каналов n = N ′ и с идентичной системой воспроизведения. Та-
кая система звукопередачи (дискретная система) является для матричной системы
эталоном.
Наилучшими возможностями передачи пространственной информации обладает
система воспроизведения типа «трапеция» (см. рис. 2.6,б) [2.6; 2.18].
Управление процессом декодирования сигналов Л(t) и П(t) позволяет пока реа-
лизовать лишь два крайних режима работы декодирующего устройства:
• режим формирования единственного КИЗ, при котором возможна адаптация де-
кодирующей матрицы к сигналу источника звука и, как следствие этого, повы-
шенная разделимость каналов воспроизведения друг от друга;
• режим формирования множества КИЗ, при котором происходит адаптация деко-
дирующей матрицы ко всему множеству сигналов источников звука, адаптация к
каждому из сигналов источников звука оказывается уже невозможной.
Панорамное кодирование первичных звуковых сигналов. В системах с панорам-
ным кодированием вместо доставшейся в наследство от квадрафонии громоздкой
двухступенчатой процедуры формирования сигналов Л(t) и П(t) используется метод,
названный панорамным кодированием. Кодирование множества первичных сигналов
{xi (t)}N в левый Л(t) и правый П(t) сигналы стереопары выполняется в ПКУ по
правилу (2.9). Множество пар коэффициентов {a1i , a2i }N образует матрицу пано-
рамного кодирования A. Значения этих коэффициентов зависят от азимута KИЗ и
являются функцией времени t при перемещении этого КИЗ в пространстве. Величи-
на ∆Ni (2.10) и соотношение фаз пары сигналов Лi (t) и Пi (t) определяют оценку
азимута КИЗ.
Направлению «фронт» соответствуют синфазные сигналы равного уровня в ка-
налах Л и П. Направлению на левый фронтальный громкоговоритель ЛФ — «лево» —
соответствует ситуация, когда уровень сигнала в канале П (правом) равен нулю, при
этом сигнал в канале Л отличен от нуля. Направлению «право» — звук кажется ис-
ходящим из правого фронтального громкоговорителя ПФ — соответствует условие,
когда П ̸= 0, Л = 0. Направлению «тыл» соответствуют противофазные сигналы
Л и П равного уровня.
Перемещение КИЗ во фронтальной полуплоскости (между левым и правым фрон-
тальными громкоговорителями) кодируется изменением соотношения уровней син-
фазных сигналов Л и П. Перемещение КИЗ в тыловой полуплоскости кодируется
изменением соотношения уровней противофазных сигналов в каналах. Иначе гово-
ря, источник звука воспринимается слушателем во фронтальной части пространства,
если сигналы Л и П синфазны, и соответственно в тыловой части пространства, ес-
ли они противофазны.
Звуковые системы 85

Возможно также получение ощущения движения «фронт-тыл» и «тыл-фронт»


не по периметру, а непосредственно по кратчайшей траектории. Эффект движения
КИЗ в направлении «фронт-тыл» достигается изменением разности фаз одинаковых
по уровню сигналов Л и П. При перемещении КИЗ в направлении «фронт-тыл»
разность фаз сигналов Л и П изменяется от 0 до 180◦ . При переходе «тыл—фронт»
разность фаз изменяется от 180 до 0◦ .
Адаптивное декодирование сигналов в системах с панорамным
кодированием сигналов источников звука
Структурная схема АДУ. Адаптивное декодиру-
ющее устройство (рис. 2.32) содержит управляе-
мую матрицу УМ основных каналов воспроизведения
1,. . . , N ′ и блок управления БУ, включающий схе-
му нормирования СН, формирователь управляющих
сигналов ФУС для УМ, схему опознавания режима
ОР работы устройства. Сигнал θ управляет работой
ФУС. Структура УМ полностью определяется типом
системы воспроизведения, точнее говоря, числом и
размещением громкоговорителей в пространстве.
В ОР из нормированных суммарного UΣ′ и раз-
ностного U∆′ выходных сигналов СН вырабатывают-
ся два разных по величине постоянных напряжения Ðèñ. 2.32. Структурная схема адап-
θ1 и θ2 . Одно из них θ1 соответствует режиму фор- тивного декодирующего устройства
мирования единственного КИЗ, а второе θ2 — режиму формирования множества КИЗ.
При этом переход АДУ в режим формирования единственного КИЗ составляет око-
ло 10 мс, а в режим множества КИЗ — соответственно около 30 мс. Сигнал θ(t)
изменяет постоянные времени T в цепях формирования сигналов управления.
В современных АДУ все пространство состояний сигналов стереопары Л(t) и П(t)
разделено на два подпространства. Первое из них соответствует режиму формиро-
вания единственного КИЗ, а второе — формированию множества КИЗ. Повышение
эффективности работы АДУ основано на реализации для каждого из этих режимов
работы своего оптимального алгоритма декодирования сигналов Л(t) и П(t).
Рассмотрим характеристики АДУ при его работе в статическом режиме на при-
мере отечественных систем «Суперфон-35» и «ABC-стерео». Обе эти системы яв-
ляются матричными звуковыми системами.
Режим формирования единственного КИЗ. Декодирование сигналов Л(t) и П(t)
в системе «Суперфон-35» (рис. 2.33,а) выполняют матрицы M1 и М2 , управляемые
аттенюаторы УА1 , . . . , УА4 и декодер зальных каналов ДЗК. В матрице M1 сигналы
Л и П подвергаются суммарно-разностному преобразованию. На выходах матрицы
M1 имеем сигналы Л, 0,7(Л + П), 0,7(Л − П), П, которые проходят управляемые
аттенюаторы УА1 , . . . , УА4 с коэффициентами передачи b1 , b2 , b3 , b4 соответственно
и поступают на входы матрицы М2 . Здесь они подвергаются второму суммарно-
разностному преобразованию. На выходах матрицы М2 имеем
ЛФ = 0,5(Л + П)b1 + 0,5(Л − П)b2 ;
ПФ = 0,5(Л + П)b1 − 0,5(Л − П)b2 ;
Ф = 0,7(Лb3 + Пb4 );
Э = 0,7(Лb3 − Пb4 ),
86 Раздел 2

Ðèñ. 2.33. Система «Суперфон-35»:


а — управляемая матрица; б — идеализи-
рованные характеристики декодирования
АДУ в режиме формирования единствен-
ного КИЗ: 1 — NПФ ; 2 — NФ ; 3 — NЛФ
(NЭ = 0; ∆φ = 0); 4 — NПС ; 5 — NЛС
(NФ = 0; ∆φ = 180◦ )

где ЛФ, ПФ, Ф, Э — левый, правый, фронтальный и эффектный выходные сигналы


АДУ; b1 , b2 , b3 , b4 — коэффициенты передачи УА; 1–5 — входы для подачи сигналов
управления. Для того чтобы в сигналах П и Э в равной мере присутствовали сигналы
Л и П, необходимо выполнение условия b3 = b4 = b.
Декодер зальных каналов формирует сигналы стен ЛС и ПС по правилу:
ЛС = ЭbЛС ; ПС = ЭbПС ,
где bЛС и bПС — коэффициенты передачи УА декодера зальных каналов.
Характеристики декодирования системы «Суперфон-35» в режиме формирова-
ния единственного КИЗ показаны на рис. 2.33,б. По оси абсцисс отложена разность
уровней ∆NПЛ сигналов Л и П, в дБ, а по оси ординат — уровень N , в дБ, сигнала на
выходе УМ, вычисленный относительно его максимального значения. Кривые 1, 2, 3
на рисунке соответствуют случаю, когда сигналы Л и П синфазны, при этом сигнал
Э равен нулю; кривые 4, 5 (штриховые линии) соответствуют случаю, когда входные
сигналы Л и П противофазны, тогда сигнал Ф равен нулю.
В системе «АВС-стерео» (рис. 2.34,а) уравнения декодирования имеют вид:
ЛФ = ЛbЛФ ; ЛТ = (Л − kП)bЛТ ;
ПФ = ПbПФ ; ПТ = (П − kЛ)bПТ .
Звуковые системы 87

Ðèñ. 2.34. Система пространственного звучания «АВС-стерео» с адаптацией: а — управляемая


матрица; б — идеализированные характеристики декодирования в режиме формирования единс-
твенного КИЗ; 1 — NЛФ ; 2 — NПФ ; 3 — NЛТ ; 4 — NПТ (∆φ = 0); 5 — NЛТ ; 6 — NПТ (NЛФ =
= NПФ = 0, ∆φ = 180◦ )

Здесь ЛФ, ПФ, ЛТ, ПТ — левый фронтальный, правый фронтальный, левый тыло-
вой, правый тыловой выходные сигналы АДУ соответственно; bЛФ , bПФ , bЛТ , bПТ —
коэффициенты передачи УА. Характеристики декодирования для этой системы в ре-
жиме формирования единственного KИ3 показаны на рис. 2.34,б. По оси абсцисс
отложена разность уровней ∆NПЛ , в дБ, сигналов Л и П, а по оси ординат — уро-
вень N , в дБ, сигнала на выходе УМ, вычисленный относительно его максимального
значения. Кривые 1–4 соответствуют случаю, когда сигналы Л и П синфазны. Кри-
вые 5 и 6 (штриховые линии) соответствуют случаю, когда входные сигналы Л и П
противофазны. Сигналы ЛФ и ПФ в данном случае равны нулю, а уровни сигналов
ЛТ и ПТ отображают кривые 5 и 6.
В режиме формирования единственного КИЗ каждому состоянию АДУ соответ-
ствует матрица пространственного декодирования B сигналов стереопары, дающая
лишь два сигнала воспроизведения yj , отличные от нуля. Иначе говоря, при работе
АДУ в этом режиме КИЗ формируется сигналами не более, чем двух громкоговори-
телей, а зона стереоэффекта не отличается от той, которая свойственна многокана-
льной стереофонической системе звукопередачи (n = N ′ ) с идентичной системой
воспроизведения.
88 Раздел 2

Режим формирования множества КИЗ. При работе АДУ в данном режиме непре-
рывная адаптация УМ к каждому из первичных сигналов одновременно невозможна.
В этом случае следует говорить лишь об адаптации элементов матрицы B к системе
воспроизведения, конечно, с учетом свойств пространственного слуха человека. Эле-
менты матрицы B — здесь постоянные числа, причем коэффициенты передачи УА
равны 1 и уравнения декодирования приобретают вид:
а) для системы «АВС-стерео» с адаптацией (k = 0,71):
ЛФ = Л; ЛТ = Л − 0,71П; ПФ = П; ПТ = П − 0,71Л;
б) для системы «Суперфон-35»
ЛФ = Л; Ф = 0,7(Л + П); ПФ = П; Э = 0,7(Л − П).
Разделимость каналов воспроизведения при передаче основных направлений при
работе АДУ в рассматриваемом режиме существенно хуже, а зона стереоэффекта
наименьшая. Это объясняется тем, что весьма часты ситуации, когда формирование
КИЗ выполняется сигналами не двух, а большего числа громкоговорителей (чаще
всего трех).
Итак, основным недостатком обеих систем является то, что в режиме формиро-
вания единственного КИЗ в случае, когда он является доминирующим источником,
существенно изменяется и фоновое звучание, если оно существует, так как оно фор-
мируется в режиме единственного КИЗ только парой «полезных» громкоговорителей.
Блок управления в системах с панорамным кодированием сигналов
источников звука
В качестве примера рассмотрим блок управления системы «Суперфон-35».
Структурная схема АДУ этой системы представлена на рис. 2.35. Устройство со-
держит схему нормирования СН, формирователь управляющих сигналов ФУС1 для
управляемой матрицы УМ, схему опознавания режима ОР работы АДУ, формирова-
тель управляющего сигнала ФУС2 декодера зальных каналов ДЗК, экспандер системы
шумоподавления ШПД канала эффектов Э и линию задержки ЛЗ.
Схема нормирования (рис. 2.36,а) содержит полосовой фильтр ПФ, аналоговые
делители сигналов АД, сумматоры сигналов Σ, выпрямители сигналов В, фильтры
нижних частот ФНЧ, источник опорного напряжения Е1 и схему выбора минимального
значения напряжения min. Нормирующий множитель имеет вид
M (t) = {[E1 − k(u′Л (t) + u′П (t))]; [E1 − k(uΣ (t) + u∆ (t))]}min .
Здесь u′Л (t), u′П (t), uΣ (t), u∆ (t) — нормированные выходные сигналы СН; k — посто-
янный коэффициент. Постоянная времени собственно ФНЧ составляет около 3 мс.
Структурная схема ФУС1 представлена на рис. 2.36,б. Она содержит схемы вы-
бора максимальных значений напряжений max, сумматоры сигналов Σ1 ,. . . , Σ4 , ФНЧ1
и ключи К, служащие для изменения постоянной времени T в цепях формирования
сигналов управления u′уЛФ (t), u′уПФ (t), u′уФ (t), u′уЭ (t). Кроме того, на схеме Е2 и
E3 — источники постоянного напряжения; θ(t) — сигнал опознавания режима работы
АДУ, а H и G — вспомогательные сигналы, определяемые выражениями:

H(ξ) = {uΣ (ξ); u∆ (ξ); E3 }max / 2;

G(ξ) = {u′Л (ξ); u′П (ξ); E3 }max / 2.
Здесь E3 — опорное напряжение.
Звуковые системы 89

Ðèñ. 2.35. Адаптивная звуковая сис-


тема с панорамным кодированием ис-
точников (а) и структурная схема адап-
тивного декодирующего устройства сис-
темы «Суперфон-35» (б)

Постоянная времени T ФНЧ изменяется под действием сигнала θ(t). Этот сигнал
формируется в ОР. Структурная схема этого устройства приведена на рис. 2.36,г.
Сигнал θ(t) формируется из нормированных сигналов uΣ (t) и u∆ (t). Предварительно
создается дополнительный сигнал вида
{[ ∫ t ] [ ∫ t ]}
1 1
F (t) = uΣ (ξ)e−(t−ξ)/τ2 dξ ; u∆ (ξ)e−(t−ξ)/τ2 dξ .
τ2 −∞ τ2 −∞ max

В этом выражении τ2 — постоянная времени ФНЧ1 и ФНЧ2 , равная 3 мс. Далее с


помощью компаратора КОМП, источника опорного напряжения Е, ФНЧ3 получается
сигнал опознавания θ(t) режима работы АДУ. В компараторе сигнал F (t) сравнива-
ется с опорным напряжением E, причем
{
θ1 при F (t) > E — единственый КИЗ;
θ(t) =
θ2 при F (t) < E — множество КИЗ или пауза передачи.
Здесь θ1 и θ2 — постоянные напряжения. Назначение ФНЧ3 — уменьшение веро-
ятности ложного срабатывания при опознавании режима работы АДУ. Постоянная
времени ФНЧ3 различна для процессов заряда и разряда конденсатора, входящего в
его состав. Она равна 3 мс при разряде этого конденсатора и 9 мс при его заряде,
поэтому переход АДУ из одного режима работы в другой происходит не мгновенно.
Переход АДУ в режим формирования единственного КИЗ составляет около 10 мс, а
в режим множества КИЗ — соответственно около 30 мс.
Сигнал θ(t) управляет работой ключей К в цепях формирования выходных сиг-
налов ФУС1 , изменяя постоянные времени T в цепях формирования сигналов управ-
ления. Заметим, что постоянная времени
{
3 . . . 5 мс при θ(t) = θ1 (единственный КИЗ);
T =
2с при θ(t) = θ2 (множество КИЗ или пауза передачи).
Изменение постоянной времени T в цепях формирования сигналов управления обеспе-
чивает уровень паразитной амплитудной модуляции в выходных сигналах АДУ ниже
порогов их слуховой заметности.
Формирователь управляющих сигналов ФУС2 включает (рис. 2.36,в) сумматор
Σ1 , ключ К и ФНЧ. В режиме формирования множества КИЗ ключ К разомкнут, а
в режиме формирования единственного КИЗ замкнут. Управляет его работой сигнал
θ(t). Матрица ДЗК (рис. 2.36,в) реализована на аналоговых перемножителе АП и
90 Раздел 2

Ðèñ. 2.36. Блок управления системы


«Суперфон-35»: а — схема нормирования;
б — формирователь управляющих сигна-
лов ФУС1 ; в — формирователь управляю-
щих сигналов ФУС2 и матрица ДЗК; г —
схема опознавания режима работы

сумматорах Σ2 и Σ3 . Ее выходные сигналы формируются по правилу


uЛС (t) = uЭ′ (t)[0,6 + 0,4uyЭ′′ (t)] = Э′ bЛС ;
uПС (t) = uЭ′ (t)[0,6 − 0,4uyЭ′′ (t)] = Э′ bПС .
Максимальная разность уровней сигналов стен ЛС и ПС составляет 14 дБ и дости-
гается при ∆NПЛ > 20 дБ (сигналы Л и П противофазны). При синфазных сигналах
Л и П сигнал Э′ = 0.

2.7. Системы пространственного звучания фирмы Dolby Lab


Прочное место на рынке кинематографа, телевидения и радиовещания, шоу-
бизнеса и компьютерных технологий занимают системы пространственного звучания
Dolby Stereo и Dolby Surround (формат 3/1), Dolby Pro Logic (3/2), Dolby Digital (5.1)
Звуковые системы 91

и Dolby Digital Surround EX (формат 6.1). Принятое для них расположение громкого-
ворителей в помещении прослушивания было показано ранее на рис. 2.5.
Развитие систем фирмы Dolby Lab, основанной Реем Долби в Лондоне в 1965 г.,
изначально состоящей всего лишь из четырех сотрудников, прошло несколько этапов.
В 1996 г. благодаря достигнутым успехам в разработке новых технологий Рей Долби
был награжден Национальной медалью США, позже он получил почетную степень
доктора наук Кембриджского университета, а также премии «Оскар» и «Эмми».
Сегодня звуковые системы фирмы Dolby Lab являются наиболее распространен-
ными и популярными в мире, но не единственными в данном секторе рынка.
На первом этапе развития систем фирмы Dolby Lab, когда в руках разработчиков
было только два канала передачи-записи информации, на основе матричной техно-
логии первой была разработана двухканальная стереофоническая система повышен-
ного качества звучания Dolby Stereo, а чуть позже система Dolby Surround. Сегодня
в формате Dolby Surround передается звуковое сопровождение телевизионных прог-
рамм, причем не только в художественных фильмах, но и в музыкальных, спортивных
передачах и даже в новостях. Формат Dolby Surround используется и в областях, не
связанных с передачей изображений, например звукозаписывающие компании Delos,
RCA Victor/BMG Classic, Concord Jazz выпустили на рынок компакт-диски и аудиокас-
сеты с музыкальными записями в формате Dolby Surround. Многими разработчиками
ведутся успешные эксперименты по внедрению этой системы в видеоигры и другие
мультимедийные приложения. Другими словами, системы пространственного звука
фирмы Dolby Lab стали традиционными не только в кинотеатрах и в домашней аудио-
и видеоаппаратуре, но и в компьютерах.
Система Dolby Surround
Все же изначально форматы Dolby Stereo и Dolby Surround были ориентированы
на кинематограф (рис. 2.37). Они содержат кодирующее устройство (КУ) на сто-
роне передачи и декодирующее устройство (ДКУ) — на стороне воспроизведения
(рис. 2.38,а). Первые декодеры Dolby Surround появились еще в 1982 г. На входы
КУ подаются четыре сигнала: L, С и R — левый, центральный и правый фронтальные
сигналы, а также сигнал окружения S (Surround). Сигналы L, R и C получены от
микрофонов, установленных вблизи от эстрады соответственно в левой, центральной
и правой частях звукового поля студии. В этой области (на небольшом расстоянии
от исполнителей) основную роль играют сигналы прямых звуков, поступающих от
музыкантов по кратчайшему пути. Звучание этих сигналов сухое, обедненное в темб-
ральном отношении. Сигнал S получен от микрофонов, расположенных в удаленной от
эстрады области и содержит в основном реверберирующий звук помещения. Звучание
этого сигнала гулкое, размытое, объемное. Левый L и правый R сигналы рис. 2.38,б
через сумматоры Σ1 , Σ2 , Σ3 , Σ4 без каких-либо изменений поступают на выход КУ. К
каждому из них добавляется в равном соотношении и синфазно сигнал центрального
канала C, ослабленный аттенюатором (дБ) по уровню на 3 дБ. В аналоговых системах
Dolby сигнал С часто ограничен сверху по частоте значением 9000 Гц. Сигнал окру-
жения S также проходит аттенюатор дБ, где ослабляется по уровню на 3 дБ. Далее
этот сигнал поступает на полосовой фильтр ПФ с частотами среза 100 и 7000 Гц.
После чего он обрабатывается компрессором модифицированной компандерной сис-
темы шумоподавления Dolby Noise Reduction типа B, в результате сокращается его
динамический диапазон и, как следствие этого, повышается средний уровень. Затем
92 Раздел 2

Ðèñ. 2.37. Аналоговая матричная система пространственного звучания Dolby Surround

он подается на вход широкополосного фазовращателя ШФ, где в каждом из выход-


ных каналов сдвигается по фазе соответственно на +90◦ и −90◦ . Далее оба этих
противофазных сигнала поступают на входы сумматоров Σ3 и Σ4 . Сигналы L1 и R1 ,
полученные на выходах КУ, называют комплексными стереофоническими сигналами.
При прослушивании выходных сигналов кодера Dolby через громкоговорители Гр1
и Гр2 обычной двухканальной стереофонической системы звук канала C присутствует
в равной степени в обоих (левом и правом) каналах воспроизведения. Этот сигнал
образует виртуальный громкоговоритель, расположенный в центре базы Гр1 и Гр2 .
При этом звук канала S излучается громкоговорителями Гр1 и Гр2 в противофазе.
Этот звук воспринимается как едва заметный, призрачный, размытый по всей ба-
зе между Гр1 и Гр2 .
Пассивный декодер системы Dolby Surround (рис. 2.38,в) восстанавливает с оп-
ределенной погрешностью входные сигналы КУ. Он содержит блок контроля баланса
уровней сигналов L1 и R1 (БКУ1 ), матрицу М1 , выделяющую сигнал окружения S

Ðèñ. 2.38. Система Dolby Surround: а — упрощенная структурная схема; б — кодирующее устройство;
в — пассивное декодирующее устройство
Звуковые системы 93

и являющуюся по сути дела вычитающим устройством. На выходе M1 мы имеем


сигнал с увеличенной по уровню компонентой S. Далее этот сигнала проходит ан-
тиэлайзинговый фильтр Ф1 , линию задержки ЛЗ, полосовой фильтр ПФ с полосой
частот 100. . . 7000 Гц, экспандер модифицированный компандерной системы шумопо-
давления Dolby Noise Reduction типа В, блок контроля уровня громкости сигналов L,
R и S (БКУГР ), блок регулировки баланса уровней сигналов L и R (БКУ2 ) и регулятор
подстройки уровня сигнала S (РУS ). Сигнал окружения S с выхода ДКУ подается на
распределенную систему громкоговорителей (рис. 2.37, Surround).
Напомним, что громкоговоритель канала сверхнизких частот СНЧ (Soobwufer),
работающий в полосе частот 20. . . 125 Гц, может располагаться в любом месте поме-
щения прослушивания, ибо он не влияет на пространственную структуру стереопано-
рамы. Однако фирма Dolby Lab рекомендует устанавливать не один, а два громкого-
ворителя канала СНЧ. Один из них — на расстоянии одной пятой ширины помещения
от одной боковой стены, а второй — на расстоянии одной трети ширины помещения
ближе уже к другой боковой стене. Это позволяет избежать превалирования низких
частот в одной стороне помещения, а также устранить возможность возникновения
резонансов в помещении, которые могли бы появиться при центральном размещении
одного громкоговорителя СНЧ.
Полоса частот громкоговорителя фронтального канала C в системе Dolby Sur-
round часто ограничивается сверху значением 9000 Гц. Левый и правый фронталь-
ные громкоговорители излучают полную полосу частот (20. . . 20000 Гц), в то время
как громкоговорители канала окружения S работают в полосе частот 100. . . 7000 Гц.
Заметим, что компоненты сигнала S воспроизводятся дополнительно также левым L
и правым R фронтальными громкоговорителями, но они излучаются ими в противо-
фазе и практически не влияют на восприятие звука канала окружения Surround.
Основным недостатком любой матричной звуковой системы является наличие
мешающих сигналов, искажающих пространственную структуру стереопанорамы. Их
появление делает источники звука более размытыми и протяженными, как правило,
уменьшает размер зоны стереофонического эффекта, где еще сохраняется локализа-
ция звуковых образов качественно правильной: возможно восприятие всех основных
четырех направлений — левого, фронтального, правого и тылового. Уровень меша-
ющих сигналов должен быть как можно меньше. Это одно из основных требований,
предъявляемых к любой матричной системе.
Итак, если на вход КУ в матричной системе воздействует только один из сигналов
L, или C, или R, или S, то на выходах ДКУ будут появляться наряду с полезным и
мешающие сигналы. Например, если на вход КУ поступает сигнал L, то полезным
на выходе ДКУ будет сигнал только левого фронтального громкоговорителя (Left);
остальные сигналы должны рассматриваться в этом случае как мешающие (вредные).
Последние излучаются соседними по отношению к основному громкоговорителями,
они ослаблены по уровню относительно основного сигнала лишь на 3 дБ (рис. 2.39,а).
Иначе говоря, разделимость (изолированность) любого основного канала от каждого
из соседних составляет здесь лишь 3 дБ. В то же время развязка между левым L и
правым R, а также между фронтальным C и пространственным S каналами и наоборот
теоретически бесконечно велика, если АЧХ и ФЧХ КУ и ДКУ идеальны. Это условие,
особенно в области верхних частот, выполнить очень трудно при наличии суммарного
и разностного преобразований исходных сигналов, выполняемых в КУ и ДКУ. Именно
по этой причине полоса частот в канале S ограничена диапазоном средних частот,
94 Раздел 2

Ðèñ. 2.39. Разделимость сигналов L, R, C, S в системе Dolby Surround: a — объективно суще-


ствующая; б — кажущаяся при слуховом восприятии при наличии ЛЗ и системы шумоподавления Dolby
Noise Reduction типа B) и к вопросу о выделении при декодировании доминирующего направления (в)

где искажения АЧХ и ФЧХ минимальны. Кроме того, именно в этой полосе частот
энергия звукового сигнала максимальна обычно.
Известно, что высокочастотные компоненты сигналов образуют компактные
КИЗ. Поэтому их исключение, особенно в канале S, приводит к тому, что слушатели
не связывают восприятие высокочастотных компонент сигналов фронтальных гром-
коговорителей с направлением на громкоговорители окружения. Звуковые образы,
создаваемые сигналом канала S, воспринимаются слушателями размытыми и рас-
пределенными в пространстве. Компандерная система шумоподавления Dolby Noise
Reduction типа В дополнительно подавляет в канале S проникающие в них компоненты
сигналов L и R, когда уровни последних лежат существенно ниже уровня сигнала S.
В канал S включена линия задержки ЛЗ с временем запаздывания, выбираемым
в пределах от 10. . . 15 мс до 25. . . 30 мс в зависимости от объема помещения и от
расстояний от места прослушивания до фронтальных (L, C, R) и тыловых (S) гром-
коговорителей (рис. 2.40). Наличие задержки гарантирует, что звук фронтальных
громкоговорителей достигнет ушей слушателя раньше, чем звук тыловых, а значит,
возможность ошибки в оценке фронтального и тылового направлений будет исклю-
чена. Тем самым устраняется возможность ложной оценки направления на звуковой
образ вследствие присущего слуху эффекта Хааса, заключающегося в подавлении
(ослаблении по уровню) запаздывающего сигнала. С учетом всего изложенного ощу-
щаемая (воспринимаемая) слушателем разделимость канала С от L и R и наоборот
составляет реально не менее 40 дБ (рис. 2.39,б).

Ðèñ. 2.40. Зависимость времени задержки сигнала канала S относительно сигналов фронтальных
громкоговорителей в функции расстояний до мест прослушивания: а — хорошие места расположе-
ния слушателей при времени задержки 20 мс; б — тоже самое, но при времени задержки 15...30 мс
Звуковые системы 95

Применение пассивных декодеров (см. рис. 2.38,в) не способно обеспечить качес-


твенно правильную локализацию источников звука в пространстве на значительной
площади пола помещения прослушивания. С этой точки зрения определенным преи-
муществом обладают декодеры с регулируемым (управляемым) усилением в каналах
воспроизведения, точно также как это выполняется в адаптивных стереофонических
системах звукопередачи. Заметим, что Dolby Surround — это матричная аналого-
вая звуковая система.
Системы Dolby Pro Logic I и Dolby Pro Logic II
Система фирмы Dolby Lab с активным декодером получила название Dolby Pro
Logic (рис. 2.41), она предназначена для применения в помещениях небольшого объ-
ема и в системах, получивших позже название «Домашний кинотеатр». Это также
матричная аналоговая звуковая система. Кодер здесь точно такой же, как и в системе
Dolby Surround. Отличие лишь в декодере. В данном случае используется активный
декодер и режимы его работы напоминают уже описанные в рассмотренных ранее
звуковых системах с панорамным кодированием источников.
Декодер Dolby Pro Logic I. В принципе возможны два подхода к построению ак-
тивных декодеров. Предположим, что каждый из выходных каналов воспроизведения
содержит свой усилитель УУ1 , . . . , УУ4 с управляемым коэффициентом передачи
(рис. 2.42,а). Пусть сигналы управления для них формируются из входных сигна-
лов ДКУ L1 , R1 , а также из их суммы L1 + R1 и разности L1 − R1 в специальном
блоке БФУС. Здесь определяется, в каком канале следует уменьшить усиление, что-
бы ослабить (подавить) мешающие (вредные) сигналы. Например, если на входе КУ
присутствует только сигнал С, то следует уменьшить усиление в каналах L и R и т. п.
Фактически звук может приходить с любого направления в пределах угла 360◦ , и этого
можно достичь, меняя в определенной степени усиление в каналах воспроизведения.
Но нужно это делать таким образом, чтобы формирование КИЗ в любом направле-
нии выполнялось бы сигналами не более чем двух каналов воспроизведения, точно
так же, как это делается, например, в режиме формирования единственного КИЗ ра-
нее рассмотренной стереофонической системы с панорамным кодированием сигналов
источников. Однако таким методом задача решается эффективно, лишь для единст-
венного КИЗ. Но она существенно усложняется, если звуковых образов несколько.
Пусть, например, речь звучит на фоне музыки, при этом музыка по замыс-
лу звукорежиссера должна воспроизводиться громкоговорителями каналов L и R, а
речь — громкоговорителем канала С. Пассивный декодер системы Dolby Surround
(см. рис. 2.38,в) с этой задачей вообще не справится: речь будет воспроизводить-
ся громкоговорителями всех трех каналов L, C, R; через громкоговоритель канала С
будет прослушиваться суммарный сигнал L+R, а через громкоговорители канала S —

Ðèñ. 2.41. Система Dolby Pro Logic


96 Раздел 2

Ðèñ. 2.42. К принципу формирования компенсирующих сигналов: а — концепция; б — возможная


реализация

разностный сигнал L − R. Теперь предположим, что ДКУ считает доминирующим


сигналом речь, тогда он должен увеличить уровень сигнала в канале С и уменьшить
соответственно уровень сигнала в каналах L и R. При этом музыкальное сопровожде-
ние останется только в каналах С (монофонический сигнал L + R) и S (разностный
сигнал L − R) и оно будет подавлено. В моменты времени, когда говорящие герои за-
молкают (в паузе), восстанавливается усиление в каналах L и R. При появлении речи
музыкальное сопровождение по уровню опять уменьшается. Такие изменения гром-
кости и фактуры звучания легко ощутимы. Именно этот недостаток присущ режиму
формирования единственного КИЗ в рассмотренных выше системах с панорамным
кодированием источников.
Другой способ (рис. 2.42,б) состоит в попытке компенсации мешающих сигналов
формированием их противофазных компонент и последующим сложением с исходны-
ми сигналами. Например, если взять сигнал правого канала R, инвертировать его по
фазе и затем сложить с выходным сигналом левого канала L, то компоненты сигнала
C в левом и правом каналах окажутся противофазными и после сложения взаим-
но компенсируются, а значит, в канал L компоненты сигнала C не попадут. Именно
этот принцип взаимной компенсации (cancellation concept) и используется в актив-
ных декодерах системы Dolby Pro Logic. Важно, что после исключения компонент
сигнала C из левого канала воспроизведения, громкость (энергия сигнала) звука в
этом канале не упадет, ибо компоненты сигнала C заместятся в этом канале инвер-
тированным сигналом канала R (constant — power concept). В центральном канале
по-прежнему прослушивается сумма сигналов L + R. В итоге доминирующий сигнал
речи фокусируется в направлении громкоговорителя центрального канала C, а му-
зыкальный фон по-прежнему воспроизводится громкоговорителями каналов L и R и
воспринимается как размытый звуковой образ. Здесь используется важное свойство
слуха — его способность концентрировать внимание именно на доминирующем нап-
равлении, воспринимая все остальные звуки с других направлений как размытый (без
четкой идентификации его в пространстве) звуковой образ. Этот принцип называется
выделением доминирующего (доминантного) направления.
Рассматривая этот пример, мы предполагали, что громкость речи существенно
выше уровня музыкального фона. Если же оба сигнала по уровню громкости близ-
ки, то один из них становится маскирующим для компонентов другого, попавшего не
в свои каналы, и требования к их «развязке» снижаются. В некоторых ситуациях
вообще желательно исключить регулировку уровней сигналов на выходах ДКУ, сде-
лав декодер пассивным. Этот режим аналогичен режиму множества КИЗ в системах
с панорамным кодированием источников. Например, звуки дождя и ветра. Они не
Звуковые системы 97

связываются слушателем с каким-либо конкретным направлением и могут воспроиз-


водиться всеми громкоговорителями. Самая крайняя ситуация — все звуки связаны с
одним единственным направлением (единственный КИЗ). С этой ситуацией не может
справиться пассивный декодер, но для активного декодера — это наиболее простая
ситуация. Самая трудная ситуация, когда мы должны передать одновременно два
разных равноценных направления без доминирования.
В системе с активным декодером, которая непрерывно перестраивается, выделяя
то или иное доминирующее направления звука, очень важную роль играет с позиций
слуха оптимальный выбор временных параметров декодера. В системах Dolby Pro
Logic реализовано два режима работы — быстрый и медленный. Они по своей идее
напоминают режимы формирования единственного и множества КИЗ в системах с
панорамным кодированием источников. Быстрый режим реакции ДКУ используется,
если доминирующее направление явно выражено и если оно меняется. Медленный
режим используется, когда доминирующих направлений несколько и они близки по
уровню громкости.
Вся информация, необходимая активному декодеру для управления усилением
каналов воспроизведения, извлекается им из входных сигналов. Ее достаточно для
идентификации любого направления, что иллюстрирует рис. 2.39,в. Здесь ось X
соответствует левому L и правому R направлениям на источник звука (каналы L и R),
ось Y — фронтальному (канал С) и тыловому направлениям (канал S) локализации.
Меняя амплитуды каждого из этих четырех выходных сигналов можно получить любое
направление локализации звука в горизонтальной плоскости.
Структурная схема ДКУ системы Dolby Pro Logic представлена на рис. 2.43. Она
содержит полосовой фильтр ПФ с частотами среза 100 и 7000 Гц, матрицу М1 , где
выполняется суммарно-разностное преобразование входной пары сигналов L1 и R1 ,
формирователь сигналов управления (ФСУ), управляемые усилители УУ и матрицу
М2 формирования выходных сигналов декодера (Left, Right, Center, Surround). Ос-
новную часть ДКУ образуют элементы ПФ и ФУС, выполняющие анализ входной
пары сигналов и формирование сигналов управления и лишь относительно неболь-
шая их часть M1 , УУ и M2 участвует в обработке входной пары сигналов с целью
получения выходных сигналов декодера.

Ðèñ. 2.43. Структурная схема активного декодера системы Dolby Pro Logic
98 Раздел 2

Основная задача ДКУ — правильно определить доминирующее направление, если


таковое в текущий момент времени имеется. Перед обработкой сигналы L1 и R1 нор-
мируются, чтобы исключить ошибки, связанные с неидентичностью характеристик
каналов передачи-записи информации.
Полосой фильтр ПФ отсекает высокочастотные компоненты входных сигналов
с тем, чтобы исключить их из последующего анализа, так как именно они наиболее
подвержены фазовым искажениям, возникающим в каналах передачи. Кроме того,
напомним также, что на частотах выше 7000 Гц энергия звуковых сигналов сущест-
венно ниже, чем в области средних частот, поэтому их вклад в оценку азимута КИЗ
незначителен. Далее сигналы L1 , R1 , L1 +R1 и L1 −R1 выпрямляются и усредняются
(B1 , B2 B3 , B4 ), полученные в результате этой операции их огибающие поступают
попарно на входы двух дифференциальных усилителей ДУ1 и ДУ2 . При этом медленно
меняющееся напряжение на выходе ДУ1 пропорционально логарифму отношения ам-
плитуд lg[|L|/|R|] огибающих |L| и |R| сигналов L1 и R1 , а напряжение на выходе ДУ2
соответственно пропорционально логарифму отношения амплитуд lg[|L + R|/|L − R|]
огибающих |L + R| и |L − R| сигналов L1 + R1 и L1 − R1 . Заметим, что каждый из
этих двух сигналов является биполярным, т. е. положительным (если L1 > R1 или
|L + R| > |L − R|) и отрицательным (когда L1 < R1 или |L + R| < |L − R|). Очевид-
но (см. рис. 2.39,в), что если сигнал на выходе ДУ1 положителен, то это значит, что
источник звука находится справа от медианной плоскости головы слушателя, если же
при этом еще и сигнал на выходе ДУ2 также положителен, то источник звука располо-
жен справа во фронтальной части пространства. При этом его азимут в пространстве
полностью определяется этой парой сигналов. Если эти сигналы равны нулю, то до-
минирования сигнала какого либо источника в этом случае нет. Величина каждого
из этих сигналов в блоке сравнения БС сравнивается с пороговым напряжением Eп
и, если один из этой пары сигналов или оба они оказывается выше некоторого поро-
гового значения, это говорит о наличии доминирующего направления локализации.
Как только его наличие идентифицируется, устройство переходит в быстрый режим
работы, и наоборот. Переключение постоянных времени выполняется одновременно
в блоках, обозначенных на данном рисунке буквой τ . При работе в быстром режиме
она составляет 3. . . 5 мс, в медленном режиме — уже около 1. . . 2 с. Преобразователи
полярности сигналов lg[|L|/|R|] и lg[|L + R|/|L − R|] (ППС1 и ППС2 ) формируют из
двух биполярных сигналов соответственно четыре однополярных EL , ER , EC , ES . Те-
перь вектор доминирующего направления оказывается уже представленным четырьмя
сигналами, которые уже можно использовать для регулирования коэффициентов пе-
редачи управляемых усилителей УУ с целью компенсации мешающих сигналов. Они
образуют матрицу, состоящую из восьми таких усилителей, на выходах которой мы
имеем соответственно восемь сигналов: EL L1 , EL R1 , ER L1 , ER R1 , EC L1 , EC R1 ,
ES L1 , ES R1 . С учетом входных сигналов L1 и R1 на выходную матрицу М2 деко-
дера системы Dolby Pro Logic поступает в общей сложности десять сигналов, где
они суммируются и вычитаются с различными весовыми коэффициентами, образуя,
в конечном итоге, выходные сигналы ДКУ — Left, Right, Center и Surround. Деко-
дер обеспечивает точную передачу доминирующего направления, перераспределение
мощности выходных сигналов так чтобы исключить изменение громкости звучания
и сделать регулировки коэффициентов передачи незаметными на слух. При рабо-
те декодера в медленном режиме возможно возникновение паразитной амплитудной
модуляции в выходных сигналах декодера, а при работе его в быстром режиме — по-
явление заметных на слух нелинейных искажений. Для уменьшения этих искажений
Звуковые системы 99

Ðèñ. 2.44. К компенсации мешающих сигналов в декодере Dolby Pro Logic II: а — идея;
б — реализация

решающую роль играет выбор постоянных времени в цепях формирования сигналов


управления и этой проблеме следует уделять особое внимание.
В систему Dolby Pro Logic также вводят дополнительный канал сверхнизких
(СНЧ) частот (Subwoofer) и соответствующий ему громкоговоритель СНЧ, обеспечи-
вающий воспроизведение сигналов в полосе частот до 80. . . 125 Гц. При этом нижняя
граница полосы частот сигналов, воспроизводимых фронтальными громкоговорите-
лями, в данном случае может быть повышена до 80. . . 125 Гц без потери качества. За-
метим, что тракт сверхнизких частот оптимизируется с целью получения минималь-
ных искажений на низших частотах. Остальные каналы воспроизведения определяют
возможности системы по передаче пространственной информации и оптимизируются
именно по указанному критерию.
Декодер Dolby Pro Logic II. Это активный декодер следующего поколения. На-
помним, что важнейшая задача декодера (см. рис. 2.39,а и б) состоит в том, чтобы
исключить насколько это возможно проникновение сигналов L и R в канал S неза-
висимо от того, в какой точке на линии базы фронтальных групп микрофонов (L, C,
R) находится реальный источник звука. Если герои ведут диалог, располагаясь точно
по середине между микрофонами каналов L и R, то уровень сигналов в этих каналах
будет одинаков и мешающего сигнала в канале S не будет, ибо S = L − R. При нео-
динаковом их расстоянии от микрофонов в канале S появится мешающий сигнал, его
значение зависит от разности уровней сигналов L и R. Чтобы скомпенсировать этот
мешающий сигнал в канале S, необходимо предварительно выровнять уровни сигна-
лов L и R на входе вычитающего устройства Σ. И это дополнительное регулирование
будет уже зависеть от соотношения уровней сигналов L и R. Для этой цели можно
использовать идею, представленную на рис. 2.44,а. Здесь между каналами L и R и
входами сумматора Σ включены два управляемых усилителя УУ. Их коэффициенты
передачи изменяются в разные стороны под действием одинакового по величине сиг-
нала управления Uу , но разной полярности. При увеличении уровня сигнала на выходе
одного из УУ сигнал на выходе другого уменьшается. Если такую регулировку выпол-
нять с требуемой точностью, то мешающий сигнал в канале S при наличии на входе
КУ сигналов L и R будет скомпенсирован независимо от соотношения их уровней.
Пример реализации такой схемы показан на рис. 2.44,б. Для получения требуемо-
го сигнала управления Uу здесь используется цепь, включающая два амплитудных
детектора АД и дифференциальный усилитель ДУ. Выходные сигналы управляемых
усилителей УУ проходят АД, на выходах которых мы имеем огибающие пропорци-
ональные амплитудам сигналов L и R. При этом величина сигнала Uу на выходе
ДУ будет пропорциональна разности амплитуд этих огибающих. Он и используется
здесь в качестве сигнала управления для изменения коэффициентов передачи управ-
100 Раздел 2

ляемых усилителей УУ. Итак, решение, позволяющее реализовать идею подавления


мешающего сигнала в канале S, является весьма простым.
Благодаря лучшей компенсации мешающих сигналов в декодере Dolby Pro Logic
II реализованы следующие преимущества:
• простота аппаратных средств, с помощью которых достигается более эффектив-
ная компенсация мешающих сигналов;
• обе ветви, изменяющие постоянные времени в цепи формирования сигналов уп-
равления, здесь функционируют независимо друг от друга, в то время как в деко-
дере Dolby Pro Logic I перевод в быстрый режим выполняется, если хотя бы один
из сигналов на выходах ДУ1 или ДУ2 имеет явное доминирование по уровню, а
перевод декодера Dolby Pro Logic I в медленный режим работы происходит только
тогда, когда амплитуды этих двух сигналов примерно равны;
• постоянная времени τ в цепях формирования сигналов управления изменяется
в Dolby Pro Logic II непрерывно, а не имеет, как это было ранее, только два
фиксированных значения;
• тыловые каналы имеют полную полосу частот;
• декодер Dolby Pro Logic II лучше подходит для использования в бытовой аппарату-
ре; кроме обычного режима работы Movie с фиксированным набором параметров,
предназначенного для воспроизведения кодированных фонограмм фирмы Dolby
Lab, здесь дополнительно введен режим Music. При работе в этом режиме мож-
но изменять параметры настройки, что позволяет его использовать, например,
в автомобильной акустике, или настраивать декодер на иное по глубине распо-
ложение слушателя, или устанавливать режим панорамы, при котором создается
ощущение звука, исходящего со всех сторон и т. п.;
• в режиме Music линия задержки в тыловых каналах не нужна, ибо звуковые об-
разы совсем не обязательно должны восприниматься только из фронтального
направления, возможно окружение ими слушателя со всех сторон;
• данный декодер может быть использован также для улучшения качества звучания
фонограмм обычной двухканальной стереофонии.
Система Dolby THX Matrix
Это не новый формат фирмы Dolby Lab. Основная цель — дальнейшее повы-
шение качества звука кинофильмов, прежде всего за счет ужесточения требований,
предъявляемых к помещениям и аппаратуре. Последняя должна иметь более ши-
рокий динамический и частотный диапазоны. Существенно повышены требования
к громкоговорителям каналов воспроизведения, они должны иметь более широкую
диаграмму направленности в горизонтальной плоскости. Введена дополнительная
обработка сигналов в области низких частот. В канал S добавлено декоррелирую-
шее устройство, позволяющее получить в тыловой области псевдостереофоническое
звучание. При этом сами кинозалы приобрели черты эксклюзивности. Существенно
ужесточены также требования и к оборудованию домашнего пользования.
Оборудование должно позволять воспроизводить сигналы с повышенным уров-
нем громкости в пиках, реалистично по фактуре без слышимых искажений, сжатия
и шумов.
Иными словами, в данном формате повышены требования к каждому виду обору-
дования: декодеру, усилителям, акустике и к параметрам помещения, все они жестко
оговорены в документах.
Звуковые системы 101

Дальнейшим развитием THX-технологии стало появление стандарта THX Ultra


с еще более жесткими требованиями. Таким образом, технология THX отражена в
совокупности стандартов и патентов, гарантирующих высококачественное и высокоху-
дожественное воспроизведение звука кинофильмов в больших и в малых помещениях.
Системы Dolby Digital 5.1 и Dolby Digital EX 6.1
В отличие от уже рассмотренных выше систем фирмы Dolby Lab эти системы
являются:
• во-первых, многоканальными звуковыми системами, имеющими соответственно
5 или 6 дискретных каналов передачи-записи-воспроизведения информации;
• во-вторых, это цифровые системы, где при кодировании звуковых сигналов ис-
пользуются алгоритмы компрессии аудиоданных;
• в третьих, в них отсутствуют КУ и ДКУ, как это имеет место в системах Dolby
Surround и Dolby Pro Logic), но так же, как и ранее, существует канал СНЧ.
Первое появление системы Dolby Digital 5.1 на рынке состоялось в 1992 г. во вре-
мя демонстрации фильма «Возвращение Бэтмана». Звуковое сопровождение данного
фильма имело два варианта — шестиканальный в формате Dolby Digital 5.1 в виде од-
ной цифровой дорожки и двухканальный аналоговый в формате 3/1 (Dolby Surround).
Система Dolby Digital 5.1 имеет пять основных каналов: левый L, центральный
C, правый R фронтальные и левый LS и правый RS пространственные, все они с
полной полосой частот 20. . . 20000 Гц и канал СНЧ с полосой частот 20. . . 125 Гц.
Расположение громкоговорителей в помещении точно такое же, как и при формате
Dolby Pro Logic. При кодировании звука используется алгоритм сжатия A/52 системы
ATSC Dolby AC-3. Коэффициент сжатия в этом алгоритме достигает значения 12:1.
Его особенности подробно будут изложены позже. Суммарное значение скорости
цифрового потока составляет в вещании 384 кбит/с, а в кинематографе — 320 кбит/c.
В настоящее время данный формат доступен в Европе со спутников — вещание
в формате ATSC Dolby AC-3 реальность.
Важным достоинством цифровой аппаратуры формата Dolby Digital 5.1 является
наличие семейства аппаратно и программно соместимых декодеров:
• от наиболее сложных и высококачественных формата Dolby Digital 5.1 (Decoder
A); уровнем ниже — Decoder B, который формирует сигналы L1 и R1 , а из них в
свою очередь декодеры Dolby Surround или Dolby Pro Logic формируют сигналы
форматов 3/1 или 3/2;
• еще уровнем ниже — Decoder C, формирующий сигналы обычного стереофор-
мата 2/0, и
• наконец, самый низкий уровень — Decoder D; на его выходе имеем обычное моно,
формат 1/0.
Для каждого из них входным сигналом явялется цифровой поток формата Dolby
Digital 5.1. Разумеется, что декодеры высоких уровней имеют режимы работы де-
кодеров и более низких уровней. Это дает большую гибкость потребителю — купив
сложный декодер, он может постепенно наращивать возможности своего аудиовидео-
комплекса от простейшего монофонического до высококачественного звука формата
5.1. Но на этом возможности декодера Dolby Digital 5.1 не исчерпываются. В нем
предусмотрена управляемая компрессия динамического диапазона сигнала. Компрес-
сор при работе в этом режиме повышает уровень слабых звуков, чтобы они были бы
отчестливо слышимы, и ослабляет звуки слишком высоких уровней. Кроме того, мож-
но сконфигурировать цифровой декодер Dolby Digital 5.1 так, чтобы низкочастотные
102 Раздел 2

Ðèñ. 2.45. Система Dolby Digital Surround EX 6.1

составляющие присутствовали бы только в тех каналах, для которых предусмотрены


громкоговорители с НЧ-звеном или субвуферы канала СНЧ.
В настоящее время на рынке предлагаются программные продукты (Soft Encode
Dolby Digital 5.1) для реализации формата Dolby Digital 5.1 на персональном компью-
тере. Продукт Soft Encode Dolby — очень простая в использовании программа. Все
что нужно пользователю — это открыть шесть звуковых файлов, заранее подготов-
ленных к записи в каком-нибудь звуковом редакторе, определить для каждого из них
номер канала, сбалансировать относительную громкость звучаний каждого из них и
нажать на кнопку, запускающую процесс кодирования. Здесь предусмотрена также
возможность регулирования уровня громкости и времени задержки программно. Вы-
ход фирмы Dolby Lab на компьютерный рынок состоялся еще в 1998 г., а сегодня
она имеет уже прочное место на рынке пользователей персональных компьютеров.
Исходные ИКМ-файлы могут с частотами дискретизации 32, 44,1 или 48 кГц и раз-
решением 16 или 24 бита на отсчет. Появление этой программы сразу передвинуло
призводство роликов из дорогостоящих студий непосредственно в дом пользователя,
то есть дало в руки очень простой инструмент, позволяющий работать на высоком
профессиональном уровне.
Дальнейшим развитием явилась система Dolby Digital Surround EX 6.1 (рис. 2.45),
где вся система распределенных громкоговорителей уже разделена на три группы: ле-
вую (Left Surround), тыловую (Rear Surround) и правую (Right Surround). Он не требу-
ет дополнительных пояснений. Суммарная скорость цифрового потока здесь состав-
ляет 320 кбит/c, сжатие цифровых аудиоданных более сильное. Поэтому допускается
лишь один цикл кодирования-декодирования звуковых сигналов. Эта система специ-
ально предназначена для высококачественного воспроизведения звука в кинозалах.
Она обеспечивает более точное позиционирование источников звука. Здесь звуко-
вые эффекты более реалистичны: пролеты источников звука над головой происходят
действительно сверху, а не сбоку, как это имеет место при формате 5.1, объемность
звучания и передача акустической обстановки кажутся здесь более впечатляющи-
ми и более соответствующими той, которую пытались передать создатели фильма.
В большинстве случаев переход от формата Dolby Digital 5.1 к формату Dolby Digital
Surround EX 6.1 требует дополнительной установки адаптера Dolby SA10 и разбиения
громкоговорителей окружения на три группы RS, LS, TS (рис. 2.45).
В профессиональных приложениях часто возникает необходимость многократно-
го кодирования-декодирования при создании аудиотрека в процессе его редактирова-
ния и монтажа. Для решения таких задач фирма Dolby Lab разработала професси-
ональный формат Dolby-E.
Звуковые системы 103

Цифровой поток Dolby-E может содержать до восьми каналов звука с полной


полосой частот. Кроме собственно сжатых аудиоданных в цифровой поток включа-
ются и метаданные, содержащие ко всему прочему также специальные инструкции
для декодера, например одна из них может вести ограничение динамического диапа-
зона и т. п. Метаданные могут использоваться декодером полностью, частично или
вообще игнорироваться. Структура потока Dolby-E соответствует кадровой струк-
туре видео, поэтому звуковой материал можно легко монтировать и редактировать,
не нарушая синхронности аудио и видеоматериала. Формат Dolby-E допускает до 10
циклов кодирования-декодирования без заметного на слух ухудшения качества.
И наконец, следует сказать о появлении формата Dolby Digital THX Surround
EX 7.1, где нашлось место процессору и идее THX-cертификации, о которых уже
было сказано выше.
Заметим, что THX не является самостоятельным форматом. Это программа
компании Lucasfilm, которая сертифицирует кинотеатры, студии звукозаписи, а так-
же звуковоспроизводящее оборудование (как профессиональное, так и для домашнего
использования, обычно это усилители и акустические системы). Наличие сертифика-
та THX означает, что продукт отвечает повышенным требованиям, которые компания
Lucasfilm предъявляет к качеству звука, и в глазах пользователей дает преимущество
перед конкурентами, поэтому многие производители (а также кинотеатры и студии)
идут на такую сертификацию, несмотря на ее довольно высокую цену.
Развитие цифровых звуковых систем фирмы Dolby Lab идет по пути увеличения
числа раздельных каналов передачи звука. Но мы должны помнить, что увеличение
числа канала передачи звука дает наибольший прирост качества, когда число каналов
не превышает пяти. Дальнейшее их увеличение способствует повышению качества,
но процесс этот носит экспоненциальный характер. Однако увеличение числа ка-
налов передачи звука, несомненно, ведет к повышению точности пространственного
позиционирования звуковых образов и к существенному расширению зоны слушания,
где в полном объеме воспринимаются слушателем все задумки, которые хотел бы
донести до слушателей звукорежиссер. И с этой точки зрения данный процесс оп-
равдан, но скорее для помещений большого объема, где мы имеем дело с большой
аудиторией слушателей.
Чтобы обеспечить высокий уровень качества кинопродукции, выпускаемой с ло-
готипом фирмы Dolby Lab, она ввела строгую сертификацию кинотеатров, звукоза-
писывающих студий и собственно фильмов. Ведь даже двухканальная фонограмма,
воспроизведенная в разных помещениях и с разных громкоговорителей, звучит по-
разному (изменяется общий частотный баланс, а также положение кажущихся ис-
точников звука), что уж тут говорить о четырехканальной фонограмме. Поэтому
сертификация, для получения которой кинотеатр должен был обеспечить достаточно
высокое качество звуковоспроизводящей аппаратуры, нужное звуковое давление во
всех точках зала и хорошую акустику помещения, помогла сделать звучание фильма
примерно одинаковым во всех сертифицированных кинотеатрах. Сертификация сту-
дий звукозаписи (условия для студий примерно те же, что и для кинотеатров, плюс
несколько специфичных параметров) необходима для того, чтобы звук, сделанный
в этой студии и слышимый режиссером, был таким же, как и в кинотеатрах. Все
это сделало логотип Dolby приманкой для зрителя, который знал, что, придя в ки-
нотеатр, носящий такой логотип, он получит высокое качество окружающего звука и
зрелище, недостижимое в домашних условиях. Именно с широким распространением
104 Раздел 2

Dolby Stereo связывают расцвет киноиндустрии, произошедший в начале 80-х годов,


так как народ повалил в кинотеатры, чтобы испытать новые ощущения.
Итак, сегодня звуковое оборудование фирмы Dolby Lab проникло в кинематограф,
шоу-бизнес, наземное и спутниковое радиовещание и телевидение, домашние аудио-
видеокомплексы, DVD-носители, в компьютерные технологии и заняло там прочные
позиции.

2.8. Системы пространственного звучания фирм


DTS Technology и Sony
Система DTS — Digital Theatre System
В стремлении завоевать рынок цифрового звука в кино компания Dolby Lab бы-
ла отнюдь не одинока. В 1993 г. вышел фильм Стивена Спилберга Jurassic Park
(Парк Юрского периода), где цифровой звук был закодирован по системе DTS (Digital
Theater Systems). Бренд DTS — это название не только звуковой системы, но и фир-
мы, зарегистрированной 1 февраля 1993 г., т. е. она существенно моложе компании
Dolby Lab. Совладельцами DTS являются сам Стивен Спилберг и компания Universal.
Изначально она разрабатывалась для нужд профессионального кинематографа и по-
зиционировалась как цифровая звуковая система пространственного звучания повы-
шенного качества. Это дискретная звуковая система форматов 5.1 (рис. 2.46,а) или
6.1 (рис. 2.46,б).
Усилия по ее разработке начались еще в 80-е годы с того момента, когда Терри
Биад (основатель и президент фирмы NUOPTIX) и Джим Кетчем объединили свои
усилия для создания новой системы озвучения кинофильмов. При этом в основу
своих изысканий они положили два принципа:
• не стоит выкраивать на кинопленке, которая является ненадежным носителем,
еще одно место для звуковой дорожки, лучше для этой цели использовать от-
дельный носитель звука;
• звук должен быть обязательно цифровым с характеристиками, недостижимыми
для аналоговых систем кинематографа; он должен быть записан на недорогой,
но пригодный по технологии для кинематографа носитель.
В качестве такого носителя первоначально был взят DAT-магнитофон, синхро-
низированный с кинопроектором. Но он оказался инерционным устройством, не поз-
воляющим оперативно реагировать на смену видеоряда. В качестве носителя записи
в конце концов был выбран CD-ROM, который в сочетании с выбранным алгоритмом

Ðèñ. 2.46. Расположение громкоговорителей в кинотеатрах, оборудованных для воспроизведе-


ния звука по системе DTS форматов 5.1 (а) и 6.1 (DTS ES Matrix 6.1 и DTS ES Discrete 6.1, б)
Звуковые системы 105

компрессии звука позволил разместить на нем многоканальную фонограмму длитель-


ностью звучании до 100 минут. Именно CD-ROM, а не CD-Audio. Этот выбор оп-
равдан в силу следующих причин:
• во-первых, информация на CD-ROM лучше структурирована и легче поддается
идентификации, что важно с точки зрения синхронизации и удобства монтажа;
• во-вторых, у него лучше защита от цифровых ошибок;
• в-третьих, в качестве исходного сигнала здесь использовался ИКМ-сигнал с час-
тотой дискретизации fд = 44,1 кГц и разрешением 16 бит/отсчет или позже
fд = 96 кГц и разрешение 24 бит/отсчет (сокращенно DTS 96/24);
• в качестве кодера источника для системы DTS выбран кодер apt-X100, разра-
ботанный фирмой Audio Processing Technology во главе с инженером Стефаном
Смитом и обеспечивающий сжатие звуковых данных 4:1;
• суммарное значение скорости цифрового потока лежит в пределах 768. . . 1500
кбит/c при искажениях, лежащих ниже порога их слуховой заметности.
Используя всего два диска, можно озвучить фи-
льм продолжительностью более трех часов. Для син-
хронизации изображения и звука на киноленту допол-
нительно наносится узкая дорожка с так называемым
временным кодом DTS (рис. 2.47). Благодаря мень-
шему сжатию данных и более совершенному алгорит-
му, чем в Dolby AC3, качество звука, закодированного
кодером apt-X100 в системе DTS, выше, чем у Dolby
Digital. Несмотря на это, прежде всего благодаря сво-
ей активности, фирма Dolby Lab продолжает занимать
господствующее положение на рынке. Тем не менее,
сегодня насчитывается более 19000 кинотеатров, обо- Ðèñ. 2.47. Размещение дорожек
рудованных системой DTS. записи звуковых сигналов на
Высокое качество звука в системе DTS послужи- кинопленке для современных
ло причиной ее экспансии и в мир чисто музыкальных форматов многоканального звука
компакт-дисков, а также DVD-дисков, ориентированных уже исключительно на до-
машнее пользование. Для кодирования ИКМ-сигналов здесь применяется немного
измененный алгоритм компрессии, названный Coherent Acoustics, имеющий меньшее
сжатие данных и соотвественно более высокое качество. Этот кодер был разрабо-
тан компанией AlgoRhitmic, возглавляемой Стефаном Смитом. Позже Стефан Смит
и Терри Биад с целью быстрейшего продвижения своих разработок на рынок до-
машнего потребителя объединили свои компании в одну, дав ей новое название DTS
Technology, именно это название фирма носит и сегодня.
Кодер Coherent Acoustics, работая в формате 5.1 при fд = 48 кГц разрешении
ИКМ-сигнала 24 бита на отсчет, обеспечивает существенно более высокое качество,
чем Dolby Digital. Здесь все 6 каналов полностью независимы, имеют полосу частот
20. . . 20000 Гц за исключением канала СНЧ, где полоса частот составляет 20. . . 80 Гц,
скорость цифрового потока данных на его выходе равна 1,235 Мбит/c. На сегодня
это самый высококачественный формат из существующих ныне способов кодирования
звука для DVD-фильмов с многоканальным звуком.
Алгоритм работы кодера apt-X100 будет изложен позже.
106 Раздел 2

Система SDDS — Sony Dynamic Digital Sound


Фирма Sony, конечно, не могла остаться в
стороне от этого направления развития звукотех-
ники. Она в 1993 г. вместе с картиной Last Action
Hero представила свою цифровую систему прос-
транственного звучания названную SDDS (Sony
Dynamic Digital Sound). Система SDDS имеет
звуковой формат 7.1 (рис. 2.48). В ней мы име-
ем семь раздельных основных каналов воспро-
изведения, работающих в полной полосе частот
20. . . 20000 Гц и дополнительный канал СНЧ с
Ðèñ. 2.48. Расположение громко- двумя пространственно разнесенными сабвуфе-
говорителей в кинозале для систем рами, работающими в полосе частот 20. . . 80 Гц.
SDDS и Todd-AO, звуковой формат 7.1 При этом из семи основных каналов пять из них
питают установленные за экраном фронтальные громкоговорители — LF, LC, C, RC,
RF, а два — две группы пространственно распределенных громоговорителей стен LS
и RS соответственно. С точки зрения числа каналов система SDDS является в нас-
тоящее время наиболее «продвинутым» форматом, так как позволяет кодировать на
кинопленку до восьми независимых каналов звука, но все еще пока не стандартизова-
на в международном масштабе. Два дополнительных по сравнению с системой Dolby
Digital 5.1 канала (LC и RC) разработчики фирмы Sony отдали для левого и правого
фронтальных громкоговорителей, установленных за экраном в центрах полубаз фрон-
тальной системы громкоговорителей LF, C, RF. Заметим, что такое же расположение
громкоговорителей имеет место и в системе Todd-AO, появившейся еще в 1972 г., но
так и не получившей должного распространения. В данной системе в свое время был
записан звук к фильму Apocalypse Now. В системе Todd-AO при записи звукового
сопровождения был применен алгоритм сжатия NUOPTIX с коэффициентом комп-
рессии 2:1, при этом для записи цифрового сигнала была использована DAT-кассета.
О недостатке этого способа уже было сказано выше.
Цифровая дорожка звука системы SDDS располагается по самому краю киноп-
ленки за перфорацией (см. рис. 2.47), а биты представлены все теми же пикселя-
ми, хотя и меньшего размера, чем в системе Dolby Digital. Из-за того что звуковая
дорожка идет по всей длине пленки, а размер пикселов довольно невелик, в сис-
теме SDDS удалось вместить 8 каналов звука с довольно низким коэффициентом
сжатия. Здесь в кодере источника реализован алгоритм сжатия ATRAC (Adaptive
Transform Acoustic Coding), впервые появившийся на мини-диске. Алгоритм работы
кодера ATRAC будет изложен позже.
Качество звучания фильмов в формате SDDS 7.1 очень высокое. Кроме того,
в системе SDDS реализована очень мощная система защиты и коррекции цифро-
вых ошибок, сама же цифровая звуковая дорожка дублируется по обеим сторонам
кинопленки, что вследствие столь высокой избыточности, существенно повышает на-
дежность воспризведения. Если же все же цифровая дорожка откажет, то декодер
автоматически переключается на резервную аналоговую дорожку, как это имеет мес-
то во всех современных цифровых форматах. К сожалению, звучание системы SDDS
доступно только в кинотеатрах, для бытового применения этот формат не был адап-
тирован, что является принципиальной позицией компании Sony.
Общие сведения о звуковых форматах систем Dolby Lab, DTS и SDDS собра-
ны в табл. 2.2.
Звуковые системы 107
Таблица 2.2
Общие сведения о звуковых форматах систем Dolby Lab, DTS и SDDS
Параметр Dolby Stereo Dolby Digital DTS SDDS
(Pro Logic)
Алгоритм сжатия — AC-3 apt-X100 (Coherent ATRAC
Acoustics2 )
Число независимых каналов 2 6 6 8
Всего каналов 4 6 (71 ) 6 (71 ) 8
Число surround-каналов 1 2 (31 ) 2 (33 ) 2
Частотный диапазон 100. . . 7000 20. . . 20000 80. . . 20000 20. . . 20000
surround-каналов, Гц
Наличие независимого нет есть есть есть
низкочастотного канала
Битрейт для кинопленки, кбит/с — 320 882 нет данных
Битрейт для DVD, кбит/с — 192—448 754/15093 —
Примечания: 1 для формата Dolby Digital Surround EX; 2 кодек Coherent Acoustics используется для
CD и DVD, а кодек apt-X100 для кинематографа; 3 для системы DTS-ES; 4 для музыкальных компакт-
дисков, закодированных в системе DTS, скорость цифрового потока составляет 1235 кбит/с

2.9. Бинауральные звуковые системы


Идея бинауральной звукопередачи. Из личного опыта мы знаем, что человек,
имея два уха, способен локализовать источники звука в пространстве, уверенно оп-
ределяя направление на источник звука в горизонтальной плоскости (азимут), его
вертикальное возвышение над горизонтальной плоскостью и расстояние до источни-
ка. При этом вся необходимая для этой оценки информация выделяется из сигналов,
воздействующих на левое и правое уши слушателя, иначе говоря, из так называемой
бинауральной пары сигналов.
Идея бинауральной передачи представлена на рис. 2.49,а. Если поместить два
микрофона в ушные каналы акустического манекена и затем воспринятые ими сигна-
лы без каких-либо изменений подвести с помощью головных телефонов к соответству-
ющим ушам слушателя, то последний оказывается находящимся как бы в первичном
звуковом поле. При этом если манекен и слушатель имеют головы с одинаковыми раз-
мерами, формой и акустическими характеристиками, то и сигналы, воспринимаемые
микрофонами манекена и ушами слушателя, будут идентичными. Звуковые системы,
реализующие данный принцип, называются бинауральными. Они способны создавать
трехмерную, вынесенную за пределы головы слушателя пространственную звуковую
панораму, создающую полную иллюзию присутствия слушателя в концертном зале,
а значит, способны обеспечить более высокое, чем при обычной стереофонии, ка-
чество звучания.
Итак, в бинауральной звуковой системе (рис. 2.49,б) формируются левый Лб и
правый Пб бинауральные сигналы, тождественные тем, которые воздействовали бы
на входы слухового анализатора слушателя при его расположении в первичном зву-
ковом поле (например, в концертном зале). Новыми элементами по сравнению с
обычной стереофонической системой, содержащей пульт звукорежиссера ПЗ и сте-
реофонический усилитель СУ, здесь являются бинауральный регулятор направления
БРН на передающей стороне и бифонический процессор БП на стороне воспроизве-
дения звуковой информации, если воспроизведение сигналов Лб и Пб выполняется с
помощью громкоговорителей Гр1 и Гр2 .
В качестве БРН применяют «искусственную голову» (рис. 2.50,а и б), в уш-
ных проходах которой на место барабанной перепонки установлены приемники зву-
108 Раздел 2

Ðèñ. 2.49. Идея (а), структурная схема бинауральной звуковой системы с громкоговорящим
воспроизведением (б) и пояснения к ее построению: в — пространственное кодирование сигнала
источника; г — простейший бинауральный регулятор направления; д — бинауральный регулятор
направления при воспроизведении сигналов с помощью громкоговорителей

ка — микрофоны М1 , M2 . Устройство представляет собой пространственный фильтр


(рис. 2.49,в), совокупность пар коэффициентов передачи {Hφ1,i ; Hφ2,i }N которого од-
нозначно определяет место в пространстве i-го источника звука, формируемого сиг-
налом xi (t). Блоки G′ и H′ (рис. 2.49,г) представляют собой бинауральный регулятор
Звуковые системы 109

Ðèñ. 2.50. Один из первых примеров промышленного выполнения «искусственной головы»


KU100 (микрофоны установлены в слуховых проходах манекена): a — внешний вид; б — уш-
ная раковина манекена с встроенными микрофонами — приемниками давления; в — возмож-
ное применение для исследования звукового поля внутри автомобиля и для компьютерных игр
и тренажеров; г — амплитудно-частотная характеристика уровня звукового давления KU-100

направления для случая, когда воспроизведение сигналов выполняется телефонами Т,


не вносящими искажений. Здесь общий для обоих каналов элемент G′ с передаточной
функцией Hφ1 характеризует все изменения звуковой волны при ее распространении
от источника звука до ближайшего уха 1. Блок H′ имеет коэффициент передачи, рав-
ный отношению функций Hφ2 /Hφ1 , он изменяет в зависимости от азимута источника
звука соотношение величин Лб и Пб бинауральной пары сигналов. Множество пар
коэффициентов {Hφ1,i ; Hφ2,i }N составляют матрицу пространственного кодирования
A множества первичных сигналов. Очевидно, что

N ∑
N
Лб = Hφ1,i xi (t) и Пб = Hφ2,i xi (t), (2.14)
i=1 i=1

где N — число первичных сигналов; xi (t) — временная функция сигнала i-го источ-
110 Раздел 2

Ðèñ. 2.51. Влияние сигналов, отраженных от поверхностей помещения (а) и электрическая схема
аналога (б) этого процесса

ника звука. Заметим, что элементы матриц пространственного кодирования A для


бинауральной (2.14) и обычной стереофонической системы (2.2) не тождественны.
В отличие от последней величины Hφ1,i , Hφ2,i имеют сложную частотно-временную
зависимость от азимутального угла φ источника звука [2.18]. Чтобы обеспечить лока-
лизацию КИЗ в пределах всей азимутальной плоскости при системе воспроизведения,
состоящей из двух громкоговорителей Гр1 и Гр2 (рис. 2.49,д), необходимо применение
пространственных фильтров G и H с коэффициентами передачи соответственно:
Hφ1 H11 − Hφ2 H21 Hφ2 H22 − Hφ1 H12
G= ; H= . (2.15)
H112 −H H
12 21 Hφ1 H11 − Hφ2 H22
Выражения (2.15) обеспечивают при громкоговорящем воспроизведении получе-
ние бинауральной пары сигналов Лб и Пб , тождественной случаю, показанному на
рис. 2.49,б при условии симметричного расположения слушателя относительно гром-
коговорителей: H22 = H11 и H12 = H21 . Блоки G и H можно рассматривать также как
регулятор направления. Очевидно, G′ ̸= G и H ′ ̸= H. Обе структуры (см. рис. 2.49,г
и д) по слуховому восприятию тождественны.
Бифонический процессор (см. рис. 2.49,б) обеспечивает подведение к левому и
правому входам слухового анализатора бинауральной пары сигналов в своей перво-
начальной неискаженной форме (2.14). Он необходим для компенсации: мешающего
действия перекрестных сигналов громкоговорителей Гр1 и Гр2 (их влияние описыва-
ется передаточными функциями H12 , H21 ); изменений, происходящих в сигналах на
пути их следования от левого громкоговорителя Гр1 до левого уха 1 и от правого
громкоговорителя Гр2 до правого уха 2 (описываемых соответственно передаточны-
ми функциями H11 и H22 ); сигналов, отраженных от поверхностей жилого помещения
(рис. 2.51,а), где Hi,j — соответствующие им передаточные функции в эквивалент-
ной этому процессу электрической схеме (рис. 2.51,б). Эта совокупность сигналов
образует реверберационный процесс жилого помещения, она воздействует на левое и
правое уши слушателя, «искажая» исходную пару бинауральных сигналов Лб и Пб .
Полная эквивалентная схема бинауральной системы звукопередачи с громкогово-
рящим воспроизведением представлена на рис. 2.52,а. Здесь G′ и H′ — блоки БРН,
причем G′ = Hφ1 , а H ′ = Hφ2 /Hφ1 . Структура бифонического процессора изоб-
ражена на рис. 2.52,б. Очевидно, что параметры корректирующих фильтров КФ1 ,
КФ2 и линий задержек ∆t являются функциями размеров базы B громкоговорителей
и координат x, у слушателя.
Звуковые системы 111

Ðèñ. 2.52. Преобразование сигналов в бинауральной системе звукопередачи: а — обобщенная


структурная схема системы в целом; б — структурная схема бифонического процессора

Достоинства и недостатки бинауральной системы. Основные достоинства и не-


достатки бинауральной системы передачи звука можно сформулировать следующим
образом.
1. При компенсации мешающих факторов (H11 , H22 , H12 , H21 и Hi,j ) возможна
уверенная и четкая локализация кажущихся источников звука КИЗ в пределах всей
горизонтальной плоскости — спереди, слева, справа, сзади. Однако все же КИЗ,
расположенные спереди, оказываются более компактными, а в тыловой части — бо-
лее размытыми. При применении головных телефонов КИЗ оказываются вынесен-
ными за пределы головы слушателя в то место, где расположены действительные
источники звука. В отличие от этого при прослушивании через головные телефо-
ны сигналов обычной стереофонии КИЗ (показаны на рисунке кружочками) кажутся
расположенными внутри головы слушателя (рис. 2.53,а). При бинауральной стере-
офонии оценка расстояния до источника звука, как и при естественном слушании,
также не является точной.
2. Появление реверберации как в первичном, так и во вторичном помещениях
ухудшает (затрудняет) оценку азимута КИЗ в тыловой области, где слушатели вмес-
то истинного направления часто указывают соответствующее ему зеркальное фрон-
тальное направление. Данное явление проявляется особенно часто, когда время стан-

Ðèñ. 2.53. Упрощенные структурные схемы традиционной стереофонической (а, б) и бинауральной


(в, г) систем звукопередачи
112 Раздел 2

дартной реверберации в помещении прослушивания превышает 0,3 с. Что касается


ощущений, связанных с передачей глубинной локализации, акустических свойств пер-
вичного помещения, свойственной ему гулкости, теплоты, мягкости, светлости зву-
чания, то они оказываются в этой системе правдоподобными (качественно правиль-
ными). Бинауральной системе свойственно более точное восстановление пространс-
твенной структуры первичного реверберационного процесса по сравнению с обычной
стереофонией.
3. Правильная передача пространственной информации при громкоговорящем
воспроизведении возможна практически только для одной точки помещения, где с
помощью БП скомпенсировано действие мешающих факторов: H11 , H21 , H12 , H22
и реверберационного процесса помещения воспроизведения. Даже незначительное
(около 9. . . 15 см) смещение центра головы слушателя влево и вправо от этой точ-
ки приводит к тому, что локализация КИЗ оказывается невозможной вне угла на
громкоговорители.
Не вызывает сомнения факт, что в оптимальной точке прослушивания бинаураль-
ная система обеспечивает звучание, уверенно предпочитаемое обычному стереофони-
ческому, создает эффект (иллюзию) присутствия слушателя в концертном зале с хо-
рошими акустическими свойствами. Однако в силу изложенных выше причин область
ее применения весьма ограничена: воспроизведение с помощью головных телефонов;
переносная аппаратура радиовещания и звуковоспроизведения, компьютерное моде-
лирование. Бинауральная звуковая система не пригодна для условий коллективного
прослушивания (телевидение, кино- и видеозалы).
Несмотря на наличие целого ряда недостатков, бинауральная технология широко
используется при записи фонограмм в радиовещании и телевидении. В последние
годы в связи с развитием систем трехмерного звука для компьютерных тренажеров
и игр она привлекает все большее внимание исследователей (см. рис. 2.50,в), и ее
применение в этой области очень быстро расширяется.
Для более глубокого понимания механизмов, заложенных в основу этой техноло-
гии записи и передачи звука, принципов построения оборудования для данной области
техники, необходимо подробнее рассмотреть свойства пространственного слуха че-
ловека, знание и учет которых и лежат в основе функционирования бинауральных
звуковых систем.
Пространственный слух. Известно, что решающую роль в оценке направления
на источник звука в реверберирующем звуковом поле играет эффект предшество-
вания, или эффект Хааса (H. Haas, 1949). Суть его состоит в отделении слуховой
системой сигналов прямого звука от их реверберационных продолжений. При этом
суждение о направлении на источник звука формируют сигналы прямых звуков, в то
время как часть следующих за ними запаздывающих повторений на интервале вре-
мени от 1,5 до 30. . . 50 мс подавляется слуховой системой. При больших временных
сдвигах такого подавления не происходит. В этом случае отраженные сигналы рас-
сматриваются как помеха, но и одновременно с этим, по мнению многих авторов,
эта часть реверберационного процесса помещения играет важную роль при оценке
расстояния до источника звука.
Именно эти механизмы пространственного слуха человека и лежат в основе би-
науральной стереофонии. Поэтому их рассмотрению уделим основное внимание.
Оценка азимута источника звука. Предположим, что под некоторым углом
к медианной плоскости I–I головы слушателя находится источник звука Гр (см.
Звуковые системы 113

рис. 2.49,в). Вследствие дифракции звуковой волны вокруг головы слушателя и


частотно-зависимого затухания последней с расстоянием l сигналы, приходящие к
левому 1 и правому 2 ушам слушателя, оказываются неодинаковыми. Они отлича-
ются по уровню ∆Nб (φ, F ), по времени ∆τб (φ, F ) и являются функцией азимута φ
и частоты F . В качестве иллюстрации сказанного на рис. 2.54 показаны зависи-
мости, характеризующие разность уровней ∆Nб , в дБ, и разность фаз ∆φб , в граду-
сах, бинауральной пары сигналов от частоты F , в кГц. Параметром представленных
кривых является угол φ источника звука Гр относительно медианной плоскости I–I
(см. рис. 2.49,в). Каждому значению φ соответствует своя индивидуальная пара кри-
вых. Значения ∆Nб и ∆τб бинауральной пары сигналов, соответствующих данному
источнику звука, и являются носителями информации о направлении. Пара сигна-
лов, воздействующая на уши слушателя, как уже было сказано выше, может рас-
сматриваться как результат кодирования места источника звука в пространстве. Дру-
гими словами, голова и ушные раковины слушателя играют роль пространственных
фильтров, а бинауральная пара сигналов на их выходе несет информацию о месте
источника звука в пространстве.
Изображение, показанное на рис. 2.49,в, формально можно заменить эквивален-
тной схемой (рис. 2.49,г). Здесь параметры слуховых сигналов формируются уже с
помощью электрических устройств A и B, а сами эти сигналы воспроизводятся те-
лефонами Т1 и Т2 . Коэффициенты передачи Hφ1 и Hφ2 устройств А и В полностью
описывают все изменения, которые претерпевает звуковая волна, распространяясь
от реального источника звука Гр к левому 1 и правому 2 ушам слушателя. В качес-
тве иллюстрации на рис. 2.55, а представлены зависимости, характеризующие изме-
нение модуля коэффициентов передачи Hφ1 и Hφ2 от частоты для направления на
источник звука φ = 120◦ .
Воспроизведение бинауральной пары сигналов через телефоны стимулирует у
слушателя ощущение расположения источника звука в позиции Гр. Однако этот ис-
точник звука будет уже кажущимся. Меняя передаточные функции пространственных
фильтров Hφ1 и Hφ2 в соответствии с положением источника звука относительно го-
ловы слушателя, можно с помощью электрической схемы, показанной на рис. 2.49,г,
обеспечить локализацию КИЗ в любом направлении азимутальной плоскости. Можно
сказать, что совокупность пространственных фильтров {Hφ1 }i и {Hφ2 }i представляет
собой простейший регулятор направления бинауральной звуковой системы.
Электрическую схему, представленную на рис. 2.49,г (слева), нетрудно преобра-
зовать к виду рис. 2.49,г, справа. Она содержит общий для обоих каналов элемент
G′ с передаточной функцией Hφ1 , характеризующей изменения звуковой волны, рас-
пространяющейся от источника звука Гр до ближайшего уха 1 слушателя, и блок Н′ .
Последний имеет коэффициент передачи, равный отношению функций Hφ2 и Hφ1 ,
т. е. Н′ = Hφ2 /Hφ1 . Блок H′ изменяет в зависимости от азимута параметры ∆Nб и
∆τб бинауральной пары сигналов Лб и Пб .
В случае обычной стереофонии, когда воспроизведение сигналов стереопары про-
исходит через громкоговорители, для того чтобы обеспечить локализацию КИЗ в
пределах всей азимутальной плоскости, необходимо, как и ранее, также применить
два пространственных фильтра, но уже с передаточными функциями G и H. Это
другие функции, зависящие, ко всему прочему, и от расположения слушателя отно-
сительно громкоговорителей. Эти фильтры следует включить так, как это показано
на рис. 2.49,д. Очевидно, что G ̸= G′ и H ̸= H ′ .
114 Раздел 2

Ðèñ. 2.54.Изменение разности амплитуд ∆Nб в дБ (а) и фаз ∆φб в градусах (б) бинауральной
пары сигналов от частоты для разных направлений на действительный источник звука

Обе структуры (рис. 2.49,г и д) по слуховому восприятию тождественны. Вид


функций HφI , G и H для частного случая (φ = 120◦ и ψ = 30◦ ) представлен на
рис. 2.55. Заметим, что передаточная функция H имеет глубокий минимум на частоте
8 кГц, а модуль коэффициента передачи G имеет максимум в диапазоне частот от 300
до 5000. . . 7000 Гц. Интересно отметить, что диапазон частот существенно влияющих
на азимутальное положение КИЗ составляет 300. . . 8000 Гц.
Звуковые системы 115

Ðèñ. 2.55. Изменение модуля коэффициентов передачи пространственных фильтров от часто-


ты при кодировании сигнала источника звука (φ = 120◦ ) и воспроизведении полученной бина-
уральной пары сигналов Лб и Пб : а — телефонами (кривая 1 — Hφ1 ; кривая 2 — Hφ2 ); б —
громкоговорителями (ψ = 30◦ — кривая G); в — громкоговорителями (ψ = 30◦ — кривая H)

Блоки G (G′ ) и Н (Н′ ) можно рассматривать как регулятор направления. Итак,


пара бинауральных сигналов, несущая информацию о месте источника звука в прос-
транстве, может быть синтезирована двумя устройствами G (G′ ) и Н (Н′ ).
С помощью психофизической модели (см. рис. 2.31,а) может быть также пояснен
и принцип бинауральной системы звукопередачи. В этом случае элементы матрицы
A представляют собой передаточные функции, характеризующие процесс простран-
ственного кодирования множества сигналов источников звука {хi (t)}N . При этом в
качестве кодера выступает «искусственная голова» с микрофонами или адекватное
ей устройство, содержащее блоки G′ и Н′ (см. рис. 2.49,г). На выходах устройства
пространственного кодирования (матрица A) имеем пару бинауральных сигналов Лб
и Пб (2.14), которая без искажений должна быть доведена до соответствующих вхо-
дов слухового анализатора, т. е. до матрицы пространственного декодирования D−1 .
Если речь идет о разновидности с головными телефонами, то B = 1, D = 1, матрица
D−1 является инверсной по отношению к матрице A (AD−1 = 1), так что уравнение
передачи (2.8) принимает вид
xi (t, φ) = Gxi (t) (2.16)
и оказывается тождественным условию естественного слушания.
При громкоговорящем воспроизведении в бинауральной системе звукопередачи
матрица B описывает работу бифонического процессора БП, обеспечивающего вос-
становление бинауральной пары сигналов Лб и Пб на входах слухового анализатора.
Здесь D ̸= 1, процесс пространственного декодирования описывается выражением
Лб = H1ia + H1ib ; Пб = H2ib + H2ia .
Получение выражения (2.16) возможно, если BD−1 = 1. Отсюда следует, что
матрица D−1 является инверсной по отношению к матрице B.
Все же пары значений ∆Nб и ∆τб не позволяют однозначно оценить азимутальный
угол φ источника звука относительно медианной плоскости I–I (рис. 2.49,в). Дейс-
твительно (рис. 2.56,а), для каждой гиперболы, построенной так, что ее фокуса-
ми являются входы 1 и 2 органа слуха, существует всегда множество пар точек (A,
B), расположенных зеркально относительно линии 1–2, для которых обеспечивают-
ся приблизительно одинаковые значения ∆Nб и ∆τб бинауральных сигналов. Напри-
мер, для источников звука, расположенных в медианной плоскости I–I на одинаковом
расстоянии от центра головы слушателя, значения ∆Nб и ∆τб бинауральной пары
116 Раздел 2

Ðèñ. 2.56. Изменение временно́го сдвига ∆τб пары сигналов Лб и Пб при бинауральном слушании: а —
к неоднозначности оценки азимута источников звука А и В; б — среднестатистическая зависимость ∆τб
от φ; в — влияние частоты испытательного сигнала (цифры у кривых — значение средней 1/3-октавной
полосы белого шума)

сигналов одинаковы для фронтального и тылового направлений. Несмотря на это,


локализация звуковых образов оказывается безошибочной за счет дополнительно-
го спектрального анализа бинауральной пары сигналов. Необходимые спектральные
изменения вносятся блоком G (G′ ).
Орган слуха человека имеет два механизма для оценки местоположения источни-
ка звука в пространстве. Один из них (фронт-тыл) определяет, находится ли источник
звука спереди или сзади слушателя (относительно линии 1–2), а другой — направле-
ние φ на источник звука относительно медианной плоскости (I–I, рис. 2.56,а). Из-
вестно, что значение временной разности ∆τб бинауральной пары сигналов опреде-
ляется формулой
dэк dν(F )
∆τб =sin φ = sin φ,
с c
где d — база приемников слуховой системы, равная 21 см; c = 340 м/с — скорость
распространения фронта звуковой волны; φ — азимут источника звука относитель-
но медианной плоскости; ν(F ) — коэффициент, учитывающий частотно-зависимое
влияние ушной раковины и действие последней как линии задержки, время запазды-
вания фронта звуковой волны в которой зависит от азимута φ источника звука; dэк —
эквивалентный размер базы приемников слуховой системы — расстояние между фа-
зовыми центрами раскрыва ушных раковин.
Профессором Я.В. Альтманом высказано предположение, что зависимость от
Звуковые системы 117

Ðèñ. 2.57. Смещение кажущегося ис-


точника звука под действием интерау-
ральных временной (а) и интенсивнос-
тной (б) разностей бинауральной пары
сигналов

азимута ∆τб является функцией, близкой к линейной:


∆τб = m1 φ, если 0◦ < φ < 80◦ ; 100◦ < φ < 180◦ ,
где m1 — постоянный коэффициент. Подтверждением этому являются эксперимен-
тальные зависимости ∆τб = f1 (φ), взятые из его же работы и представленные со-
ответственно на рис. 2.56,б и в, и зависимость смещения КИЗ от интерауральной
временной разности ∆τб сигналов, подводимых к левому и правому ушам слушателя
с помощью головных телефонов (рис. 2.57,а). Величина φ углового смещения КИЗ
пропорциональна значению ∆τб в диапазоне 0. . . 0,63 мс. При ∆τб > 0,63 мс источ-
ник звука полностью латерализован, т. е. находится вблизи уха, на которое подается
опережающий сигнал.
Значения ∆N и ∆τ при локализации взаимозаменяемы, поэтому, если зависи-
мость ∆τб = f1 (φ) является линейной, то и зависимость ∆Nб = f2 (φ) должна быть
также линейной функцией от азимута φ источника звука ∆Nб = m2 φ.
Правильность этого заключения может быть дополнительно подтверждена сле-
дующими соображениями. Разность амплитуд ∆А бинауральной пары сигналов с уче-
том характеристик направленности левого и правого ушей слушателя можно найти
из выражения
∆A = m′2 2µ cos(∆φ − π/2) sin φ, (2.17)
где ∆φ — азимут максимума характеристики направленности ушной раковины, отсчи-
тываемой от медианной плоскости, аппроксимируется формулой
1
∆φ = π[4 exp(−0,5 · 10−6 F 2 δ 2 ) + 5],
12
где m′2 — постоянный коэффициент; µ = 0,2 ln(F/F0 ); F0 = 50 Гц — коэффици-
ент, учитывающий изменение характеристики направленности ХН ушной раковины
с частотой; δ = 1 с.
С учетом (2.17) отношение разности амплитуд бинауральных сигналов к их сумме
определится как
A1 − A2 µ sin φ cos(∆φ − π/2)
δA = = . (2.18)
A1 + A2 1 + µ cos φ sin(∆φ − π/2)
Выражение (2.18) представляет собой линейную зависимость для значений углов φ,
лежащих в пределах 15. . . 90◦ , при условии ∆φ ̸= 90◦ , поэтому δA = m2 φ.
Если при оценке азимута φ слух учитывает отношение амплитуд A1 и A2 бина-
уральных сигналов, то
A1 − A2 A1 1 + mφ
= mφ; = , (2.19)
A1 + A2 A2 1 − mφ
118 Раздел 2

поэтому отношение A1 /A2 также линейно


зависит от φ. Отличие состоит лишь в из-
менении угла наклона зависимостей (2.19).
Здесь левая часть равенств выражена в де-
цибелах.
Этот вывод подтверждается и экспе-
риментальными данными. На рис. 2.57,б
приведена зависимость смещения КИЗ от
бинауральной интенсивностной разности
∆Nб = 20 lg(A1 /A2 ) сигналов, воспро-
изводимых головными телефонами. На
рис. 2.58 представлены результаты изме-
рений величин ∆Nб .
Взаимозаменяемость значений ∆τб и
∆Nб при локализации звуковых образов
позволяет, как и при обычной стереофо-
нии, ввести понятие коэффициента экви-
валентности Kб , дБ/мс, для пары бинау-
ральных сигналов и определить его как от-
ношение величин ∆Nб и ∆τб , вызывающих
одинаковое смещение источника или вза-
имно компенсирующих друг друга: Kб =
= (∆Nб /∆τб ).
Поочередное предъявление стимулов
∆Nб и ∆τб дает значение Kб ≈ 13 дБ/мс,
Ðèñ. 2.58. Изменение интенсивностной
разности ∆Nб бинауральной пары сигна- которое близко к значению, найденному
лов Лб и Пб от азимута источника звука для обычной стереофонии (∼10 дБ/мс).
(цифры у кривых — значения средней час- Если допустить, что орган слуха при
тоты 1/3-октавной полосы белого шума) оценке азимута φ источника звука обмени-
вает ∆τб на эквивалентное значение интенсивностной разности (∆NΣэк )б = Kб ∆τ
вследствие явления торможения в слуховой системе, то справедлива запись
(∆NΣэк )б = ∆Nб + Kб ∆τб .
Здесь (∆NΣэк )б — суммарное значение эквивалентной интенсивностной разности, вы-
зывающей то же самое смещение источника звука, что и одновременно действующие
величины ∆Nб и ∆τб .
Если учесть, что значения ∆τб и ∆Nб являются линейными функциями азимута
φ источника звука (∆Nб = m2 φ и ∆τб = m1 φ), а коэффициент эквивалентности не
должен зависеть от φ (Kб = const), то, очевидно, что суммарная эквивалентная
интенсивностная разность также является линейной функцией азимута φ, т. е.
(∆NΣэк )б = mφ,
где m — постоянный коэффициент.
Итак, каждому значению азимута φ источника звука соответствует пара значений
∆τб и ∆Nб или одно значение (∆NΣэк )б . Орган слуха, по-видимому, использует обе
эти возможности для оценки направления.
Заметим, что ∆τб действует всегда в согласии с ∆Nб при локализации действи-
тельного источника звука. Предполагается, что значение параметра ∆τб вычисляется
Звуковые системы 119

слуховой системой по максимуму взаимной корреляционной функции бинауральной


пары сигналов.
Величины ∆Nб и ∆τб являются не только линейными функциями азимутального
угла, но и зависят от частоты (см. рис. 2.56,в и 2.58). Они изменяются при переходе
от одной частотной группы слуха к другой, оставаясь, по-видимому, примерно пос-
тоянными внутри нее. Однако величина (∆NΣэк )б при переходе от одной частотной
группы слуха к другой при (∆NΣэк )б = const изменяться не должна, так как объем
слуховой памяти ограничен.
На низких частотах (ниже 500 Гц) ∆Nб ≪ Kб ∆τб , и оценка азимута практически
определяется только значением ∆τб ; в диапазоне средних частот (500 . . . 5000 Гц) оба
фактора ∆τб и ∆Nб приблизительно в равной степени способствуют созданию ощу-
щения направления. На высоких частотах (выше 5000 Гц) ∆Nб ≫ Kб ∆τб , т. е. оценка
азимута практически определяется величиной ∆Nб . На частотах ниже 150 Гц лока-
лизация источника звука невозможна. Сохранение параметра (∆NΣэк )б неизменным
при переходе от одной частотной группы слуха к другой для постоянного значения
азимута φ возможно, если Kб будет являться функцией частоты. При этом измене-
ние коэффициента эквивалентности должно компенсировать частотную зависимость
∆Nб и ∆τб .
Временной ∆τб и интенсивностный ∆Nб факторы действуют на орган слуха не-
зависимо. Поэтому значение Kб может быть легко найдено методом компенсации.
Предварительно введением в пару бинауральных сигналов, например значения ∆Nб ,
локализуют КИЗ, а затем с помощью ∆τб возвращают этот КИЗ на прежнее место
(медианная плоскость). В этом случае действие одного фактора компенсируется вли-
янием другого. Путем проведения тщательных экспериментальных исследований (на
полосах белого шума) было установлено, что при компенсации коэффициент экви-
валентности Kб изменяется в пределах от 5 до 30. . . 50 дБ/мс и зависит от средней
частоты испытательного сигнала, что подтверждает высказанное выше соображение:
(∆NΣэк )б = const при переходе от одной критической полосы слуха к другой, если
азимутальное положение источника звука остается неизменным.
Все изложенное позволяет описать работу механизма локализации слуха при
оценке азимута источника звука следующим образом. Голова и ушные раковины слу-
шателя выполняют роль пространственного фильтра, осуществляющего пространст-
венное кодирование сигналов, поступающих от источника звука к левому и право-
му ушам слушателя. Полученная в результате пространственного кодирования пара
бинауральных сигналов содержит всю необходимую информацию для оценки место-
положения источника звука в пространстве: угловое смещение от медианной плос-
кости, расположение спереди или сзади слушателя, возвышение над горизонтальной
плоскостью, удаление.
Суждение об угловом смещение φ источника звука от медианной плоскости связа-
но с оценкой слуховой системой временных (∆τб ) и интенсивностных (∆Nб ) различий
пары бинауральных сигналов, а также величины (∆NΣэк )б . Полученные в результате
пространственного кодирования величины ∆Nб и ∆τб , а также вычисленное значение
(∆NΣэк )б сравниваются в каждой критической полосе слуха с заученными (приобре-
тенными в результате опыта) эталонными образцами, хранящимися в слуховой памя-
ти. Идентификация (частичная или полная) «измеренной» пары значений ∆Nб , ∆τб и
вычисленной величины (∆NΣэк )б с одним из хранящихся в памяти образцов позволяет
слушателю оценить угловое смещение источника звука в пространстве относительно
120 Раздел 2

Ðèñ. 2.59. К пояснению особенностей работы механизма «фронт–тыл»: а — изменение разности


звукового давления фронтального и тылового громкоговорителей от частоты; б — расположение полос
направления на оси слышимых частот

медианной плоскости. Неоднозначность оценки «фронт–тыл» устраняется частот-


ным анализом бинауральных стимулов.
Работа механизма «фронт–тыл». Ключевым моментом для понимания рабо-
ты механизма «фронт–тыл» является зависимость, показанная на рис. 2.59,а. Она
представляет собой изменение разности уровней звукового давления:
∆NФТ = NФ − NТ ,
где NФ — уровень звукового давления, создаваемый у барабанной перепонки фрон-
тальным громкоговорителем; NТ — то же самое, но для тылового громкоговорителя.
В обоих случаях источник звука Гр находится в медианной плоскости I–I на одинако-
вом расстоянии от центра головы слушателя. Из рис. 2.59,а следует, что в отдельных
частотных областях фронтальный источник звука создает большее звуковое давление:
NФ > NТ , в других частотных полосах наблюдается обратное явление: NТ > NФ . Бо-
лее глубокое изучение экранирующего действия головы и ушных раковин слушателя
позволило ввести понятие так называемых пеленговых полос или полос направления.
Их расположение на оси частот показано на рис. 2.59,б. Видно, что пеленговые по-
лосы, соответствующие расположению источника звука спереди (φ = 0◦ ), связаны с
областями частот, где NФ > NT . Пеленговые полосы, соответствующие тыловому
направлению (φ = 180◦ ), связаны с частотными областями, где NТ > NФ . Для уве-
ренной фиксации слушателем фронтального или тылового направления достаточно
иметь разбаланс громкоговорителей по уровню |NФ − NТ | > 1,5 . . . 2 дБ. Предпо-
лагается, что ощущение направления «фронт–тыл» формируется преимущественно
теми полосами направления, в которых сосредоточена большая часть энергии сигна-
ла. Заметим, что условия работы механизма «фронт–тыл» должны ухудшаться для
источников звука, находящихся вне медианной плоскости φ ̸= 0◦ и φ ̸= 180◦ . Этот
механизм не работает при φ = 90◦ или φ = 270◦ .
Вполне возможно, что при оценке направления «фронт–тыл» слуховой систе-
мой также учитывается тот факт, что ушные раковины играют роль линии задержки,
временной сдвиг которой является функцией азимута φ источника звука. Результат
Звуковые системы 121

Ðèñ. 2.60. Траектории попадания в ушной канал звуковой волны от источника звука (а), спек-
тральное окрашивание (б) и задержки, возникающие при отражении звуковой волны от краев
ушной раковины (в)

пространственного кодирования места источника звука сравнивается с эталонными


для каждого направления образцами. Суждение о направлении является следствием
идентификации результатов анализа бинауральной пары сигналов с одним из эта-
лонных образцов.
Оценка угла возвышения источника звука. До сих пор мы говорили исключи-
тельно о бинауральной оценке азимута источника звука. В отличие от изложенного
признаки, лежащие в основе оценки угла возвышения источника звука, часто счи-
тают моноуральными. Ушная раковина действует подобно акустической антенне. Её
резонансные полости усиливают некоторые частоты, а ее геометрия приводит к интер-
ференции волн, которая уменьшает другие частоты. Кроме того, частотная характе-
ристика уха зависит от направления прихода звуковой волны (рис. 2.60,а). В каждом
случае имеются два пути распространения звука от источника до канала уха: прямой
путь распространения звуковой волны и более длинный, на котором волна претерпе-
вает отражение от ушной раковины. На умеренно низких частотах ушная раковина
по существу собирает дополнительную звуковую энергию и сигналы этих двух путей
122 Раздел 2

приходят в фазе. Однако на высоких частотах задержанный сигнал не совпадает по


фазе с прямым сигналом и происходит их взаимное ослабление. Самое большое ос-
лабление происходит, когда разность в длине пути d равна половине длины волны, т. е.
когда F = cзв /2d. В показанном примере это создаёт «впадину на АЧХ» — минимум
вокруг частоты 10 кГц. Для типичных значений d частота минимума обычно лежит
в диапазоне от 6 до 16 кГц. Так как ушная раковина более эффективный рефлектор
для звуков, приходящих спереди, чем сверху, результирующий минимум намного более
заметен для источников находящихся спереди, чем сверху. Кроме того, разность длин
путей меняется с углом возвышения, поэтому частота минимума также движется с
возвышением. Хотя всё ещё имеются споры относительно того, какие особенности
являются наиболее важными для оценки угла возвышения, все же установлено, что
спектральное окрашивание звука, определяемой ушной раковиной, обеспечивает пер-
вичные признаки возвышения. Его пример показан на рис. 2.60,б. Источник звука
был расположен в двух метрах слева от слушателя и перемещался от уровня уха (0◦ )
до возвышения в 30◦ над уровнем уха (сплошная линия — 0◦ ; длинная штриховая —
10◦ ; короткая штриховая — 20◦ ; пунктирная — 30◦ ). Эти данные взяты из работы:
G. Kendall & W. Martens. Simulating the cues of spatial hearing in natural environments
// Proceedings of the 1984 International Computer Music Conference.
В ряде работ утверждается также, что весьма важную роль играют здесь и задер-
жки в приходе звуковых волн, отраженных от ушной раковины (рис. 2.60,в). Левый
рисунок здесь показывает задержку в мкс, возникающую при отражении от краев
внутреннего уха, которые определяют различия фронт–тыл в горизонтальной плос-
кости. Правый рисунок показывает задержку при отражении от внешнего края ушной
раковины, которые важны при определении возвышения источника в вертикальной
плоскости. Эти данные заимствованы из работы: A.W. Mills. Auditory Localization
// J.V. Tobias, ed., Foundations of Modem Auditory Theory. — Academic Press, 1972,
vol. 2, p. 337.
Глубинная локализация. Наряду с азимутом слушатель также достаточно уверен-
но оценивает и расстояние l до источника звука. Перечислим признаки бинауральной
пары сигналов, оказывающих влияние на оценку параметра l.
1. При средних значениях l от 3 до 15. . . 20 м
приближение и удаление источника звука сопровож-
даются заметным изменением его интенсивности.
В свободном звуковом поле увеличение расстояния
до источника звука в 2 раза сопровождается умень-
шением уровня звукового давления на 6 дБ. Экспери-
ментальные данные подтверждают связь оценки рас-
стояния l с уровнем интенсивности источника звука
(N , в дБ). В качестве примера на рис. 2.61 приведе-
на соответствующая зависимость, заимствованная
из работ проф. А.Я. Альтмана. Однако, чтобы ис-
пользовать громкость для определения расстояния,
Ðèñ. 2.61. Кажущаяся удален-
ность источника звука в зави-
нам необходимо также знать кое-что относительно
симости от его интенсивности характеристик источника звука. В случае челове-
ческой речи каждый из нас знает из личного опыта
различное качество звука, соответствующее шепоту, нормальному разговору и крику,
независимо от уровня звука. Комбинация громкости и знания источника дает нам
полезную информацию для оценки расстояния до источника звука.
Звуковые системы 123

2. При малых расстояниях l до источника звука (l < 2 м) наблюдаются изменения


спектра сигналов вследствие искажения фронта звуковой волны головой и ушными ра-
ковинами. При l, превышающих 10. . . 15 м, начинает сказываться частотно-зависимое
затухание звуковой волны в воздухе с расстоянием. Оба вида изменений формы спек-
тра влияют на оценку расстояния до источника звука.
Кроме того, возрастание амплитуды низкочастотных составляющих в спектре
сигнала связано с ощущением приближения источника звука; искусственное умень-
шение амплитуды высокочастотных составляющих в спектре воспринимается как уда-
ление источника звука.
3. В отличие от азимутальной глубинная локализация возможна и при моноураль-
ном слушании, но бинауральное восприятие существенно повышает точность оценки
параметра l. Орган слуха, оценивая величины ∆τб и Icp /∆Iб , определяет расстоя-
ние до источника звука
l = 2c∆τб (Iср /∆Iб ),
где Iср — среднее значение интенсивностей сигналов, воздействующих на уши слуша-
теля; ∆Iб — бинауральная разность интенсивностей; c — скорость звука.
Теоретический анализ этого выражения показывает, что при l > 10 м необходи-
мо предъявлять очень жесткие требования по разрешающей способности временных
интервалов и приращений интенсивности, значительно превышающие возможности
человека. Однако при значениях l порядка единиц метров необходимая разрешающая
способность находится в пределах, доступных человеческому уху. Этот способ оцен-
ки параметра l может играть существенную роль в условиях открытого пространства
или заглушённой камеры.
4. В помещениях, где наряду с прямым звуком на слушателя воздействует зна-
чительное число отраженных волн, важным фактором, стимулирующим глубинную
локализацию, является реверберация, точнее, акустическое отношение. Благодаря
эффекту предшествования слуховой анализатор способен оценить энергию прямых
звуков и отзвуков, составляющих реверберационный процесс. Используя известное
выражение для акустического отношения, можно записать

ε1 αQΣ
l= ,
ε2 50(1 − α)
где ε1 /ε2 — отношение плотностей энергий отраженных и прямого звука, известное
под названием акустического отношения; α — средний коэффициент звукопоглоще-
ния; QΣ — площадь поверхностей помещения.
Большинство исследователей считают этот фактор важнейшим при оценке рас-
стояния l. Все же необходимо признать, что стройной модели, объясняющей с дос-
таточной полнотой механизм оценки расстояния l, пока нет. Накопленные здесь све-
дения следует считать как весьма скромные.
Слушательский опыт свидетельствует о том, что глубинная локализация в естес-
твенных условиях не отличается большой точностью.
Передача пространственной информации и зона слушания в бинауральной
звуковой системе
Первая удачная попытка реализации бинауральной системы с громкоговорящим
воспроизведением представлена на рис. 2.62. Это процессор системы TRADIS, пред-
ложенной Б. Бауэром и реализованной и исследованной П. Дамаске и В. Меллертом.
124 Раздел 2

Ðèñ. 2.62. Процессор системы TRADIS

Заметим, что входными сигналами является бинауральная пара Лб и Пб . Здесь осу-


ществляется компенсация только перекрестных сигналов, один из которых поступает
от левого громкоговорителя Гр1 и воспринимается правым ухом 2, а второй — от пра-
вого громкоговорителя Гр2 и воспринимается левым ухом 1. Именно наличие этих
сигналов делает невозможной локализацию КИЗ вне базы громкоговорителей. Для
компенсации перекрестных сигналов к основному сигналу Лб или Пб каждого из гром-
коговорителей (Гр1 или Гр2 ) добавляется предварительно прошедший через фильтр
Ф и линию задержки ЛЗ (∆τ0 ) противофазный сигнал от другого громкоговорителя
(Гр2 или Гр1 ). На рис. 2.62 показаны также амплитудно-частотная и фазо-частотная
характеристики фильтра Ф для случая, когда слушатель находится на оси симметрии
громкоговорителей (x = 0, y ̸= 0) в точке оптимального слушания (ψ = 30◦ ); для
этих условий ∆τ0 составляет 0,29 мс.
Результаты экспериментальных исследований локализации КИЗ в системе
TRADIS представлены на рис. 2.63. По оси абсцисс отложено направление φ на реа-
льный источник звука (рис. 2.49,в), по оси ординат — воспринимаемое направление
φ′ . Экспертизы выполнены для разных условий на речевом испытательном сигнале.
На рис. 2.63,а приведены (усредненные данные для 34 испытуемых) результаты
оценки направления φ′ на речевой источник для азимутальной плоскости при условии
отсутствия реверберации T = 0. Запись сигналов Лб и Пб и их воспроизведение
осуществлялись в заглушённой камере. Слушатель располагался на оси симметрии
системы воспроизведения (x = 0, ψ = 30◦ ). Углы отсчитывались от медианной
плоскости головы; слева от фронтального направления они положительны, справа —
отрицательны. Незначительный разброс экспертопоказаний (на рисунке он показан

Ðèñ. 2.63. Локализация КИЗ в системе TRADIS: a — запись и воспроизведение в заглушённой камере;
б — запись при T = 0,8 с, воспроизведение при T = 1,4 с; в — запись при T = 0,8 с, воспроизведение в
жилой комнате при x = 10 см
Звуковые системы 125

отрезками вертикальных линий) свидетельствует об уверенной локализации КИЗ в


пределах всей азимутальной плоскости. Однако КИЗ, расположенные спереди, ока-
зываются все же более компактными и четкими, а в тыловой части — более размыты-
ми. Об этом свидетельствует разброс экспертопоказаний. Исследования подтвержда-
ют возможность круговой локализации КИЗ в бинауральной системе звукопередачи.
Аналогичные данные были получены и при использовании головных телефонов. При
этом КИЗ локализуются не внутри головы (как это имеет место при традиционной
стереофонии), а оказываются вынесенными за ее пределы в то место, где распо-
ложен реальный источник звука. Напомним, что оценка расстояния до источника
звука не является точной.
Появление реверберации (рис. 2.63,б) как в первичном, так и во вторичном по-
мещениях, ухудшает правильность передачи направлений при углах |φ| > 90◦ . В этой
области углов слушатели часто вместо истинного тылового направления указывают
«зеркальное» фронтальное. Уверенная и четкая локализация КИЗ при наличии ре-
верберации возможна только в передней части пространства. Однако, если время
реверберации в жилом помещении не превышает 0,3 с, то звуковые образы без труда
могут быть локализованы слушателем в любом направлении азимутальной плоскос-
ти. Исключение составляет тыловое направление (φ = 180◦ ). Локализация этого
звукового образа затруднена; весьма часто он кажется приближенным к слушателю
так же, как в системе «ABC-стерео».
Возможность замены истинного направления зеркальным является первым су-
щественным недостатком бинауральной системы с громкоговорящим воспроизведе-
нием. Что же касается ощущений, связанных с передачей глубинной локализации,
акустических свойств первичного помещения, свойственной ему гулкости, теплоты,
мягкости звучания, то они оказываются в этой системе правдоподобными (качест-
венно правильными). Передача всех этих особенностей здесь существенно лучше,
чем при традиционном воспроизведении, так как системе свойственно более точное
восстановление пространственной структуры реверберационного процесса первично-
го помещения.
К слушателю, находящемуся в жилом помещении, кроме сигналов прямых звуков
H01 , H02 , поступают также звуковые волны H11 , H12 , H21 , H22 , . . . , Hn1 , Hn2 , от-
раженные от поверхностей помещения (рис. 2.51,а). Сигналы отзвуков, суммируясь
с сигналами прямых звуков, искажают входные слуховые сигналы (см. рис. 2.51,б),
делая их нетождественными паре Лб и Пб , нарушая тем самым принцип бинаураль-
ной звукопередачи. Причем первыми по времени поступления и наиболее высокими
по уровню оказываются отзвуки, приходящие из той части области пространства, где
расположены громкоговорители. Эти отзвуки затрудняют восприятие тыловых пелен-
гов, стимулируя локализацию зеркального направления. Данное явление становится
заметным, если T превышает 0,3 с, т. е. когда существует четко выраженная дискрет-
ная часть реверберационного процесса. На завершающем участке реверберационного
процесса в каждый момент времени приходит значительное число отзвуков и с раз-
ных направлений. Уровень отзвуков мал, так что влияние этого участка на слуховой
пеленг не должно быть существенным.
Появление зеркальных пеленгов связано с воздействием именно первых отзвуков,
поступающих всегда из той же области полупространства, где расположены громкого-
ворители. Для их компенсации необходимы специальные электронные схемы, весьма
сложные по своей структуре.
126 Раздел 2

Ðèñ. 2.64. Структурная схема бифонического процессора для малых размеров баз громкоговорителей
(а) и его амплитудно-частотные характеристики (б): 1 — прямого канала; 2 — «перекрестного» канала;
3 — при традиционной стереофонической системе звукопередачи

Вторым существенным недостатком бинауральной системы звукопередачи явля-


ется то, что правильная передача пространственной информации (φ ≈ φ′ ) оказывает-
ся возможной практически только для одной точки слушания. Даже незначительное
(около 10. . . 15 см) смещение центра головы слушателя влево и вправо от точки ком-
пенсации приводит к тому, что слуховая пеленгация КИЗ оказывается невозможной
вне угла на громкоговорители (рис. 2.63,в). По мнению японских исследователей,
применение бинауральных регуляторов направления (G, Н) допускает поперечное пе-
ремещение слушателя не более 30 см.
При наличии реверберации во вторичном помещении наилучшие результаты би-
науральная система звукопередачи с двумя громкоговорителями обеспечивает при
малых размерах базы B = 0,6 . . . 1,2 м и x = 0 и достаточно близком расположении к
ним слушателя. Структурная схема одной из таких систем изображена на рис. 2.64,а.
Амплитудно-частотные характеристики левого (правого) и перекрестных каналов это-
го процессора приведены на рис. 2.64,б; величина ∆t = 200 мкс; расстояние громко-
говорителей до ближайшей стены 60 см, до боковых 120 см.
Вторая структура, дающая неплохие результаты, показана на рис. 2.65. При-
менение тыловых громкоговорителей (с их помощью осуществляется компенсация
перекрестных сигналов Гр1 и Гр2 ) улучшает уверенность локализации КИЗ в задней

Ðèñ. 2.65. Структурная схема процессора по Р. Куреру, Г. Пленге и Г. Вилькенсу (а), харак-
теристика затухания фильтра Ф (б) и пример реализации ветви процессора (а): B1 = 0,75l м;
B2 = 1,1l м; l0 = 0,58l м; ∆τ = 0,22 sin(α/2 + β/2);
Звуковые системы 127

полусфере и обеспечивает правильную передачу направлений во всей азимутальной


плоскости при смещении (относительно оптимального места) до 30. . . 40 см. При
тщательной балансировке системы воспроизведения удовлетворительные результаты
могут быть получены даже при поперечном смещении слушателя до 1 м.
Бифонические процессоры
Предварительно отметим, что разработка процессоров, использующих бинаура-
льный метод синтеза звуковых образов, идет по двум основным направлениям: а) со-
здание с помощью цепей G и H устройств, имитирующих недостающие громкогово-
рители, свойственные другим системам звукопередачи, например матричным, таким,
например, как Dolby Lab; б) разработка устройств, позволяющих в чистом виде ре-
ализовать идею бинауральной передачи и содержащих элементы (блоки), которые
повышают устойчивость «бифонического» эффекта, т. е. уменьшают влияние ревер-
берации и перемещений слушателя на качество.
С помощью процессора, структурная схема которого изображена на рис. 2.66,а,
имитируется звучание двух кажущихся громкоговорителей Гр3 и Гр4 (рис. 2.67), рас-
положенных в тыловой области. Действительными источниками звука здесь явля-
ются только два громкоговорителя Гр1 и Гр2 . Два других кажущихся источников
звука (Гр3 и Гр4 ) создаются с помощью двух бинауральных регуляторов направления
(обозначены на рис. 2.66,а цифрами I и II). Каждый из этих регуляторов содержит
соответствующие блоки G и H (см рис. 2.49,д). Данный процессор имеет четыре
входа, на которые могут быть поданы сигналы с выхода декодера любой матричной
звуковой системы. При этом на вход 1 процессора (рис. 2.66,а) должен быть по-
дан левый передний сигнал ЛФ, на вход 2 — левый задний сигнал ЛТ, на вход 3 —
правый задний сигнал ПТ, на вход 4 — правый передний сигнал ПФ. На рис. 2.66,б
представлен пассивный декодер системы ABC-стерео. Сигнал Л должен быть подан
на вход 4 процессора (рис. 2.66,а), (Л − kП) — на вход 3, (П − kЛ) — на вход 2, а
П — на вход 1 процессора.
Процессор может быть использован и для получения псевдоквадрафонического
звучания. В этом случае разностный сигнал (Л−П) левого и правого сигналов стере-
опары должен быть подан в противофазе на входы 2 и 3 процессора.
Заметим, что в каждом случае пространственная звуковая панорама, свойствен-
ная соответствующему типу имитируемой матричной системы (SQ, QS, ABC-стерео,
Dolby Lab и т. д.), может быть получена только для одной точки слушания и при
времени стандартной реверберации T помещения прослушивания, не превышающем

Ðèñ. 2.66. Структурная схема процессора, создающего иллюзию звучания тыловых гром-
коговорителей (а), и упрощенная схема пассивного декодера системы «ABC-стерео» (б)
128 Раздел 2

Ðèñ. 2.68. Изменение уровня звукового давления от


Ðèñ. 2.67. К пояснению рис. 2.66,а частоты

0,3 с. Передаточные функции блоков G и Н, входящих в состав процессора, были


изображены ранее на рис. 2.55,б и в для случая, когда φ = 120◦ и ψ = 30◦ .
Иную цель преследуют авторы бифонического процессора, предложенного фир-
мой Victor Company of Japan. Процессор обеспечивает совместимость стереопанорам
при использовании громкоговорителей и головных телефонов и подведение к ушам
слушателя сигналов, воспринятых микрофонами искусственной головы.
Прежде чем описывать структурную схему этого процессора, приведем ряд необ-
ходимых пояснений. Допустим, что источник звука расположен в медианной плоскос-
ти искусственной головы спереди (заглушенная камера). Пусть он создает одинаковое
звуковое давление во всем диапазоне слышимых частот. Зависимость A′ (рис. 2.68)
показывает изменение уровня звукового давления на выходах микрофонов искусст-
венной головы для этого случая, а зависимости A и B — изменение уровня звукового
давления для прямого (A) и перекрестного (B) сигналов на ушах слушателя, если
воспроизведение осуществляется с помощью громкоговорителей Гр1 и Гр2 . При этом
голова слушателя расположена симметрично относительно Гр1 и Гр2 , а угол, под ко-
торым он видит эти громкоговорители, равен 60◦ (ψ = 30◦ ). При этих измерениях
к громкоговорителям подводятся сигналы постоянного уровня. Интересно отметить,
что кривые A′ и A = f1 (H11 или H22 ) весьма похожи, если угол на громкоговори-
тели не превышает 60◦ . Кривая B = f2 (H12 или H21 ) характеризует изменения,
которые претерпевает звуковая волна, распространяясь от левого громкоговорителя
к правому уху и наоборот. На рис. 2.69 приведена структурная схема процессора,
обеспечивающего выполнение условия совместимости для случая, когда реальный
источник звука расположен в медианной плоскости искусственной головы. Звуковая
волна, распространяясь от источника звука ИЗ, воздействует на микрофоны M1 и
М2 макета головы (МГ). Задача процессора состоит в том, чтобы донести оба этих
сигнала в неизменном виде до ушей слушателя как при использовании телефонов,
так и громкоговорителей.
Процессор, удовлетворяющий этому требованию (рис. 2.69), имеет два идентич-
ных канала преобразования сигналов Лб и Пб . Каждый из них содержит блок с пе-
редаточной функцией 1/A, с выхода которого сигнал поступает на неинвертирующий
вход операционного усилителя ОУ1 (или ОУ2 ). Выход ОУ через блок с передаточной
функцией B/А подключен к его инвертирующему входу. В точках QЛ и QП процес-
сора (рис. 2.69) имеют место соответственно сигналы QЛ = Лб /(A + B) и QП =
= Пб /(A + B). Если источник звука расположен в медианной плоскости, то Лб = Пб ,
поэтому QЛ = QП . Выражение 1/(A+B) представляет собой передаточную функцию
каждого из каналов процессора. Сигналы QЛ и QП излучаются громкоговорителями
Звуковые системы 129

Ðèñ. 2.69. Структурная схема бифонического процессора, обеспечивающего доведение до ушей


слушателя бинауральной пары сигналов при использовании громкоговорителей (а) и телефонов (б)

Гр2 и Гр1 или подводятся к телефонам Т. Ес-


ли принять во внимание, что головные телефоны
обычно имеют передаточную функцию вида A + B
рис. 2.70), то схема, показанная на рис. 2.69, обес-
печивает подведение к ушам слушателя сигналов
Лб и Пб . При воспроизведении же сигналов QЛ
и QП через громкоговорители на левое и правое Ðèñ. 2.70. Зависимость пе-
уши слушателя (с учетом равенства Лб = Пб ) редаточной функции голов-
ных телефонов от частоты
будут воздействовать соответственно сигналы
[Лб /(A + B)]A + [Пб /(A + B)]B = Лб и [Пб /(A + B)]A + [Лб /(A + B)]B = Пб .
Таким образом, при применении громкоговорителей использование процессора
обеспечивает подведение к ушам слушателя сигналов, тождественных Лб и Пб , что
позволяет говорить о совместимости стереопанорам при применении громкоговори-
телей и телефонов.
Все изложенное относилось к ситуации, когда источник расположен в медианной
плоскости МГ. В реальных условиях источник звука может быть расположен в любой
точке пространства. Тогда в цепь отрицательной обратной связи ОУ рекомендуется
включать аттенюатор, обеспечивающий затухание около 3. . . 4 дБ, так, как это пока-
зано на рис. 2.71,а. Этот аттенюатор (дБ) необходим для устранения искажений фор-
мы звуковой волны, если воспроизведение осуществляется через громкоговорители.
На рис. 2.71,б представлены частотные характеристики каналов блока I (рис. 2.71,а).
Если же мы хотим обеспечить эффективную передачу направлений не только в
медианной плоскости, то к процессору, изображенному на рис. 2.71,а, необходимо
добавить блок пространственной локализации II.

Ðèñ. 2.71. Вариант структурной схемы бифони-


ческого процессора (а) и частотные характерис-
тики его каналов (б): 1 — АЧХ с аттенюатором;
2 — то же самое, но без аттенюатора
130 Раздел 2

Ðèñ. 2.72. Вариант структурной схемы бифонического процессора

Рассмотрим сначала более простую схему процессора, не содержащую вышеупо-


мянутых аттенюаторов. Она необходима для понимания существа дела. Структурная
схема такого процессора изображена на рис. 2.72. Он содержит два блока I и II. Схема
блока I идентична изображенной на рис. 2.71,а. К ее выходам QЛ и QП подключен
блок II. Он содержит сумматоры сигналов Σ1 и Σ2 , блоки, имеющие передаточные
функции B/A. Выходными сигналами блока II являются сигналы SЛ и SП , которые
после усиления усилителями подводятся к левому и правому громкоговорителям.
Выходные сигналы блока II:
SЛ = QЛ + (B/A)QЛ − (B/A)SП и SП = QП + (B/A)QП − (B/A)SЛ
обеспечивают получение на ушах слушателя (С на рис. 2.72) при громкоговорящем
воспроизведении сигналы EЛ и EП , тождественные бинауральным сигналам Лб и Пб ,
полученным от микрофонов «искусственной головы». Иначе говоря, обеспечивают-
ся такие же условия восприятия, как если бы слушатель находился в точке распо-
ложения макета головы.
Если блок II, показанный на рис. 2.72, используется совместно с блоком I, пред-
ставленным на рис. 2.71,а, то первый для выполнения условия EЛ = Лб и EП = Пб
необходимо изменить так, как это представлено на рис. 2.73. Заметим, что сказан-
ное справедливо, если все аттенюаторы вносят одинаковое затухание. Возможны и
другие варианты построения структурных схем блока II, но в любом случае они дол-
жны обеспечивать преобразование исходных сигналов QЛ и QП в сигналы SЛ и SП ,
определяемые вышеприведенным выражением. Понятно, что алгоритм этого преоб-
разования может быть неодинаков.

Ðèñ. 2.73. Бифонический процессор с возможностью тонкой компенсации искажений формы звуковой
волны, возникающих в бинауральной системе передачи в первичном (блок I) и во вторичном (блок II)
помещениях
Звуковые системы 131

Ðèñ. 2.74. Универсальный формат формирования, передачи и воспроизведения звуковых сигналов

Несмотря на значительные успехи в области изучения свойств пространственного


слуха, пока еще не существует методов, позволяющих устранить мешающее влияние
реверберации помещения, с одной стороны, и расширить зону слушания (при гром-
коговорящем воспроизведении) — с другой, что, безусловно, сдерживает широкое
внедрение бинауральной системы звукопередачи в запись, телевидение, радиовеща-
ние. Некоторым недостатком бинауральной стереофонии является также отсутствие
полной совместимости с традиционной стереофонической системой звукопередачи.
Тем не менее, бинауральная технология, имеет свою нишу, активно развивается, нап-
ример на сайте www.binaural.com можно найти весьма обширный каталог бинаураль-
ных записей, доступных желающим за определенную плату, а также и много другой
полезной информации.

2.10. Универсальный звуковой формат


Все многообразие систем передачи и воспроизведения звуковых сигналов вклю-
чает универсальный формат, представленный в документе 9/63Е от 16 ноября 1993 г.
Он универсален и предназначен для использования в радиовещании, телевидении, ки-
нематографе, в домашних аудиовидеокомплексах. Универсальность и совместимость
с уже существующими звуковыми форматами — его важное достоинство.
В соответствии с этим форматом на стороне передачи формируется пять зву-
ковых сигналов (рис. 2.74): левый L (несет в основном информацию о левой фрон-
тальной части звукового поля первичного помещения — студии); правый R (несет
преимущественно информацию о правой фронтальной части звукового поля студии);
фронтальный C (несет информацию о фронтальной части звукового поля студии);
левый эффектный тыловой LS (несет в основном информацию о реверберирующих
звуках левой тыловой части звукового поля студии); правый эффектный тыловой
RS (несет в основном информацию о реверберирующих звуках правой тыловой час-
ти звукового поля студии). Здесь важно отметить то, что на пару сигналов L и R
требование совместимости не распространяется.
С помощью матрицы М1 из этой совокупности сигналов формируются левый T1
и правый T2 базисные сигналы стереопары по правилу
T1 = L + 0,7071C + 0,7071LS; T2 = R + 0,7071C + 0,7071RS.
Заметим, что сигналы T1 и T2 образуют совместимый стереосигнал, их сумма
дает полноценный монофонический сигнал M = T1 + T2 .
Всего на стороне передачи с помощью матрицы М1 формируются следующие
пять звуковых сигналов:
T1 = L + 0,7071C + 0,7071LS;
132 Раздел 2

T2 = R + 0,7071C + 0,7071RS;
T3 = 0,7071C;
T4 = 0,7071LS + 0,7071RS;
T5 = 0,7071LS − 0,7071RS.
Цифровая передача этих сигналов сегодня выполняется преимущественно в стан-
дартах MPEG (ISO/IEC 11172-3, 13818-3, 14496-3, MPEG D Surround) и Dolby AC-3
(A/52). При цифровой передаче сигналы T1 , T2 , T3 , T4 , T5 объединяются, например,
в MPEG-кодере, обычно в два отдельных цифровых потока, один из которых (ос-
новной) представляет собой базисный сигнал обычной стереофонии T1 /T2 , а другой
служит для передачи дополнительных фронтального T3 и пространственных эффек-
тных сигналов T4 и T5 (цифровой поток так называемого многоканального расши-
рения T3 /T4 /T5 ). В эту группу добавляются также сигналы управления процессом
декодирования и сигналы идентификации формата передачи и воспроизведения, если
таковые имеются.
Процедура декодирования сигналов T1 , T2 , T3 , T4 и T5 на приемной стороне сис-
темы звукопередачи представлена ниже. После матрицы М2 имеем:
L′ = T1 − T3 − 0,500T4 − 0,500T5 ;
R′ = T2 − T3 − 0,500T4 + 0,500T5 ;
C ′ = 1,4142T3 ;
LS ′ = 0,7071T4 + 0,7071T5 ;
RS ′ = 0,7071T4 − 0,7071T5 .
Восстановленные сигналы подводятся к соответствующим громкоговорителям
системы воспроизведения.
Итак, универсальный формат позволяет сформировать совокупность звуковых
сигналов любого формата (табл. 2.3).
Размещение (конфигурация) громкоговорителей, требования, предъявляемые к
ним и к параметрам помещений, предназначенным для прослушивания фонограмм
различных звуковых форматов, стандартизованы. Здесь, прежде всего, следует наз-
вать три международных документа: ITU-R BS.775-1. Multi-channel stereophonic sound
system without accompanying picture, Geneva, Switzerland, 1994, (Многоканальные зву-
ковые системы с и без видеосопровождения); SMPTE RP-173 Loudspeaker placements
for audio monitoring in high definition electronic production, 1991 (Размещение громкого-
ворителей при аудиомониторинге высококачественной электронной продукции) и EBU
R 96. Formats for production and delivery of multi-channel programme, 2000 (Форматы
для записи и передачи многоканальных программ). Из многоканальных форматов
базовыми считаются форматы воспроизведения 3/2 и 5.1. При этом рекомендуется
фронтальные громкоговорители L, C, R устанавливать по высоте h на уровне головы
сидящего слушателя (h ≈ 1,2 м) с ориентацией их акустических осей на оптимальное
(точка А) место прослушивания. Тыловые громкоговорители (LS и RS) — чуть выше
(h > 1,2 м), также с ориентацией их акустических осей на точку А.
Громкоговоритель канала СНЧ (Subwoofer), работающий в полосе частот 20. . .
. . . 125 Гц, может в принципе располагаться где угодно в помещении, однако предпоч-
тительнее его положение в углу помещения. Это обеспечивает лучшее воспроизведе-
ние басов. Еще лучшие результаты дает использование нескольких таких громкого-
ворителей, обычно двух, включенных со сдвигом фазы 90◦ , что повышает ощущение
Звуковые системы 133
Таблица 2.3
Преобразование звуковых сигналов универсального формата
в звуковые сигналы с меньшим числом каналов воспроизведения
Звуковой Выходные Входные сигналы
формат сигналы
L R C LS RS
Обычное моно, 1/0 M 0,7071 0,07071 1,000 0,500 0,500
Обычное Л 1,000 0,000 0,7071 0,7071 0,000
стерео, 2/0 П 0,000 1,000 0,7071 0,000 0,7071
Многоканальные звуковые форматы:
1/1 M 0,7071 0,07071 1,000 0,500 0,500
MS 0,000 0,000 0,000 0,7071 0,7071
1/2 M 0,7071 0,7071 1,000 0,500 0,500
LS 0,000 0,000 0,000 1,000 0,000
RS 0,000 0,000 0,000 0,000 1,000
2/1 Л 1,000 0,000 0,7071 0,7071 0,000
П 0,000 1,000 0,7071 0,000 0,7071
MS 0,000 0,000 0,000 0,7071 0,7071
2/2 Л 1,000 0,000 0,7071 0,000 0,000
П 0,000 1,000 0,7071 0,000 0,000
LS 0,000 0,000 0,000 1,000 0,000
RS 0,000 0,000 0,000 0,000 1,000
3/0 L 1,000 0,000 0,000 0,7071 0,000
R 0,000 1,000 0,000 0,000 0,7071
C 0,000 0,000 1,000 0,000 0,000
3/1 L 1,000 0,000 0,000 0,7071 0,000
R 0,000 1,000 0,000 0,000 0,7071
C 0,000 0,000 1,000 0,000 0,000
MS 0,000 0,000 0,000 0,7071 0,7071
3/2 L 1,000 0,000 0,000 0,7071 0,000
R 0,000 1,000 0,000 0,000 0,7071
C 0,000 0,000 1,000 0,000 0,000
LS 0,000 0,000 0,000 1,000 0,000
RS 0,000 0,000 0,000 0,000 1,000

пространственности звучания. Это позволяет избежать концентрации низких частот


в какой-либо одной стороне помещения, а также исключить появление резонансов по-
мещения возможных при размещении субвуфера в центре его фронтальной части. Об-
щие требования, предъявляемые к контрольным комнатам систем пространственного
звучания, представлены ниже. Более подробные сведения о размещении громкогово-
рителей при многоканальном воспроизведении можно найти в статье А. Кравченко,
опубликованной в журнале Install Pro, № 3, 2003 г., а также в статьях И.А. Алдошиной:
«Многоканальные пространственные системы. Рекомендации международных стан-
дартов» // Шоу-мастер, 2003. № 2 (часть 1). C. 86–89 и № 3 (часть 2). C. 92–93.
Требования к контрольным комнатам систем пространственного звучания Dolby,
DTS, SDDS
Параметры помещения:
Площадь пола, м2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50±20 (малые), 100±30 (средние)
Объем комнаты, м3 , не менее . . . . . . . . . . . . . . . . . . . . . 80 (малые), 200 (средние)
Форма комнаты . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Непрямоугольная (избегать параллельных поверх-
ностей)
Желательные отношения размеров, h : b : L . . . . . . 1 : 1,59±0,7: 2,52±0,28
Высота комнаты, м . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3...4 (малые), 4...6 (средние)
Отделка интерьера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Однородное распределение отражающих/поглощающих
поверхностей (необходимо избегать сильных отраже-
ний от каких-либо направлений)
134 Раздел 2

Акустические свойства:
Время реверберации, с . . . . . . . . . . . . . . . . . . . . . . . . . . . 0,2±0,05 (малые), 0,3±0,1 (средние)
Средний коэффициент поглощения . . . . . . . . . . . . . . . 0,4...0,6 (на 500 Гц)
Отклонения времени реверберации . . . . . . . . . . . . . . . . до 25 % в частотной области ниже 250 Гц
Ранние отражения (до 15 мс) . . . . . . . . . . . . . . . . . . . . . на 10 дБ ниже прямого звука
Распределение уровня звукового давления (SPL) . . . Однородное распределение внутри слушательской
зоны, включая место микширования
Шум от вентиляции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Кривая NC15
Шум от оборудования . . . . . . . . . . . . . . . . . . . . . . . . . . . . Кривая NC20
Время стандартной реверберации в помещении прослушивания, если речь идет о
жилой комнате, должно лежать в пределах 0,2±0,05 с на частоте 500 Гц.
Величина базы фронтальной пары громкоговорителей должна лежать в пределах
2. . . 4 м, а расстояние от фронтальных громкоговорителей до стен помещение должно
составлять не менее 1 м.
Балансировку каналов воспроизведения рекомендуется проводить на розовом шу-
ме с полосой частот 200. . . 20000 Гц, используя при измерениях уровней взвешиваю-
щую кривую А. Разбаланс уровней сигналов воспроизведения в точке прослушивания
А не должен превышать 1 дБ. Общий уровень воспроизведения должен находиться в
пределах 85. . . 96 дБ. Дополнительные сведения о параметрах помещений и контро-
льных громкоговорителей, предназначенных для воспроизведения фонограмм систем
пространственного звучания, можно найти в работе И.А. Алдошиной, опубликован-
ной в журнале «Шоу-мастер», № 2 и 3 за 2003 г.

2.11. Новейшие звуковые системы и технологии


Новейшие системы пространственного звучания
Что же ждет нас в будущем? Несомненно, рост числа каналов, что уже реали-
зовано в системах Dolby Digital Surround EX и DTS-ES формата 7.1. Возможно, что
система пространственно распределенных громкоговорителей также будет в дальней-
шем разделена на большее, чем три (LS, TS, RS), количество групп.
Увеличение числа раздельных каналов n передачи звука не только повышает ка-
чество звучания, но, что более важно:
• расширяет зону прослушивания;
• обеспечивает лучшую передачу глубины и ширины стереопанорамы не только
в горизонтальной, но и в вертикальной плоскости (формирует трехмерную зву-
ковую панораму), размещение звуковых образов в любой точке простраанства
относительно слушателя (слева, справа, спереди, сзади, сверху и т. п.);
• позволяет адаптировать систему воспроизведения к различным акустическим ус-
ловиям помещений;
• по-прежнему все еще необходимо сохранение совместимости с более ранними ва-
риантами систем пространственного звучания, включая и обычное двухканальное
и даже (в ряде случаев) монофоническое воспроизведение.
Ведутся эксперименты по расположению громкоговорителей в кинозалах не толь-
ко в горизонтальной, но и в верикальной плоскостях, например вблизи потолка, что-
бы в еще большей степени окружить зрителя пространственным звуком. Появляются
системы пространственного звучания, разработанные специально для компьютеров и
игровых приставок. Уже сегодня системы пространственного звучания присутствуют
на радио, телевидении, в Интернете, в домашних видеокомплексах и их возможности
по передаче пространственной информации непрерывно расширяются.
Звуковые системы 135

Ðèñ. 2.75. Расположение громкоговорителей в звуковой системе формата 22.2


Таблица 2.4
Расположение громкоговорителей в звуковых системах пространственного звучания других форматов
Расположение Расположение Расположение
Формат на полу на уровне зрителей над зрителями Применение
(нижний слой) (средний слой) (верхний слой)
5.1 Применяется в кинотеатрах

6.1 Применяется в кинотеатрах

6.1 Применяется в IMAX-театрах

7.1 Применяется совместно с сис-


темой SDDS

10.2 Предложено Tomlinson Holman,


TMH corp., США

22.2 Предложено для Definition


video system фирмой NHK,
Япония

В качестве примера на рис. 2.75 и табл. 2.4 приведено размещение громкого-


ворителей в зале для ряда наиболее известных звуковых систем, в первую очередь
применяемых в кино.
Система формата 5.1 Dolby Surround. Здесь три фронатальных громкоговорите-
ля и громкоговорители стен размещены в одной средней по высоте плоскости, сабву-
136 Раздел 2

фер расположен на нижнем ярусе (на полу). Такая система стандартизована, давно
применяется в кинотеатрах, домашнем звуковоспроизведении, в компьютерных му-
льтимедийных технологиях.
Система формата 6.1. В этом случае мы имеем 6 основных каналов (три фрон-
тальных и три тыловых) и один сабфуфер. Существует два варианта расположения
громкоговорителей в зале (табл. 2.4). В первом случае все они за исключением саб-
вуфера расположены в одной средней плоскости, а сабвуфер — в нижнем ярусе (на
полу). Во втором варианте один из громкоговорителей основных каналов воспроиз-
ведения располагается на верхнем ярусе. Такое расположение было предложено в
1983 г. для так называемых IMAX-театров.
Система формата 7.1 использует семь основных каналов плюс сабвуфер. При
этом пять из них расположены за экраном и два тыловых в средней плоскости, саб-
вуфер расположен на полу (нижний ряд). Такое расположение применяется в сис-
теме SDDS.
Система формата 10.2. В ней в средней плоскости 5 громкоговорителей распо-
ложены за экраном, три — в тыловой части зала. На нижнем уровне расположены
два сабвуфера. На верхнем ярусе над экраном также расположены два излучателя.
Такая система предложена Т. Хольманом, корпорация TMH, США.
Система формата 22.2 предложена фирмой NHK Science&Nechnical research Lab,
Япония. Ее возможности продемонстрированы известным акустиком К. Хамасаки
впервые на Всемирной выставке в Японии в 2005 г. (см. рис. 2.75). Важно, что
она совместима с основными форматами 5.1 и 2/0. Громкоговорители расположены
здесь в трех плоскостях: в нижнем ряду на полу расположены два сабвуфера S1 и S2
и громкоговорители каналов 20, 21 и 22; в средней плоскости на уровне слушателей —
10 основных каналов воспроизведения 1–10; в верхнем ряду — громкоговорители ка-
налов 11–19 (всего 9 каналов). При переходе к формату 5.1 сигналы 22 основных
каналов и двух каналов сверхнизких частот с помощью матрицирования преобразу-
ются в стандартную группу 5.1:
L = k[ch1 + 0,7071(ch2 + ch6) + m(ch20) + n(ch11 + 0,7071(ch14))];
R = k[ch5 + 0,7071(ch4 + ch7) + m(ch22) + n(ch13 + 0,7071(ch16))];
C = k[ch3 + 0,7071(ch2 + ch4) + m(ch21) + n(ch12 + 0,7071(ch15))];
LS = k[ch8 + 0,7071(ch6 + ch9) + n(ch17 + 0,7071(ch14)) + 0,5(ch15)];
RS = k[ch10 + 0,7071(ch7 + ch9) + n(ch19 + 0,7071(ch16)) + 0,5(ch15)];
LFE = 0,7071(S1 + S2).
Для перехода к двухканальному формату обычной стереофонии пять полученных сиг-
налов с помощью уравнений матрицирования, преобразуются в два сигнала Lt и Rt:
Lt = L + 0,7071C + 0,7071LS + 0,7071RS + 0,7071LFE;
Rt = R + 0,7071C + 0,7071LS + 0,7071RS + 0,7071LFE.
Все каналы воспроизведения, кроме каналов сверх низких частот (СНЧ или LFF),
имеют полную полосу частот 40. . . 15000 Гц (рис. 2.76). Каналы СНЧ работают в
полосе частот 25. . . 125 Гц или 20. . . 200 Гц. Для равномерного покрытия слуша-
тельских мест громкоговорители имеют широкую диаграмму направленности: угол
покрытия 120◦ в горизонтальной плоскости и 100◦ — в вертикальной. Из-за большой
озвучиваемой площади в каждом основном канале среднего слоя используется по два
Звуковые системы 137

Ðèñ. 2.76. Частотные характеристики каналов воспроизведения формата 22.2

громкоговорителя, а в канале 9 — три громкоговорителя. Для улучшения воспроиз-


ведения самых низких частот наряду с сабвуферами, расположенными ниже экрана
на его левой и правой сторонах, дополнительно использовалась система сабвуферов,
расположенных над экраном.
Для выбора высоты громкоговорителей верхнего слоя была проведена серия эк-
спертиз. Они показали, что высота подвеса третьего (верхнего) слоя громкоговори-
телей должна соответствовать 45◦ по отношению к плоскости расположения слу-
шателей.
Для реализации всех возможностей системы формата 22.2 требуется, что естес-
твенно, специальная техника микрофонной записи. Обычно при записи симфоничес-
кого оркестра применяется запись главным микрофоном, который схватывает звук
оркестра в целом, этот звук затем воспроизводится фронтальными громкоговорите-
лями (в системах формата 5.1), которые расположены симметрично и на одинаковом
расстоянии от слушателя. При этом зона оптимального прослушивания получается
достаточно ограниченной. При записи звука для системы 22.2 применялось несколько
групп микрофонов для прямого звука. Сигнал каждой группы затем воспроизводил-
ся соответствующими громкоговорителями. Отраженные звуки записывались дру-
гими микрофонами и воспроизводились тыловыми громкоговорителями окружения.
Ненаправленные микрофоны также располагались перед оркестром на определенном
расстоянии и высоте, чтобы «схватить» низкочастотные компоненты звучаний, кото-
рые подавались на сабвуферы. Расположение микрофонов при записи и технология
самой записи — это отдельная и очень важная проблема для любой многоканальной
звуковой системы и тем более сложная и многофакторная, чем больше число раз-
дельных каналов записи-воспроизведения. Это принципиально важно с точки зрения
передачи ширины и глубины звуковых образов, улучшения натуральности, простран-
ственности и четкости звучания оркестра.
В концертном зале слушатель воспринимает звук оркестра из фронтального на-
правления, отраженные звуки от других направлений создают ощущение общего прос-
транства. При этом слушатель ожидает получения устойчивой локализации звуков
оркестра во фронтальной полуплоскости, возникновения пространственного ощуще-
ния подобного слушанию в концертном зале, восприятия тембра каждого музыкаль-
ного инструмента адекватного живому звучанию. Очевидно, что все эти ощущения
должны быть неизменными (устойчивыми, стабильными) в широкой зоне слушания.
138 Раздел 2

Ðèñ. 2.77. Расположение микрофонов в помещении при записи в звуковой системе формата 22.2

Для устойчивой локализации центрального КИЗ в любой звуковой системе огром-


ную роль играет наличие центрального канала воспроизведения, который позволяет
стабилизировать фронтальный звуковой образ. Правда, для этого уровень звуково-
го давления от громкоговорителя центрального канала должен быть выше, чем от
громкоговорителей остальных каналов воспроизведения.
Ощущение окружения звуковым полем складывается из соотношения уровня пер-
вых отражений по отношению к уровню прямого звука, которое должно быть доста-
точно высоким (около 10 дБ). Для этого при записи полезно использовать два нап-
равленных микрофона, противоположно ориентированных для записи прямого звука
и первых отражений. Пространственное впечатление определяется структурой ран-
них отражений, в том числе и направлениями их прихода, а также общей структурой
поздних отражений, формирующих реверберационное звуковое поле, поэтому необхо-
димо применять специальную систему микрофонов для записи отраженных сигналов.
Использование только двух тыловых каналов для передачи реверберирующего звука
явно недостаточно для воссоздания реального пространственного впечатления. Об
этом говорят многочисленные эксперименты. По этой причине в системе 22.2 уве-
личено число тыловых каналов.
Для эффектного использования всех возможностей многоканальных систем не-
обходимы специальные технологии записи. Например, авторы системы 22.2 предло-
жили использовать для этой цели так называемую многослойную систему микрофон-
ной записи, состоящую из набора главных микрофонов и микрофонов для записи
окружающего звука, также для дополнительных систем искусственной реверберации
(рис. 2.77).
В систему главных микрофонов входят как направленные, так и ненаправленные
микрофоны. Сигналы с их выходов подаются на соответствующие громкоговори-
Звуковые системы 139

тели основных каналов, а также фильтруются и подаются затем и на сабвуферы.


В эту же микрофонную систему входят и двунаправленные микрофоны для записи
первых ранних отражений.
Во вторую систему записи пространственного звука входят направленные микро-
фоны (сигналы от которых должны быть декоррелированы). Кроме того, она должна
быть установлена на расстоянии больше критического от источника звука и по вы-
соте выше микрофонов главной системы.
По мнению авторов, система 22.2 имеет ряд преимуществ перед обычными прост-
ранственными звуковыми системами, например формата 5.1. Она обеспечивает более
четкую и точную локализацию источников в пространстве; лучшее и более точное
ощущение глубины, высоты и ширины звукового образа; натуральное пространст-
венное впечатление в широкой слушательской зоне; трехмерное перемещение КИЗ
вокруг слушателей. Причем именно применение главной системы микрофонов соз-
дает ощущение глубины, т. е. звуковые источники кажутся расположенными позади
базы громкоговорителей.
Интересно отметить следующее. Внимательные слушатели замечают, что звук
инструментов, расположенных справа или слева от микрофонной базы, кажется бли-
же, чем от инструментов, расположенных в центре. Поскольку восприятие глубины
звукового образа зависит в значительной степени от структуры первых боковых от-
ражений, главная микрофонная система по-разному записывает их для боковых и
центральных инструментов, поэтому и создается разное ощущение глубины. Из этого
следует также, что можно усилить ощущение глубины, добавив боковые отражения
электронным путем. Таким образом, создание системы 22.2 потребовало развития
новой технологии микрофонной записи. Еще раз подчеркнем, что все многоканальные
звуковые системы являются цифровыми с обязательной компрессией аудиоданных.
В заключение хочется привести слова Х. Флетчера: «Стереофоническая систе-
ма — это не два, три или любое другое фиксированное число каналов. Их должно
быть столько, чтобы создавалась иллюзия бесконечного их количества».
Амбиофонические системы больших залов
Амбиофонические системы (ambio — лат.: окружение) известны давно. Напом-
ним, лишь, что они используют линии задержки для синтеза сигналов, составляющих
дискретную часть реверберационного процесса помещений (рис. 2.78), а также за-
вершающую часть реверберации (для изменения гулкости звучания). Это позволяет
электронными средствами создавать на каждом слушательском месте наилучшие ус-
ловия для восприятия звучаний программ разных жанров и осуществлять коррекцию
акустики зала. Последовательности и направления прихода синтезированных отраже-
ний выбираются таким образом, чтобы не возникали бы эффекты типа гребенчатого
фильтра, искажающего тембры звучаний инструментов и голосов, порхающего эха,
возможного, например, при появлении выброса в уровнеграмме реверберации звуко-
вого сигнала. Задержанные сигналы, подобранные по времени запаздывания, уровню
и направлению прихода к слушателю, воспроизводятся каждый своим громкогово-
рителем, имитируя отраженные звуки, приходящие из разных мест пространтства:
стен, потолка. Для их воспроизведения требуется дополнительная система громко-
говорителей в помещении. Аналогичным образом в свое время были оборудованы
Кремлевский дворец съездов в Москве, концертный зал гостиницы «Россия»∗ , те-


В настоящее время уже не существующей.
140 Раздел 2

Ðèñ. 2.78. Простейшая структура амбиофонической системы для большого зала

атр «Ла Cкала» и некоторые другие. Все же следует признать, что такие простые
структуры звуковых систем не обладают высоким качеством.
В настоящее время амбиофонические системы модернизированы с учетом на-
копленного при их эксплуатации опыта.
При этом для звуковых систем больших залов были сформулированы требования,
которые сегодня могут быть достаточно легко выполнены. Они должы обеспечивать:
• возможность локализации источников звука, согласование по направлению зри-
тельного и слухового ощущений при прослушивании ансамбля слушателями, на-
ходящимися в разных точках помещения;
• оперативное изменение структуры и длительности процесса реверберации, с це-
лью формирования условий для наилучшего восприятия объема помещения,
пространственности, ясности и четкости звучания;
• натуральность воспринимаемых тембров инструментов и голосов;
• возможность создания разнообразных звуковых эффектов;
• однородное распределение уровней звукового давления по всей площади слуша-
тельских мест;
• достаточный уровень громкости без появления признаков самовозбуждения за
счет возможного возникновения акустической обратной связи;
• создание комфортных условий для прослушивания звучаний разных жанров.
Рассмотрим идею, лежащую в основе построения таких звуковых систем. Ко
многим слушательским местам в зале звук от первичных источников, расположенных
на сцене, приходит сильно ослабленным. Такие места должны дополнительно оз-
вучиваться с помощью дополнительных громкоговорителей определенной мощности.
При этом первичный источник звука попрежнему должен локализоваться слушате-
лем в месте его действительного расположения. В первых вариантах таких систем
для сохранения правильной локализации источников звука на сцене использовался
метод интенсивностной стереофонии. В звуковых системах, построенных по это-
му принципу, в зависимости от положения источника звука на сцене увеличивалась
интенствность излучения ближайшего к нему громкоговорителя (или группы громко-
говарителей) и, тем самым, обеспечивалась его правильная локализация. При этом
Звуковые системы 141

громкоговорители, отвечающие за павильную локализацию первичных источников в


действительном направлении, располагаются обычно в пределах сцены. В таких сис-
темах, даже при тщательной настройке, возникают нежелательные колебания уровня
звукового давления, замечаемые слушателями.
Современные амбиофонические звуковые системы — это сложнейшие звуковые
комплексы с компьютерным управлением. В них для формирования структуры звуко-
вого поля в зале используют уже метод временной стереофонии, развитие которого
привело к появлению так называемой дельта-стереофонии [2.4; 2.5]. Площадь сцены
и слушательские места в зале (они могут иметь произвольную форму и разные раз-
меры, зависящие к тому же и от характера представления) подразделяются в этом
случае на некоторое число зон (рис. 2.79). Их число зависит от формы и объема
зала. Границы этих зон для одного из залов показаны пунктирными линиями. В каж-
дой такой зоне акустические сигналы источников звука (групп музыкальных инстру-
ментов и голосов), воспринятые соответствующими микрофонами, усиливаются и
обрабатываются микшерным пультом (корректируются по частоте, динамике, полосе
частот, обрабатываются ревербераторами) и смешиваются далее таким образом, что
для каждой зоны озвучения формируется свой результирующий сигнал. Эти сигналы
после такой обработки и формирования поступают на линии задержки и задержива-
ются на определенное и разное для каждой зоны слушательских мест время. При
необходимости можно получить и несколько повторений одного и того же сигнала с
разной задержкой. Число каналов может быть несколько, но обычно не менее трех,
например, отвечающих за правильную передачу левого, фронтального и правого нап-
равлений локализации источников звука, расположенных на сцене. Громкоговорители
каждой зоны озвучения также в свою очередь разделены на подгруппы, отвечающие
за передачу соответствующих направлений локализации: центр, лево, право.
Времена задержки выбирают таким образом, чтобы сигналы, поступающие от
громкоговорителей, обслуживающих определенную зону слушательских мест, прихо-
дили бы к ушам слушателей раньше, чем сигналы от громкоговорителей, озвучи-
вающих другие зоны, но позже, чем звук от первичого источника, формируя тем
самым структуру первых ранних отражений. Задержанные сигналы, предназначенные
для каждой зоны расположения слушательских мест, затем смешиваются с сигнала-
ми, предназначенными для других зон, и после этого подаются на раздельные группы
громкоговорителей, размещенные между сценой и слушательскими местами. Исполь-
зуя устройства временной задержки первичных сигналов, можно добиться того, что к
слушателю первым всегда поступит прямой звук от его источника на сцене (рис. 2.80).
Согласно эффекту предшествования в этом случае сохранится не только правильное
восприятие направления на источник звука на сцене, но и впечатление об его удален-
ности. Это справедливо, если первый задержанный сигнал приходит не позже, чем
через 30 мс после сигнала от первичного источника, и не превышает его по уров-
ню более чем на 10 дБ. При этом необходимо учитывать также частотно-зависимое
затухание звука в воздухе. Итак, в такой звуковой системе для каждой группы гром-
коговарителей, озвучивающих ту или иную группу слушательских мест, можно сфор-
мировать такой суммарный сигнала, включающий в себя и сигналы других первичных
источников звука, при котором обеспечивается оптимальный баланс громкостей всех
первичных источников звука. В этих системах можно обеспечить и передачу движе-
ния первичных источников при их перемещении на сцене из одной зоны в другую. Это
достигается обычно панорамированием сигналов и плавным изменением вводимой
задержки.
142 Раздел 2

Ðèñ. 2.79. Расположение громкоговорителей в Международном конгресс-центре (г. Берлин)

Все изложенное говорит о сложности настройки и управления оборудованием


систем дельта-стереофонии (DSS). Для этой цели разработан специальный процес-
сор (рис. 2.81), отслеживающий и правильно передающий движение первичных ис-
точников звука на сцене. Он позволяет управлять 6-ю независимыми первичными
источниками звука, вводя нужные задержки и регулируя их уровни, причем эти сиг-
налы можно направлять на 10 независимых линий. Данный метод предполагает, ес-
тественно, использование для этой цели имитирующих движение громкоговорителей.
Все управление выполняется компьютером, поэтому все предустановки могут быть
сохранены в памяти. Вызвать требуемую конфигурацию можно простым нажатием
кнопки. Подобный процессор установлен после реконструкции в Кремлевском двор-
це съездов в Москве.
Итак, с помощью DSS можно электронным способом влиять на пространствен-
ную и временную структуру звукового поля таким образом, что будут достигаться
хорошие четкость речи и ясность музыки на слушательских местах для разных жан-
ров программ, что делает такие залы универсальными.
Децентрализованное расположение громкоговорителей в зале по фронту и глу-
бине (см. рис. 2.79)
√ позволяет наряду с первичным звуком вводить с определенной
задержкой (t ≈ 2 V , V — объем помещения в м3 , t — время задержки в мс), зави-
сящей от объема помещения сигнал реверберации, что усиливает эффект простран-
ствености звучания. Чтобы не нарушилась целостность сигнала из-за возможного
появления эха в случае больших задержек, необходимо вводить дополнительные от-
ражения, следующие после сигнала первичного звука. В результате звуковой образ
на месте слушателя будет определяться не только исходным звуком и звуком громко-
Звуковые системы 143
Ðèñ. 2.80. Упрощенная структура системы «Дельта-
стереофонии» (DSS): а — принцип действия; б — струк-
турная схема DSS; φ — угловое расстояние между визу-
альным и акустическим направлениями восприятия без
DSS; Q — исходный или имитируемый источник звука;
t0 — время прохождения звука от первичного источ-
ника до слушателя; tn — время прохождения звука от
громкоговорителя до слушателя; ∆tn — электрическое
время задержки для сигнала соответствующего гром-
коговорителя; H — слушатель

говорителей, озвучивающих данную зону, но и сигналами других громкоговорителей


с другими уровнями и временами задержки.
Все изложенное свидетельствует о сложности манимпуляций с оборудованием
такой звуковой системы, обеспечивающей требуемые слуховые ощущения и комфор-
тность восприятия в основном электронными средствами. Такие системы имитируют
прямой звук для получения правильной локализации, первоначальные ранние и поз-
дние отражения для ощущения нужной прозрачности, ясности и пространственности
звучания, завершающий участок реверберационного процесса для достижения опти-
мальной гулкости и объемности звучания. Настройка системы — это очень сложный
и трудоемкий процесс.
Современные амбиофонические системы — это сложнейшие звуковые комплексы
с компьютерным управлением.
Звуковая система «Амбисоник»
Идея построения системы Ambisonics сформулирована в 80-е годы XX века груп-
пой ученых во главе с Микаэлем Герзоном (Michael Gerzon) — профессором Матема-
тического института, Питером Феллгетом (Peter Fellgett) — профессором факультета
144 Раздел 2

Ðèñ. 2.81. Принцип работы DSS-процессора DSP 610 фирмы AKG (Германия)

Кибернетики университета в Оксфорде. Ее основная цель на первом этапе состоя-


ла в преодолении недостатков, свойственных система матричной квадрафонии [2.28]
первой волны. Иначе говоря, ставилась цель создания системы записи, передачи и
воспроизведения звука, совместимой с моно- и стереоформатами и позволяющей пе-
редать информацию о распределении источников звука не только в азимутальной, но
и вертикальной плоскостях при сохранении высокой четкости, ясности и пространст-
венности звучания при воспроизведении в малых пломещениях.
Для приема звука в первичном помещении была предложена оригинальная микро-
фонная система (рис. 2.82), позволяющая в итоге сформировать четыре сигнала для
всех этапов их последующей обработки: А — формат записи сигналов микрофонами,
В — формат студийной обработки звука, С — формат кодирования (записи) звука и
D — формат воспроизведения. В ней используется кодер UHJ, позволяющий кодиро-
вать многоканальную информацию в моно, двухканальное стерео и surround-каналы,
обеспечивая при этом хорошее качество звучания даже для слушателей, находящих-
ся вне центральной зоны слушания. По мнению разработчиков, система Ambisonics
обеспечивает полную совместимость с моно-, стерео- и surround-системами.
Рассмотрим названные форматы. А-формат образуют сигналы, полученные от
четырех микрофонов с кардиоидной характеристикой направленности каждый. Мик-
рофоны расположены в вершинах тетраэдра с ориентацией их акустических осей так,
как это показано на рис. 2.82,а. На выходах этих микрофонов имеем соотвественно
левый фронтальный — LF, правый фронтальный — RF, левый задний — LB, правый
задний — RB сигналы, как и в случае квадрафонии. Эти сигналы могут быть получе-
ны также панорамированием сигналов от распределенных соответствующим образом
одиночных монофонических микрофонов.
Далее матрицированием получают четыре сигнала формата В вида
X = 0,5(LF − LB) + (RF − RB), Y = 0,5(LF − RB) + (RF − LB),
Z = 0,5(LF − LB) + (RB), W = 0,5(LF + LB + RF + RB).
Звуковые системы 145

Ðèñ. 2.82. Звуковая система Ambisonics: а — микрофонная система для формирования сигналов
формата А; б — то же самое, но для формирования сигналов формата B; в — внешний вид
микрофонной системы

Заметим, что сигналы формата В могут быть сформированы и непосредствен-


но системой микрофонов (рис. 2.82,б). В этом случае используются три микрофона
с характеристикой направленности типа «восьмерка», ориентированных в трех пер-
пендикулярных направлениях X, Y, Z, формируя соответствующие сигналы, и одного
ненаправленного микрофона, который выдает сигнал W.
Следующим этапом в системе Ambisonics является формирование сигналов фор-
мата С кодером UHJ (рис. 2.83,а), что обеспечивает совместимость данной системы
с монофонической и обычной двухканальной стереофонической системами, а также
с форматами DVD и CD. Сигналы формата С получаются из сигналов формата B
по правилу
F = 0,939W + 0,1856X; H = j(−0,342W + 0,5099X) + 0,6555Y;
T = j(−0,1432W + 0,6512X) − 0,7071Y; Q = 0,9772Z,

где j означает сдвиг по фазе сигнала на 90 .

Ðèñ. 2.83. Укрупненные структурные схемы кодера (а) и декодера (б) системы Ambisonics
146 Раздел 2

Последний этап обработки — это формирование сигналов формата D для подачи


на громкоговорители. В зависимости от выбранной конфигурации громкоговорителей
декодирование (рис. 2.83,б) может быть выполнено для четырех громкоговорителей,
для шести — с улучшенной пространственной локализацией и для восьми — с трех-
мерной пространственной локализацией (periphonic-система). Для декодирования ис-
пользуется специальная матрица и система фильтров, моделирующих дифракционные
свойства головы и ушных раковин слушателя. Наличие таких фильтров не только по-
вышает точность локализации, но и обеспечивает натуральность тембров звучания.
Кроме того, в состав декодера входит также дополнительная матрица, адаптирующая
систему к количеству громкоговорителей и способу их расположения в пространстве
относительно головы слушателя. Питание громкоговорителей может осуществлять-
ся и прямо сигналами формата В, но при этом требуется другой декодер. Декодеры
для данной звуковой системы выпускаются в настоящее время такими компаниями,
как Meridian, Cepiar and Cantara.
В 1992 г. М. Герзон предложил специальный декодер (Vienna Decoder) для деко-
дирования сигналов формата 5.1. В этой системе мы имеем попытку реконструкции
бинауральной пары сигналов, поступающих на уши слушателя при его расположении
в первичном помещении, и воссоздания тем самым при воспроизведении с помощью
ограниченного числа громкоговорителей ощущения первичного звучания. Иначе го-
воря, это попытка реконструкции в помещении прослушивания трехмерной структуры
первичного звукового поля в месте расположения слушателя. Задача крайне слож-
ная по многим причинам.
В настоящее время лицензионные пра-
ва на систему принадлежат английской
компании Nimbus Records (включая почти
400 патентов на различные элементы сис-
темы), которая выпустила уже достаточ-
ное количество музыкальных альбомов,
записанных с применением этой техноло-
гии. Кроме того, группа специалистов из
разных стран объединилась в компанию
под названием «Акустический ренессанс в
аудио» (ARA) с целью продвижения этой
технологии в DVD-Audio. Многие выдаю-
Ðèñ. 2.84. Расположение громко- щиеся артисты с помощью звукорежиссе-
говорителей в системе PerAmbio 3D ров — энтузиастов новой системы записа-
ли свои альбомы с использованием технологии Амбисоник за присущее ей с их точки
зрения высокое качество звучания. Процессорная обработка звука по этой системе
может существенно обогатить звучание сигналов обычной стереофонии, что исполь-
зуется в настоящее время на некоторых радиостанциях США.
Все же система Ambisonics не получила столь большого распространения, как
система формата 5.1. Над ее совершенствованием работают многие специалисты. В
качестве примера можно привести полученную на ее основе новую систему PerAmbio
3D (рис. 2.84), она прошла множество субъективных экспертиз, продемонстрирована
на конгрессах AES. Она действительно является одной из первых систем, создаю-
щей ощущение трехмерной звуковой панорамы. По сути дела это попытка синтеза
звукового поля вокруг (в зоне расположения) головы слушателя.
Звуковые системы 147

Технология Wave Field Synthesis


В настоящее время внимание исследователей привлекает идея формирования
трехмерного звукового поля концертного зала в помещении прослушивания или жи-
лой комнате слушателя. Это стало возможным благодаря появлению быстродейству-
ющих компьютеров и сигнальных процессоров. К числу таких реализаций относятся
звуковые системы Ambisonic и Wave Field Synthesis [2.30; 2.31].
Идея метода Wave Field Synthesis основана на принципе Гюйгенса (рис. 2.85,а).
Напомним, что звуковая волна — это перенос энергии механических колебаний частиц
воздушной среды из одной области пространства в другую, а волновой фронт — это
поверхность, на которой располагаются самые близкие по расстоянию частицы, ко-
леблющиеся в одной фазе. Если каждую такую частицу на фронте волны «заменить»
точечным источником звука, излучающим сферическую волну, то они в сумме дадут
такой же волновой фронт, который создавал бы в пространстве первичный источник
(рис. 2.85,б). Подобным образом можно формировать и поле мнимых источников
звука (рис. 2.85,в), представляющие собой либо отражения реального помещения,
либо виртуальные громкоговорители. Формируя оптимальное поле действительных и
мнимых источников звука для разных мест прослушивания (рис. 2.86), можно сущес-
твенно расширить и зону оптимального слушания.
Если записать распределение звукового давления и колебательной скорости ис-
точника звука в пространстве, а затем с помощью соответствующей пространственно
распределенной системы громкоговорителей воспроизвести эти сигналы во вторич-
ном помещении, то в последнем будет получена структура звукового поля, полностью
соответствующая структуре первичного поля (рис. 2.87,а и б). Заметим, что рассто-
яние между соседними громкоговорителями должно быть меньше половины длины

Ðèñ. 2.85. К идее синтеза волно-


вого звукового поля: а — к поясне-
нию принципа Гюйгенса; б — форми-
рование волнового поля действитель-
ного источника звука; в — формиро-
вание волнового поля мнимого источ-
ника звука

Ðèñ. 2.86. К расширению зоны оптимального слушания методом синтеза волнового поля
148 Раздел 2

Ðèñ. 2.87.Укрупненное представление системы WFS: а, б — кодирование и декодирование


информации о параметрах звукового поля; в — возможная реализация идеи

волны самого высокого звука в воспроизводимом сигнале. В этом правильно син-


тезированном поле для каждого места прослушивания сохраняется возможнось ло-
кализации источников звука в правильном направлении при перемещении слушателя,
высокая прозрачность и разделимость звучани, пространность восприятия, свойст-
венные естественному слушанию.
Практическая реализация данного принципа (рис. 2.87,в) наталкивается на опре-
деленные трудности. Во-первых, число громкоговорителей не может быть бесконеч-
но большим. Дискретность их расположения приводит к ограничению по частотному
диапазону сверху, так как при повышении частоты разница во времени между двумя
сигналами, прибывающими в данную точку поля от соседних громкоговорителей, соз-
дает дополнительные сложности из-за интерференции. В идеале поверхности записи
и излучения должна быть непрерывными, а не дискретными, состоящих из отдель-
ных, хотя и близко расположенных приемников звука и излучателей. Как показали
эксперименты, корректные результаты получаются при их расположении на рассто-
янии не более 0,125 м.
Итак, технология Wave Field Synthesis требует использования системы микрофо-
нов, распределенных в первичном звуковом поле, что позволяет записать и затем
воспроизвести во вторичном поле полную информацию о пространственных характе-
ристиках первичного пространства. Допустимо применение микрофонов типа Sound
Field (см. рис. 2.82) системы Ambisonics или микрофонов, расположенных по окруж-
ности. Микрофонов должно быть достаточно, как и громкоговорителей. Ранние и
поздние первые отражения и завешающий участок реверберационного процесса зала
можно синтезировать и с помощью устройств искусственной реверберации. Возмож-
на также организация записи оркестра и солиста с помощью нескольких микрофонов
и микширования в обычной многоканальной стереофонии при одновременной записи
звукового поля в помещении, пространственно распределенной системой микрофо-
нов. Затем в специальном WFS-синтезаторе выполняется процедура свертки этих
сигналов, и полученная в результате этой процедуры новая совокупность сигналов
излучается через распределенную систему громкоговорителей во вторичном помеще-
нии (рис. 2.87,в). Это дает стабильную картину распределения мнимых источников
Звуковые системы 149

при любом перемещении слушателей внутри помещения. Еще одним преимуществом


технологии WFS является способность создавать мнимые виртуальные источники в
любой плоскости внутри зоны прослушивания (тогда это будут виртуальные гром-
коговорители), а также обеспечивать их перемещение. Это эквивалентно созданию
мнимых громкоговорителей в любой точке пространства, размещая их по ширине,
глубине и высоте, наподобие того, как это выполняется в ряде бифонических процес-
соров. Технология Wave Field Synthesis может найти много применений, например в
кинотеатрах, где она способна обеспечить высокое качество пространственного звука
на большой площади слушательских мест, перемещение источников звука в прост-
ранстве при наличии соотвествующей процессорной обработки. При использовании
в системах типа «домашний кинотеатр» можно добиться (при соответствующих за-
писях) реально распределенного в трехмерном пространстве звучания, что совместно
с плоским экраном телевизора действительно создаст ощущения кинозала. При соз-
дании 3D-виртуальной реальности, используя WFS, можно совместить виртуальный
видеообраз со звуковым образом, поместив его в любую точку пространства. При
создании телеконференцсистем способность WFS создавать мнимый звуковой образ
в любой точке пространства важна для концентрации внимания слушателей. Ме-
тод WFS полезен при создании трехмерных компьютерных моделей различных залов
(техника аурализации).
Несомненно, новым толчком к развитию данной технологии послужило ее вклю-
чение в европейский междисциплинарный проект CARROUSO (for Creating, Assessing
and Rendering in Real-Time of high-quality aUdio-viSual envirOnment in MPEG-4 context).
Целью этого проекта, начатого еще в 2001 г., была разработка новых идей и техно-
логий, которые обеспечивали бы передачу трехмерного звукового поля из реального
или виртуального пространства в другое пространство с высоким качеством звука, ис-
пользуя для кодирования передаваемой совокупности сигналов алгоритмы стандарта
MPEG-4. В соответствии с этим проектом запись «живых» источников выполняется
с помощью системы микрофонов, обеспечивающих получение информации о звуко-
вом давлении и колебательной скорости для различных направлений прихода звуко-
вых волн. Одновременно производится запись видеоинформации. Затем записанные
сигналы подвергаются процессорной обработке, включающей эхо-подавление, дере-
верберацию, подавление шумов, выделение информации о движении источника и т. д.
После всех этих операций мы получим «сухой» звук, очищенный от всех возможных
наслоений, свойственных залу. Кроме того, записывается также информация, не-
обходимая для моделирования параметров первичного помещения. Это импульсные
отклики зала бинауральных пар сигналов для разных мест расположения слушателей,
необходимые для моделирования и аурализации параметров помещения. Полученная
информация обрабатывается с учетом новейших достижений и требований в психоа-
кустике в сеть субъективных параметров, формирующих общее впечатление о прос-
транственном восприятии с учетом параметров помещения. Затем она кодируется с
устранением избыточности, мультиплексируется и подготавливается для передачи по
сетям связи в соответствии с требованиями стандарта MPEG-4.
Разработанные в рамках проекта CARROUSO алгоритмы, программы и прибо-
ры для технологии Wave Field Synthesis открывают новые возможности для передачи
трехмерной аудио- и видеоинформации. Это позволяет, в конечном счете, перейти
к принципиально новому этапу развития радиовещания, кино, телевидении, систем
мультимедиа.
150 Раздел 2

Контрольные вопросы к главе 2


1. Назовите основные признаки качества звучания при естественном слушании.
2. Дайте классификацию звуковых систем и перечислите основные звуковые форматы.
3. Нарисуйте обобщенную структурную схему звуковой системы.
4. Поясните расположение громкоговорителей в основных звуковых системах.
5. Нарисуйте структурную схему обычной двухканальной стереофонической системы и поясните наз-
начение основных ее элементов.
6. Каково условие образования кажущегося источника звука?
7. Нарисуйте зависимости перемещения КИЗ для случая чисто интенсивностной стереофонии при
симметричном и асимметричном расположениях слушателя относительно громкоговорителей системы вос-
произведения.
8. Нарисуйте зависимости перемещения КИЗ для случая чисто временной стереофонии при сим-
метричном и асимметричном расположениях слушателя относительно громкоговорителей системы вос-
произведения.
9. Приведите пороговые значения временного сдвига сигналов, вызывающие разрыв КИЗ на два
действительных источника звука.
10. Что такое коэффициент эквивалентности? От каких факторов он зависит? Чему равно его зна-
чение?
11. Нарисуйте структурную схему установки для одновременного формирования нескольких кажу-
щихся источников звука.
12. Поясните работу корреляционной модели механизма локализации.
13. Что такое функция локализации и обостренная функция локализации, в каких случаях они при-
меняются?
14. Поясните основные особенности и области применения ассоциативной модели слуха.
15. Почему при стереовоспроизведении повышается прозрачность звучания?
16. Чем можно объяснить лучшую передачу акустической обстановки первичного помещения при
стереовоспроизведении? Естественность и богатство тембров инструментов и голосов?
17. Нарисуйте зону полного и частичного стереофонического эффекта.
18. Каковы особенности стереоамбиофонических звуковых систем?
19. Поясните особенности передачи пространственной информации в двухканальных системах повы-
шенного качества звучания.
20. Существует ли наилучшее с позиций слуха расположение громкоговорителей в помещении прос-
лушивания, если да, то приведите примеры с пояснениями?
21. Нарисуйте структурную схему адаптивного декодирующего устройства. В каких режимах оно мо-
жет работать?
22. Приведите структурную схему системы «ABC-стерео» и поясните особенности ее работы.
23. Приведите структурную схему системы «Суперфон-35» и поясните особенности ее работы.
24. Какие звуковые системы разработаны фирмой Dolby Lab?
25. Нарисуйте структурные схемы кодера и декодеров аналоговых систем Dolby.
26. Назовите основные отличия систем Dolby, DTS, SDDS.
27. Каковы плюсы и минусы бинауральных звуковых систем?
28. Приведите структурные схемы бифонических процессоров, системы Tradis.
29. Поясните особенности работы механизма локализации слуха?
30. Универсальный звуковой формат, что это такое?
31. Что представляют собой амбиофонические звуковые системы, когда они применяются?
32. Что представляет собой система Ambisonics?
33. Поясните особенности технологии Wave Field Synthesis.
34. Что такое дельта-стереофония?
3 Аналого-цифровое преобразование аудиосигналов

В зависимости от назначения и технических требований в современной аудио-


технике аналого-цифровое преобразование (АЦП) аудиосигналов осуществляется на
основе использования четырех видов модуляции: импульсно-кодовая модуляция с
равномерным квантованием (линейная ИКМ), импульсно-кодовая модуляция с не-
равномерным квантованием (с применением компандерных систем), дифференциа-
льная импульсно-кодовая модуляция (ИКМ с предсказанием), сигма-дельта модуля-
ция (SDM).
Для улучшения отношения сигнал/шум (SNR) часто также применяется адап-
тивное квантование.
Линейная ИКМ преимущественно используется в студийной технике звукозаписи,
в которой нет жестких ограничений в отношении допустимых скоростей цифровых по-
токов и главным является высокое качество преобразования. В такой технике обычно
применяются 22–24 разрядные АЦП с частотой дискретизации не ниже 48 кГц, сто-
имостью от 10 до 100 тысяч долларов.
Сигма-дельта модуляция является современным развитием ИКМ с предсказани-
ем. В настоящее время она большей частью используется в массовой аппаратуре
магнитной и оптической записи/воспроизведения звука, в которой главным крите-
рием качества является технологичность массового производства и цена изделия.
Число разрядов АЦП на основе этой модуляции не превышает 1–5 битов, но частота
дискретизации может достигать 10. . . 20 МГц, цена такого АЦП не превышает 1 дол-
лара. Аналого-цифровое преобразование на основе SDM быстро совершенствуется,
динамический диапазон расширяется до 100. . . 120 дБ, благодаря чему становится
возможным использовать его и в студийной технике.
Работа SDM основывается на двух принципах. Первый — уменьшение числа раз-
рядов в кодовом слове без ухудшения SNR за счет увеличения частоты дискретизации.
Второй — как следствие увеличение частоты Найквиста далеко за пределы звукового
диапазона и перенесение в эту область спектра шумов квантования. Это обеспечивает
высокое значение SNR в звуковом диапазоне даже при одноразрядном квантовании.
Компандерные системы и дифференциальная ИКМ, как правило, используются
в технике передачи звуковых сигналов по цифровым каналам связи, в которых глав-
ным является уменьшение скорости цифровых потоков. При этом речевой сигнал
передается с использованием 8-разрядного кодирования с частотой дискретизации
8 кГц при скорости цифрового потока 64 или 32 Кбит/с. При передаче вещательных
сигналов число разрядов увеличивается до 10–12 и частота дискретизации повыша-
ется до 22,05, 44,1 или 48 кГц. При этом скорость цифрового потока составляет
128 или 256 Кбит/с.
В компандерных системах для сокращения скорости цифрового потока на пере-
дающей стороне компрессор производит сжатие динамического диапазона звуковых
152 Раздел 3

сигналов, а на приемной стороне с помощью экспандера происходит восстановление


динамического диапазона. При этом сокращение скорости цифрового потока дости-
гается за счет неравномерного квантования, при котором чем выше уровень сигнала,
тем больше шаг квантования. При использовании дифференциальной ИКМ для сок-
ращения скорости цифрового потока кодируется и передается в тракт только разнос-
тный сигнал между текущим и предсказанным значениями звукового сигнала. Таким
образом в обеих системах снижение скорости цифрового потока достигается за счет
уменьшения статистической избыточности аудиосигналов. Поэтому такие способы
аналого-цифрового преобразования можно назвать статистическим компрессирова-
нием звуковых сигналов.
За последние 20. . . 30 лет в результате совершенствования технологии и принци-
пов цифровой звукозаписи плотность ее на оптических и магнитных дисках повыси-
лась во много раз и достигла значения 60 Мбит/мм2 . В настоящее время емкость
оптических дисков формата Blue-Ray составляет 50 Гбайт, близки к практической реа-
лизации голографическая и фотонная запись, которые обеспечивают емкость дисков
прежних размеров до 600. . . 800 Гбайт.
Благодаря этим достижениям при аналого-цифровом преобразовании звуковых
сигналов существенно упростились проблемы с возможностью повышения частоты
дискретизации и числа разрядов ИКМ преобразователей, не стало жестких ограниче-
ний в отношении времени записи и числа записываемых звуковых каналов. Однако
некоторые проблемы многоканальной записи пока остались. Скорость цифрового
потока, при которой длительность записи один час, составляет около 10 Мбит/с.
При этом без компрессирования 6-канальная запись аудиосигналов возможна только
в формате 24/48 кГц. С повышением частоты дискретизации до 192 кГц скорость
цифрового потока увеличивается в 4 раза до 27,5 Мбит/с, и приходится либо умень-
шать время записи в 4 раза или использовать сжатие цифрового потока без потерь
с коэффициентом компрессии около 2,7.
В каналах передачи цифровой звуковой информации проблем значительно боль-
ше. Частотный диапазон кабельных и эфирных линий передачи разделяется на поло-
сы, выделяемые пользователям. Число полос ограничено, поэтому каждый лишний
бит, расширяющий полосу передачи, стоит очень дорого. Именно поэтому в этой
области (радиовещание) и ведутся интенсивные разработки по сокращению скорости
цифровых потоков, часто в ущерб качеству.
В качестве основных критериев оценки качества методов аналого-цифрового пре-
образования в технической литературе до сих пор используются число битов и частота
дискретизации, чем выше их значения, тем вроде лучше должно быть качество зву-
кового сигнала. В какой-то мере это применимо к линейной ИКМ, но очень условно,
так как разработаны технологии повышения отношения сигнал-шум (SNR) без увели-
чения числа разрядов в кодовом слове, такие как Dithering, Noise Shaping, Super Bit
Mapping и другие. Увеличение числа разрядов имеет практический смысл только до
таких значений, при котором динамический диапазон сигналов начинает превышать
динамический диапазон канала передачи.
Возможно уменьшение числа разрядов без снижения качества за счет использо-
вания неравномерного квантования и устранения статистической избыточности зву-
ковых сигналов. Однобитовые АЦП на основе SDM могут иметь значительно лучшие
характеристики, чем многоразрядные АЦП на основе линейной ИКМ. Более реальной
оценкой качества является динамический диапазон или SNR. Так, у современных зву-
Аналого-цифровое преобразование аудиосигналов 153

ковых карт с 24-разрядным АЦП SNR не превышает 106 дБ, тогда как теоретически
он должен быть равен 144 дБ.
По теореме Котельникова достаточно, чтобы частота дискретизации сигнала пре-
вышала вдвое верхнюю границу звукового диапазона, поэтому теоретически для му-
зыкальных программ более чем достаточна частота дискретизации 44,1 кГц. Тем не
менее, в аудиотехнике ее увеличили сначала до 48, потом до 96 и 192 кГц, ожидается,
что даже в бытовой технике она достигнет значения 384 кГц. Возникает вопрос зачем.
С одной стороны, некоторые музыкальные инструменты имеют частотный диа-
пазон до 40 и даже до 100 кГц, и, возможно, в чем некоторые абсолютно уверены,
мы такие звуки воспринимаем. С другой стороны, повышение частоты дискретизации
технически реализуется достаточно просто. Более весомым аргументом является эко-
номическая сторона вопроса, значительно дешевле поднять частоту и сделать фильтр
низкой частоты 2–3 порядка, чем 7–11 порядка, причем с фильтром низкого порядка
звучание становится даже лучше.

3.1. ИКМ с равномерным квантованием


Функциональная схема ИКМ-модулятора
Аналого-цифровое и цифро-аналоговое преобразования (ЦАП) звуковых сигна-
лов в высококачественных цифровых трактах наиболее часто осуществляются на ос-
нове линейной импульсно-кодовой модуляции. Она отличается тем, что цифровое
преобразование звуковых сигналов (ЗС) малого и высокого уровней производится с
одинаковой абсолютной точностью. При этом обеспечивается пока наилучшее ка-
чество звучания, но достигается это за счет слишком высокой скорости цифрового
потока и дорогостоящей технологии изготовления АЦП и ЦАП.
Для преобразования ЗС в двоичный код выполняется его дискретизация, при ко-
торой с частотой дискретизации fs делаются очень короткие по времени выборки
(отсчеты), так чтобы за время их длительности ЗС не успевал существенно изме-
ниться. Эти выборки запоминаются на время, необходимое для преобразования их
в двоичный код. Частота дискретизации, в соответствии с теоремой Котельникова,
должна по крайней мере вдвое превышать максимальную частоту спектра звукового
сигнала Fmax : fs > 2Fmax .
Чем выше частота дискретизации и больше число разрядов, используемых для
кодирования отсчетов, тем лучше считается звучание при воспроизведении цифровой
записи музыкальных программ.
Функциональная схема ИКМ-модулятора схема приведена на рис. 3.1. В этой
схеме антиэлайзинговый фильтр нижних частот (АФНЧ) в соответствии с требова-
ниями теоремы Котельникова ограничивает спектр входного ЗС частотой Найквиста,
равной половине значения частоты дискретизации. Дискретизация осуществляется

Ðèñ. 3.1. Функциональная схема ИКМ-модулятора


154 Раздел 3

с помощью амплитудно-импульсной модуляции (АИМ). Линейный квантователь (ЛК)


и двоичный кодер осуществляют аналого-цифровое преобразование АИМ-сигнала,
при котором формируется последовательность двоичных q-разрядных кодовых слов с
частотой дискретизации fs . При этой операции устанавливается полярность выборки,
ее значение и осуществляется отсчет в двоичном коде. Оперативное запоминающее
устройство (ОЗУ) предназначено для формирования выходного цифрового сигнала
в канальном коде NRZ (Non Return to Zero). В этом коде осуществляется передача
двоичной информации между элементами цифровой схемотехники.
Антиэлайзинговая фильтрация в схеме модулятора
предназначена для исключения возможности перекры-
тия спектров звукового и АИМ сигналов. В спектре та-
кого сигнала около каждой гармоники частоты дискре-
тизации возникают верхняя и нижняя боковые полосы.
Ðèñ. 3.2. Перекры-
Огибающие спектров этих полос являются соответст-
тие АИМ спектров
венно прямым и зеркальным отражениями огибающей
спектра ЗС (рис. 3.2). Антиэлайзинговый ФНЧ подавляет все продукты модуляции
выше частоты Найквиста fN . В случае отсутствия АФНЧ и, когда он плохо спроекти-
рован, из-за перекрытия спектров невозможно восстановить исходный ЗС при ИКМ
демодуляции, в этом случае возникают очень сильные искажения.
Звуки речи и музыкальных инструментов не превышают частоты 15. . . 20 кГц.
Особая необходимость подавлять более высокие частоты возникает при использова-
нии в качестве источника музыкальных программ аналоговых магнитофонов, у ко-
торых вместе со звуком присутствует сигнал высокочастотного подмагничивания с
частотой 50. . . 250 кГц. Частоты выше 20 кГц могут быть также в шуме, синтетичес-
кой музыке и звуках, издаваемыми животными и птицами.
Для надежного подавления спектральных составляющих выше частоты Найк-
виста антиэлайзинговый ФНЧ должен иметь частоту среза несколько ниже частоты
Найквиста и очень сильно (не меньше 90 дБ) подавлять оставляющие спектра сигнала
на этой частоте. Обычно это эллиптические фильтры 7–9 порядков.
Высокая крутизна среза ФНЧ приводит к специфическим искажениям в виде
так называемого звона. Это связано с тем, что отклик на импульсное воздейст-
вие такого фильтра описывается осциллирующей функцией вида sinс(x). Чем вы-
ше крутизна среза AФНЧ, тем медленнее происходит затухание звуковых колебаний.
Единственным способом борьбы с этими искажениями является повышение частоты
дискретизации. Это позволяет уменьшить крутизну спада антиэлайзингового ФНЧ
без уменьшения эффективности подавления спектральных составляющих выше час-
тоты Найквиста.
Дискретизация заключается в преобразование аналогового аудиосигнала в дис-
кретную последовательность коротких выборок (отсчетов) положительной и отри-
цательной полярности длительностью τ . Такая операция выполняется с помощью
балансной АИМ. На один вход модулятора подается ЗС, а на второй — управляющий
сигнал, который представляет собой последовательность коротких импульсов с часто-
той дискретизации. На выходе модулятора формируется АИМ сигнал Ud (j) (рис. 3.3).
Чем меньше длительность выборки, тем более точно выполняется операция дискре-
тизации и меньше нелинейные искажения.
В устройстве выборки-хранения (УВХ), часто включаемой в состав дискретиза-
тора, значения выборок (отсчетов) запоминаются на время Ts и дискретные выборки
Аналого-цифровое преобразование аудиосигналов 155

Ðèñ. 3.3. АИМ сигнал на кратной частоте Ðèñ. 3.4. АИМ сигнал на субкратной частоте

Ud (j) преобразуются в аналоговый сигнал ступенчатой формы Udh (i). Аналоговая


память в УВХ реализуется с помощью конденсатора, заряд и разряд которого осу-
ществляется через управляемый ключ. В этом устройстве очень малая постоянная
времени заряда и очень большая постоянная времени разряда конденсатора.
АИМ сигнал является периодическим только при условии, что периоды звукового
сигнала TF сигнала дискретизации Ts находятся в целочисленном отношении, то есть
когда в x периодов ЗС укладывается точно y периодов сигнала дискретизации. Это
значит, что частота ЗС F всегда кратна или субкратна частоте дискретизации fs .
Коэффициент кратности этих частот определяется отношением простых чисел y/x:
TF fs y
k= = = > 2,
Ts F x
например, k = 3/1, 4/1, . . . . . . 5/2, 7/3, 9/4, . . . , 973/127 . . ..
Таким образом, если k целое число — частоты fs и F кратны, если дробное —
субкратны. Период АИМ сигнала Tm определяется равенством Tm = x/F . Это зна-
чит, что на субкратных частотах нижняя граничная частота спектра АИМ сигнала в
x раз ниже частоты ЗС. В качестве иллюстрации на рис. 3.4 приведен АИМ сигнал
с периодом, когда в нем укладывается 5 периодов ЗС и 11 периодов сигнала диск-
ретизации, при этом k = 11/5.
Таким образом, диапазон цифрового звукового сигнала разбивается на интерва-
лы между соседними кратными частотами. Кратных частот относительно мало, и при
частоте дискретизации 48 кГц величина k меняется от 2 до 2400, попеременно прини-
мая четные и нечетные значения. В верхней части звукового диапазона интервал меж-
ду кратными частотами равен 8000 Гц, но он быстро уменьшается с увеличением k, и
уже на частоте 1000 Гц этот интервал всего 20 Гц, что для слуха почти неразличимо.
В интервалах между кратными частотами размещаются множество субкратных
частот. Особенно много их в самом широком высокочастотном диапазоне от 16 до
24 кГц. Наиболее заметные искажения звучания определяются ошибками квантова-
ния именно на этих частотах.
На рис. 3.5 приведен график кратных и субкратных частот в частотном диапа-
зоне от 8 до 24 кГц. Из графика видно, интервал между соседними субкратными
частотами тем меньше, чем частота дальше от середины диапазона, в пределе этот
интервал стремится к нулю. Картина повторяется с увеличением значения k, но час-
тоты располагаются все плотнее.
При амплитудной модуляции расчетные формулы для сигналов и ошибок удобно
представлять в функции дискретного времени i, тогда аналитическое выражение для
156 Раздел 3

Ðèñ. 3.5. Распределение кратных и субкратных частот F (k) по звуковому диапазону

ЗС синусоидальной формы принимает вид


2π Am
U (i) = A sin(∆φi), ∆φ = ; A= ,
Kf Q
где ∆φ — изменение фазы синусоидального сигнала между выборками; A — норма-
лизованное значение амплитуды ЗС Am в квантах; Q — шаг квантования по уровню;
i = 0,1/h, . . . , y; h — число точек отсчета на интервале между выборками (отсче-
тами).
Дискретизированный сигнал задается только в моменты выборок, поэтому он
рассчитывается в соответствии с равенствами
Ud (j) = A sin(∆φj) или Ud (j) = A sin(∆φfloor (i)),
где j = 0, 1, 2, . . . , y, floor(·) — функция, равная целому значению числа в скобках.
Частота дискретизации имеет стандартные значения: для профессиональной ап-
паратуры — 48 кГц, для бытовой — 44,1 кГц. В последнее время для повышения
качества звучания такой аппаратуры стали использовать более высокие частоты дис-
кретизации, превышающие стандартные значения в 2 или 4 раза. Так, в формате
DVD-Audio предусмотрена возможность осуществлять запись с частотами дискре-
тизации 96 и 192 кГц.
Равномерное (линейное) квантование отсчетов ЗС осуществляется с помощью
линейной шкалы, разделенной на множество уровней квантования с одинаковым ша-
гом Q. В процессе квантования производится округление значений выборок до целого
значения шкалы квантования. При этом определяется полярность выборок и число
уровней квантования ЗС в десятичной форме Nq . Процесс квантования последова-
тельности выборок Ud (j) и возникновение ошибок квантования в моменты взятия
выборок поясняется на рис. 3.6.
Максимальное число уровней квантования шкалы для каждой полярности ЗС
Nq max зависит от числа разрядов в кодовом слове q:
Nq max = 2(q−1) , q > 1.
Чем больше q, тем на большее число уровней разбивается шкала квантования и тем
c большей точностью выполняется аналого-цифровое преобразование. Если задано
максимальное число уровней квантования Nq max , то необходимое число разрядов в
Аналого-цифровое преобразование аудиосигналов 157

Ðèñ. 3.6. Равномерное квантование отсчетов звукового сигнала: а — дискретизация и квантование;


б — мгновенные ошибки квантования

кодовом слове рассчитывается по формуле


q = log2 (Nq max ).
Величина шага квантования Q шкалы (в единицах напряжения: мВ, мкВ,. . . )
определяется максимально допустимой амплитудой входного сигнала Am max и мак-
симальным числом уровней шкалы квантования:
Am max
Q= .
Nq max
Входное напряжение квантователя не должно превышать значения Am max , в про-
тивном случае возникает перегрузка по входу и появляется отсечка сигнала (сверху и
снизу) в выходном сигнале ИКМ демодулятора и сильные искажения звука.
Важной характеристикой квантователя яв-
ляется его амплитудная характеристика, имею-
щая вид лестницы, у которой высота ступеней
равна шагу квантования Q. Возможны два вари-
анта ее реализации (рис. 3.7). Эти квантовате-
ли соответственно называются Mid-Tread и Mid-
Rizer, у обоих ошибка квантования не превышает
половины шага квантования. У первого кванто- Ðèñ. 3.7. Амплитудные характе-
вателя число уровней квантования всегда нечет- ристики линейного квантовате-
ное и существует порог квантования, равный 0,5 ля: a — Mid-tread; б — Mid-riser
кванта. Пока входной сигнал меньше этого поро-
га выходной сигнал отсутствует. У второго квантователя число уровней квантования
всегда четное, порог квантования отсутствует и исключены нулевые значения кодовых
выборок. При линейной ИКМ чаще используется квантователь вида Mid-Tread.
У квантователя вида Mid-Tread пока пиковое значение входного сигнала не превы-
шает 0,5 кванта, выходной сигнал равен нулю, т. е. имеет место центральная отсечка.
Это приводит к нелинейности преобразования и к возникновению больших искажений
при малых амплитудах ЗС. Пока значение A 6 1,5, выходной сигнал демодулятора
представляет собой последовательность прямоугольных импульсов, у которых с из-
менением уровня ЗС меняется длительность (рис. 3.8). Это обусловлено ошибками
квантования, которые соизмеримы с амплитудой входного сигнала. Искажения начи-
нают заметно уменьшаться только при A > 2.
158 Раздел 3

В ИКМ-модуляторе квантуется дискретизированный


сигнал в виде последовательности выборок (отсчетов ЗС).
Функция выходного сигнала квантователя Mid-Tread опреде-
ляется равенством
Udq (j) = floor [A sin(∆φj) + 0,5].
Ошибкой квантования называется разность между мг-
новенными значениями выходного и входного сигналов кван-
тователя в моменты выборок:
e(j) = floor [A sin(∆φj) + 0,5] − A sin(∆φj).
Двоичный кодер в схеме на рис. 3.1 определяет поляр-
ность выборки и осуществляет преобразование положитель-
ного десятичного значения уровня квантования в двоичное.
Это производится в соответствии с известными правилами
c подбором весовых коэффициентов или с помощью табли-
цы. Например, если q = 8 и Nq = 85, то это соответствует
Ðèñ. 3.8. Выходной двоичному числу a(x) = 1010101. Существуют несколько
сигнал демодулятора способов двоичного кодирования, но всегда старший разряд
в кодовом слове является знаковым и определяет его поляр-
Таблица 3.1 ность.
Двоичные коды Для примера в табл. 3.1 приведены два наи-
Десятичное Двоичный Двоичное более распространенных способа двоичного предс-
число сдвиг дополнение тавления положительных и отрицательных десятич-
+5 1101 0101 ных чисел, известные под названиями 2’s complemet
+4 1100 0100
+3 1011 0011
format (двоичное дополнение) и offset binary (двоич-
+2 1010 0010 ный сдвиг). В обоих форматах отрицательные деся-
+1 1001 0001 тичные значения преобразуются в двоичные инвер-
0 1000 0000
−1 0111 1111
сией положительной значащей части двоичной кодо-
−2 0110 1110 вого слова того же уровня и прибавления 1 в млад-
−3 0101 1101 шем разряде.
−4 0100 1100
−5 0011 1011
Оперативное ЗУ (ОЗУ) непосредственно отно-
сится к двоичному кодеру, являясь его элементом
цифровой памяти. Значения кодовых слов в двоичном виде вводятся в ОЗУ в парал-
лельном коде с частотой дискретизации и с этой же частотой выдаются на паралле-
льном выходе. С последовательного выхода двоичные данные поступают с тактовой
частотой fт на кодер коррекции ошибок или на вход мультиплексора в зависимости
от схемы построения цифрового тракта.
Вся цифровая схемотехника строится на передаче двоичных данных в виде двух
уровней сигнала — высокого и низкого. Первый соответствует логической «1», вто-
рой — логическому «0». Это значит, что выходной сигнал ОЗУ представляет собой
последовательность импульсов одной полярности с тактовой частотой fт = fs q.
Длительности импульсов и интервалы между ними кратны периоду тактовой час-
тоты. Переход от одного уровня к другому происходит только при изменении последо-
вательности двоичных данных, когда после 0 следует 1 или наоборот. Представление
двоичной последовательности в таком виде называется кодом NRZ. Запись цифро-
вого сигнала производится всегда с использованием самосинхронизирующегося ка-
нального кода.
Аналого-цифровое преобразование аудиосигналов 159

Реконструкция звуковых сигналов


На рис. 3.9 приведена функциональная схема ИКМ-демодулятора. Сигналы с
тактовой частотой fт и с частотой fs выделяются из канального кода и используются
затем для демодуляции. Входной сигнал в коде NRZ подается на ОЗУ демодулятора,
которое формирует последовательность q-разрядных кодовых слов в параллельном
двоичном коде с частотой дискретизации fs . Двоичный декодер восстанавливает
квантованные выборки (отсчеты) в виде положительных и отрицательных дискретных
значений Udec (j), Они имеют точно такой же вид, как и на выходе квантователя
модулятора и определяются равенством
Udec (j) = floor [A sin(∆φj) + 0,5].
УВХ осуществляет аппроксимацию сигнала двоичного декодера с помощью ин-
терполяции нулевого порядка. При такой интерполяции запоминаются значения вы-
борок Udec (j) на время от одной выборки до другой. В результате на выходе ИКМ
демодулятора (до ФНЧ) формируется непрерывный по времени ступенчатый сигнал
Udem (i). Математически реализация процесса интерполяции выполняется функцией
floor (·) в соответствии с равенством
Udem (i) = floor [A sin(∆φf loor(i)) + 0,5].
Аппроксимация предназначена для увеличения уровня спектральных составляю-
щих звукового диапазона и частичного подавления высокочастотных продуктов мо-
дуляции еще до ФНЧ и для ее осуществления может использоваться интерполяция
высоких порядков. Вместе с сигналом аппроксимируются и ошибки квантования, воз-
никшие в ИКМ модуляторе. Они становятся непрерывной функцией времени в виде
последовательности прямоугольных импульсов различной амплитуды и длительности,
расчетное соотношение для них принимает вид
eh (i) = Udem (i) − Udh (i).
Спектр такой последовательности ограничен частотой Найквиста, поэтому ошибки
квантования фильтром нижних частот на выходе демодулятора не ослабляются.
Спектры АИМ сигналов на входе и выходе демодулятора существенно отличаются
(рис. 3.10), так как передаточная функция УВХ демодулятора является частотно-
зависимой и определяется равенством
f Tsh
Kdem (η) = |µ sinc(πµη)|, η= , µ= ,
fs Ts
где η — нормализованная частота; Tsh — время удержания УВХ.
На рис. 3.10 приведены графики спектра широкополосного ЗС, рассчитанные с
использованием этой формулы при µ = 1. Из них видно, что УВХ вносит достаточ-
но сильные частотные искажения. На частотах выше частоты Найквиста амплитуда
побочных продуктов модуляции быстро затухает, и это упрощает требования к ФНЧ.
В то же время в звуковом диапазоне возникает спад высоких частот, который на час-

Ðèñ. 3.9. Функциональная схема ИКМ демодулятора


160 Раздел 3

Ðèñ. 3.10. Спектры АИМ сигналов на выходах дискретизатора и демодулятора

тоте Найквиста достигает значения −4 дБ. Поэтому после ФНЧ включают частотный
корректор, называемый аппертурным коррелятором, который компенсирует спад час-
тотной характеристики. К сожалению, этот корректор вносит существенные фазовые
искажения, ухудшающие качество звучания. Частотные искажения уменьшаются с
уменьшением времени удержания, но при этом сильно падает уровень ЗС.
ФНЧ на выходе демодулятора осуществляет демодуляцию ИКМ сигнала, при ко-
торой он подавляет высокочастотные продукты модуляции, лежащие выше частоты
Найквиста, и выделяет составляющие спектра в звуковом диапазоне частот. Для ре-
конструкции ЗС в аналоговой форме особой необходимости применения фильтра для
ослабления и подавления этих частот нет, так как на слух они не воспринимаются.
Однако необходимо учитывать, что последующие каскады усилителей на транзисто-
рах и акустическая аппаратура из-за неизбежной их нелинейности могут создавать
с их помощью комбинационные искажения, попадающие в полосу звуковых частот.
Если, например, частота дискретизации равна 44,1 кГц, а частота ЗС — 20 кГц, то
нижняя частота зеркального спектра 24,1 кГц может создавать хорошо слышимую
разностную частоту 4,1 кГц. По этой причине подавление выше частоты Найквиста
должно быть значительным, не меньше 40. . . 60 дБ.
Не очень высокие требования к ФНЧ ИКМ демодулятора обусловлены следую-
щими причинами: звуковые акустические системы имеют малую чувствительность
на высоких частотах, музыкальный сигнал с множеством обертонов создает зна-
чительную спектральную маскировку, переходные искажения порождают временное
маскирование.
В демодуляторе на вход ФНЧ с частотой дискретизации подаются квантованные
выборки ЗС в виде последовательности прямоугольных импульсов различной ампли-
туды и полярности. Выходной отклик идеального ФНЧ с частотой среза, равной час-
тоте Найквиста, при каждом импульсном воздействии описывается функцией sin x/x,
у которой пиковое значение равно амплитуде входного импульса (рис. 3.11), а затуха-
ющий колебательный процесс происходит с периодом дискретизации.

Ðèñ. 3.11. Реконструкция звуковых сигналов в ИКМ демодуляторе: а — одиночный импульс; б — вы-
борки с частотой дискретизации; в — функция sin x/x; г — выход ФНЧ
Аналого-цифровое преобразование аудиосигналов 161

В случае непрерывной последовательности выборок происходит перекрытие от-


кликов от отдельных выборок. При этом пиковое значение каждого отклика равно
амплитуде входного импульса и не зависит от соседних откликов. Значение восста-
новленного ЗС в каждой точке между выборками определяется суммой огромного
числа откликов, возникших как раньше, так и позже рассматриваемого момента вре-
мени. Особо большую роль при этом играют медленно затухающие колебания.
Реконструкция ЗС осуществляется ФНЧ по отдельным выборкам их интерпо-
ляцией. Для восстановления звукового сигнала с широким спектром от 20 Гц до
20 кГц необходимо накопление примерно 2000 выборок, а более точно оно опреде-
ляется известным равенством
Nвыб = Fmax /Fmin = 4000 выборок.
Это очень жесткий критерий. Считается, что для музыкальных программ при час-
тоте дискретизации 44100 Гц вполне достаточно 2200 выборок (отсчетов ЗС). Для
того чтобы обеспечивалось такое число интерполируемых выборок, время задержки
ФНЧ должно быть больше разности периодов граничных спектральных составляющих
широкополосного ЗС со спектром прямоугольной формы. В противном случае воз-
никают нелинейные интермодуляционных искажения, которые на слух проявляются в
виде диссонансов, «грохота» и «хвостов». Это значит, что для частотного диапазо-
на 20. . . 20000 Гц время задержки ФНЧ должно быть 50 мс. Для сигнала с полосой
от 10 Гц до 20 кГц время задержки фильтра должна быть уже 100 мс и т. д. Такие
фильтры создать очень сложно, поэтому надо ограничивать нижний диапазон частот.
Чем большее число отсчетов используется в реконструкции ЗС, тем ближе вос-
становленный сигнал к исходной форме. При этом восстанавливаются без ошибки
не только сами выборки, но все промежуточные значения между ними. Число точек,
по которым осуществляется восстановление звукового сигнала, определяется крутиз-
ной среза ФНЧ. Чем ближе реальный ФНЧ к идеальному фильтру с крутизной среза
близкой к бесконечности, тем больше время задержки сигнала в этом фильтре и тем
больше выборок связываются в этом фильтре друг с другом. Переходные процессы в
фильтре дополняют восстанавливаемый сигнал между значениями соседних выборок.
На практике время задержки ФНЧ, рассчитанного на пропускание спектра от
20 Гц до 20 кГц, составляет всего 5. . . 10 мс. Это значит, что при подаче цифрового
сигнала на вход ФНЧ ЗС на его выходе появится через указанное время. С такой
маленькой задержкой при формировании ЗС участвуют только 220. . . 440 выборок, и
в силу этого при реконструкции широкополосных музыкальных сигналах неизбежно
возникают нелинейные искажения.
В современной аппаратуре для реконструкции ЗС в аналоговой форме ФНЧ с
катушками индуктивности и конденсаторами, а также активные транзисторные RC-
фильтры практически не применяются. Для этих целей более целесообразно исполь-
зовать цифровые интерполяторы 15–16 порядка и вычислять значения выходного
сигнала по формуле из теоремы Котельникова
j∑
max
Uфнч (i) = Udem (j) sinc[(i − j)π],
j=0

где jmax — число выборок, по которым производится интерполяция. По этой формуле


правильно рассчитываются значения ЗС не только в моменты выборок, но и во всех
162 Раздел 3

точках между выборками. В обоих случаях требуется высокоскоростной процессор


и достаточно большая память.
Спектр ошибок округления
Для расчета спектра ошибок квантования обычно применяется быстрое преобра-
зование Фурье квантованного сигнала на выходе интерполятора ИКМ демодулятора.
Когда основным интересом является исследование звучания ошибок квантования,
более важным становится сам процесс формирования этого спектра. Поэтому для
расчета спектра воспользуемся особым математическим приемом, который заключа-
ется в изменении порядка выполнения математических операций в ИКМ модуляторе.
Для этого в схеме модулятора квантователь переносится на место перед амплитудно-
импульсным модулятором.
При таком подходе на входе квантователя
действует синусоидальный входной сигнал. Его
выходной сигнал Ur (i) представляет собой сту-
пенчатую функцию времени (рис. 3.12). Вы-
сота всех ступенек равна шагу квантования и
не зависит от скорости изменения ЗС, а вот
их ширина от этой скорости зависит. Чем ско-
рость изменения ЗС выше, тем меньше ширина
ступенек. Аналитически квантованный сигнал
Ðèñ. 3.12. Квантование синусоида-
записывается в виде
льного сигнала и ошибки округления
Ur (i) = floor [A sin(∆φi) + 0,5].
Разность между входным и выходным сиг-
налами квантователя формально является
ошибкой квантования, так ее и называют в бо-
льшинстве публикаций по аудиотехнике. Одна-
ко эта ошибка является результатом выполне-
ния только одной операции — квантования, по-
этому ее спектр не ограничен сверху частотой
Найквиста. Интересующая нас ошибка кван-
тования всегда является результатом выпол-
нения двух операций: квантования и дискрети-
зации. Чтобы не создавалась путаница в наз-
ваниях будем называть ошибку, возникающую
только при квантовании синусоидального сиг-
нала, ошибкой округления и обозначать ее как
Ðèñ. 3.13. Функции ошибок округления
er (i). Это более соответствует ее физической
природе. Ошибка округления рассчитывается по формуле
er (i) = Ur (i) − U (i).
Из графиков рис. 3.13 видно, что ошибки округления являются периодически-
ми непрерывными функциями времени. Форма сигнала ошибки в пределах периода
имеет вид детерминированной последовательности пилообразных импульсов с раз-
махом, равным шагу квантования A, независимо от амплитуды ЗС. Длительность,
форма и частота повторения импульсов меняются в пределах периода, так как они
зависят от крутизны синусоидального входного сигнала в функции времени. Период
Аналого-цифровое преобразование аудиосигналов 163

повторения ошибок округления быстро уменьшается с увеличением A. Из приведен-


ных графиков следует, что спектр гармоник ошибок квантования ограничен номером
гармоники, у которой амплитуда максимальная. Эта гармоника грубо определяется
числом импульсов ошибок квантования за период ЗС. Чем больше значение A, тем
выше номер этой гармоники v(Av max ). При A > 2 этот номер рассчитывается по
приближенной формуле
v(Av max ) ≈ 2πA.
Суммарная мощность ошибок округления Pr зависит только от шага квантова-
ния Q:
Pr = Q2 /12.
Функция ошибок округления периодическая и симметричная относительно оси
времени, поэтому спектр ошибок округления дискретный в виде нечетных гармоник
сигнала ошибок округления. Это позволяет расчитывать спектр гармоник с помощью
БПФ (fft) по формуле

S(v) = 2 fft (er (i))/ m,
где m = 2x n, n — число рассчитываемых гармоник спектра в виде 2y , m — чис-
ло точек отсчета на период ЗС, i = 0, 1, . . . , m − 1. Чем больше m, тем большее
число гармоник может быть вычислено. Чем больше значение переменной x, тем вы-
ше точность вычисления гармоник. Для перехода к частотному спектру достаточно
изменить масштаб по оси абсцисс, заменив номера гармоник v частотой F (v) = vF .
На графиках рис. 3.14 по оси ординат определяется амплитуда гармоник ошибок
округления в квантах, а по оси абсцисс — номера гармоник. Из приведенных графиков
видно, что в спектре ошибок округления имеется составляющая первой гармоники.
При минимально возможной амплитуде ЗС A = 0,51 максимум спектра совпа-
дает с первой гармоникой ошибок округления и спектр быстро сходится. При даль-
нейшем увеличении A максимальные значения составляющих спектра уменьшаются
и смещаются все к более высоким гармоникам в соответствии с приведенным выше
равенством. Амплитуды гармоник выше номера v(Av max ) резко уменьшаются в 2. . . 4
раза и образуют равномерный спектр. Приведенные графики справедливы в равной
мере как при 8-, так и 16-разрядном квантовании, когда амплитуды сигналов и оши-
бок выражаются в квантах. При использовании логарифмического масштаба по оси
ординат вид графиков будет совершенной иной.

Ðèñ. 3.14. Спектры ошибок округления


164 Раздел 3

Спектр ошибок квантования форми-


руется в процессе дискретизации кванто-
ванного ЗС. При выполнении этой опе-
рации осуществляется балансная модуля-
ция, при которой дискретизируются как
ЗС, так и ошибки округления, преобразу-
ясь в ошибки квантования, как это показа-
но на рис. 3.15. Мощности ошибок кван-
тования и округления одинаковые, но их
Ðèñ. 3.15. Дискретизация ошибок округления
спектры совершенно различные.
В спектр АИМ сигнала, прежде всего, входят нечетные гармоники спектра ошибок
округления v, попадающие в полосу частот до частоты Найквиста fN . Их число может
быть несколько тысяч, и спектр простираться до 3. . . 5 МГц.
В результате модуляции при каждой гармонике частоты дискретизации образу-
ются верхняя и нижняя боковые полосы. Верхние боковые полосы являются прямым,
а нижние — зеркальным отображением спектра ошибок округления. Мощности ком-
понент спектра во всех полосах равны мощности ошибок округления.
Необычность формирования спектра ошибок квантования заключается в том,
что ширина спектра модулирующего сигнала во много раз превышает частоту диск-
ретизации. Поэтому составляющие спектра нижних боковых полос попадают в об-
ласть отрицательных значений (рис. 3.16). Физически это означает, что происходит
отражение спектров нижних боковых полос от нулевой частоты и отрицательные зна-
чения частот становятся положительными.
Гармоники ошибок округления, частота которых не превышает частоту Найквис-
та, образуют прямой спектр ошибок квантования. Все гармоники выше fN попадают
в звуковой диапазон в виде продуктов модуляции
f∆ = sfs − vF.
Эти продукты имеют знак плюс, если sfs − fN 6 v 6 sfs , и знак минус, если
sfs 6 vF 6 sfs + fN .
Сказанное поясним на частном простом примере кратных частот, когда частота
звукового сигнала F = 1 кГц и частота дискретизации fs = 48 кГц. В этом случае
в звуковой диапазон попадают гармоники ошибок округления с 1 по 23, образующие
прямой спектр. Гармоники с 25 по 47 попадают в этот же диапазон как продукты
модуляции нижней боковой полосы 1 порядка, они создают частоты от 23 до 1 кГц
с интервалом 1 кГц, гармоники с 49 по 71 преобразуются в такие же частоты, но
с отрицательным знаком. Аналогичные преобразования происходят с гармониками

Ðèñ. 3.16. Формирование спектра ошибок квантования


Аналого-цифровое преобразование аудиосигналов 165

выше 71 в нижних боковых полосах 2 и более высокого порядков и т. д.. Суммирование


составляющих спектра происходит с учетом фазы каждой гармоники. Если частоты
fs и F не кратны, то при небольшом отклонении частоты ЗС от кратного значения
каждая гармоника сигнала ошибок округления создает в звуковом диапазоне свою
составляющую спектра.
Все вместе продукты модуляции в звуковом диапазоне частот формируют так
называемый зеркальный спектр. Сумма спектральных компонент прямого и всех зер-
кальных спектров нижних боковых полос в области звукового диапазона является
спектром ошибок квантования. В него всегда входят все гармоники ошибок округ-
ления в виде продуктов модуляции. Так как зеркальные частоты могут совпадать
по частоте между собой и с составляющими прямого спектра, то суммарная мощ-
ность спектральных составляющих может быть существенно меньше, чем мощность
ошибок округления.
Прямой спектр определяется на основе комплексного спектра ошибок округления

Sf r (v) = 2 fft (er )/ m,
где v = 1, 2, . . . , vmax ; vmax — максимальный нечетный номер гармоники ЗС в по-
лосе до частоты Найквиста; m — число точек отсчета за период ЗС. Этот номер
рассчитывается с использованием булевой алгебры:
{
α, если mantissa(α) ̸= 0;
vmax =
α − 1, если mantissa(α) = 0,
где α = floor (fs /2F ); mantissa(α) = α/2 − floor (α/2).
Составляющие зеркального спектра рассчитываются также на основе спектра
ошибок округления

Sf r (v) = 2 fft (er )/ m,
где v = (vmax + 2), (vmax + 4), . . . , (2n − 1); n — число рассчитываемых гармоник.
Частоты этих составляющих в звуковом диапазоне определяются равенством
F (v) = |γs (v)fs − F (v)|,
где γs (v) = round [F (v)/fs ] — порядковый номер гармоники частоты дискретизации.
Приведенные формулы позволяют рассчитывать частотный состав спектра оши-
бок квантования даже при отклонении ЗС от кратной частоты на доли герца.
К основным параметрам гармонического спектра относится нижняя граничная
частота Fn (x) и интервал между составляющими dF . В общем случае, когда часто-
ты fs и F субкратны и отношение этих частот может быть представляется простой
дробью y/x, период амплитудно-модулированного сигнала после дискретизации в x
раз больше периода ЗС. Из этого следует, что нижнюю граничную частоту спектра
ошибок квантования можно представить в виде Fn (x) = F/x.
Посередине каждого интервала между кратными частотами субкратная часто-
та имеет максимальный порядок x = 2. В обе стороны от этого значения порядок
субкратности увеличивается, стремясь к бесконечности вблизи кратных частот. Ниж-
няя граница спектра ошибок квантования на этих частотах максимальна и она уме-
ньшается в обе стороны от середины до нулевого значения вблизи кратных частотах
(рис. 3.17). Иногда эта частота является основным тоном звука ошибок квантования.
Обычно при отклонении частоты ЗС возникает низкочастотный звук, основной
тон которого прямо пропорционален отклонению ∆F . Высота основного тона этого
166 Раздел 3

Ðèñ. 3.17. Зависимость частоты основного тона ошибок квантования от частоты ЗС

звука определяется равенством


Ft = |∆Fkr |ykr ,
где ykr — значение числителя коэффициента k на кратной (субкратной) частоте;
∆Fkr — отклонение от кратной (субкратной частоты). Из этого равенства следует,
что чем больше значение ykr (ниже частота ЗС), тем быстрее увеличивается высота
тона отклонения. Такой же звук возникает и при отклонении от субкратных частот.
Частота Ft всегда кратна или равна нижней граничной частоте спектра Fn (x).
В спектре ошибок округления присутствуют только нечетные гармоники, так как
функция ошибок округления всегда четная. Функция ошибок квантования может
быть как четной, так и нечетной в зависимости от значения y коэффициента крат-
ности.
На рис. 3.18 приведены четыре временные диаграммы функций ошибок кванто-
вания c разными коэффициентами кратности k. Из графиков видно, что функции с
четным значением y обладают симметрией 1-го рода, а у функций с нечетным зна-
чением y — симметрия 2-го рода. Это значит, что если y число четное, то в спектре
ошибок квантования кратных частот будут только нечетные гармоники частоты ЗС.
Если же y число нечетное, то будут как четные, так и нечетные гармоники. Отличие
для субкратных частот в том, что это будут гармоники не частоты ЗС, а граничной
частоты спектра гармоник Fn (x), а частота ЗС при этом будет одной из гармоник.

Ðèñ. 3.18. Функции ошибок квантования с разными коэффициентами кратности k


Аналого-цифровое преобразование аудиосигналов 167

Ðèñ. 3.19. Спектры ошибок квантования на кратных частотах ЗС

Ðèñ. 3.20. Спектры ошибок квантования на субкратных частотах ЗС

Спектр ошибок квантования всегда линейчатый, а частотный интервал между


составляющими спектра для кратных и субкратных частот
{
Fn (x), если y нечетное;
dF =
2Fn (x), если y четное.
Это иллюстрируется графиками спектров ошибок квантования при четных и нечетных
значениях y, приведенными на рис. 3.19 и 3.20.
На этих графиках квадратиками обозначены нечетные гармоники прямого спек-
тра ошибок квантования, а кружочками— спектральные составляющие зеркального
спектра. Как видно, спектр ошибок квантования на кратных частотах состоит только
из гармоник ЗС и все составляющие зеркального спектра совпадают с гармониками
прямого спектра. Если y четное, то в спектре присутствуют только нечетные гар-
моники, если нечетное, то в спектре появляются четные гармоники ЗС и, что очень
важно, составляющая на нулевой частоте. Все они порождаются только зеркаль-
ным спектром.
На субкратных частотах в спектре возникают составляющие ниже частоты ЗС и
спектр становится гармоническим по отношению к нижней граничной частоте. При
этом Fn (x) рассматривается как частота основного тона, а ее гармоники — как обер-
тона, которые создают своеобразную окраску звука и тембр их звучания зависит от
характера огибающей спектра гармоник. В этом созвучии высшие гармоники могут
значительно превышать уровень нижней граничной частоты. Слух определяет час-
тоту основного тона независимо от того, есть четные гармоники или нет. Однако
это возможно, если число гармоник не менее 5–6. Если их меньше, то они воспри-
нимаются как отдельные звуки.
Из приведенного анализа следует, что частотный состав спектра ошибок кван-
тования однозначно определяется коэффициентом кратности, а составляющие этого
спектра также однозначно определяются амплитудой ЗС в квантах. Таким образом,
графики спектров (см. рис. 3.19 и 3.20) в равной мере справедливы как при 8-, так и
16-разрядном квантовании, так как все составляющие выражены в квантах.
Эти же графики будут совершенно иными, если спектры, как это принято, пред-
ставлять в логарифмической шкале по оси ординат относительно нулевого электри-
168 Раздел 3

ческого уровня (шкала FSdB). В этом случае спектры ошибок квантования при 8
и 16-разрядном квантовании будут одинаковы при существенно разных уровнях ЗС
L(8 бит) и L(16 бит). Связь этих уровней квантования описывается равенством
L(16 бит) = L(8 бит) − 48, дБ.
Из этой формулы следует, что по отношению сигнал/шум и спектру ошибок
квантования уровень −48 дБ 16-разрядного цифрового звука соответствует нулево-
му уровню 8-разрядного звука. Это значит, что ниже уровня −48 дБ 16-разрядный
звук воспринимается как 8-разрядный со свойственными ему проблемами с ошибками
квантования. Однако крайне неприятному 8-разрядному звуку с уровнем ЗС −30 дБ
соответствует 16-разрядный звук с уровнем ЗС уже −78 дБ, и, следовательно, ошибки
квантования проявляются только на очень тихой музыке, близкой к порогу слыши-
мости. Важно, что частотная характеристика слуха очень сильно зависит от уровня
звукового давления, поэтому одинаковые спектры субъективно воспринимаются со-
вершенно по разному и часто они вообще не слышны.
Таким образом, механизм формирования и изменения спектра ошибок квантова-
ния в зависимости от различных факторов не зависит от числа используемых разря-
дов. На этом основании измерение спектров ошибок квантования и прослушивание
проводились только при 8-разрядном квантовании.
Особо важно как изменяется спектр и звук ошибок квантования, когда частота
цифрового звукового сигнала отклоняется от кратного значения на небольшую вели-
чину ±∆F от 0 до 50 Гц. Если это происходит с аналоговым сигналом, то на слух
это заметить трудно. В случае цифрового звукового сигнала около всех гармоник,
включая нулевую, возникают боковые полосы спектральных компонент зеркального
спектра с частотным интервалом dF (рис. 3.21). При малом отклонении они быстро
затухают, с увеличением отклонения полосы начинают перекрываться и спектр стано-
вится более равномерным. Составляющие спектра тона отклонения Ft максимальны
вблизи всех гармоник спектра.
Если, например, F = 3211 Гц, то k = fs /F = 48000/3211, x = 3211,
Fn (x) = F/x = 1 Гц, ∆F = 11 Гц, Ft = ykr ∆F = 15 · 11 = 165 Гц, и, следовательно,
спектр состоит из нечетных гармоник Fn (x) с интервалом 2 Гц и нечетных гармоник
тона отклонения с интервалом 330 Гц (рис. 3.21). Причем амплитуды гармоник тона
отклонения на 20. . . 40 дБ больше других составляющих спектра, поэтому они хорошо
видны на графике спектра и должны быть слышны. Таким образом, в приведенном
примере звук ошибок квантования порождается очень низкочастотными биениями
нечетных гармоник нижней граничной частоты спектра и биениями гармоник тона
отклонения. Низкочастотные биения на слух воспринимаются как рокот с большим
числом неприятных обертонов. Звучание нечетных гармоник тона отклонения ближе
к созвучию. На слуховое восприятие этих биений сильное влияние оказывает частот-
ная маскировка, которая на высоких и низких частотах ЗС проявляется по-разному.

Ðèñ. 3.21. Спектры ошибок квантования при отклонении частоты ЗС от кратного значения
Аналого-цифровое преобразование аудиосигналов 169

Ðèñ. 3.22. Спектры ошибок квантования при откло- Ðèñ. 3.23. Огибающие сигналов квантован-
нении от кратной частоты звукового сигнала 16 кГц ных выборок (отсчетов) и ошибок квантования

Зависимость формы огибающей спектра ошибок квантования от величины ∆F


иллюстрируется на рис. 3.22. При кратной частоте ЗС равной 16 кГц с уровнем
−30 дБ в спектре все составляющие зеркального спектра имеют частоту 16 кГц, по-
этому при 8-разрядном квантовании измеренное значение SNR составляет 146 дБ.
При отклонении от кратного значения в спектре появляются все составляющие зер-
кального спектра и значение SNR уменьшается до своего теоретического значения
около 18 дБ независимо от отклонения.
Как видно из графиков, пока отклонение мало, могут быть слышны, причем сла-
бо, только очень низкие частоты и их гармоники. С увеличением ∆F спектр вы-
равнивается и увеличиваются амплитуды составляющих спектра, особенно в области
максимальной слышимости. Это связано с увеличением частоты тона отклонения и
интервалов между его гармониками. Так, при ∆F = 10 Гц составляющие спектра в
этом диапазоне возрастают на 30. . . 40 дБ. Это значит, что с увеличением отклонения
возрастает громкость звучания ошибок квантования.
Возникновение НЧ составляющих спектра при отклонении от кратных и субкрат-
ных частот вызывает ощущение не чистого, крайне неприятного звука, так как при
этом искажается и временная структура сигнала ошибок квантования. При неболь-
шом отклонении от кратных частот в сигнале на выходе ИКМ демодулятора всегда
появляется огибающая по форме близкая к квантованной полусинусоиде с периодом
равным 1/Ft (рис. 3.23), по форме напоминающая амплитудную модуляцию. Глубина
этой «модуляции» достигает 100 % при k = 2, далее она медленно уменьшается с
увеличением значения k. Ее возникновение связано с биениями составляющих спек-
тра вблизи кратной частоты. Эти биения создают амплитудную модуляцию сигнала
ошибок квантования, которая хорошо заметна на слух.
На рис. 3.23 приведены выходной сигнал ИКМ демодулятора и сигнал ошибок
квантования, увеличенный в A раз при отклонении ЗС от частоты 12 кГц на 20 Гц.
Как видно, периодичность огибаюшей АИМ сигнала передается на функции ошибок
квантования и, следовательно, на ее спектр. Благодаря частотной фильтрации амп-
литудные искажения огибающей синусоидального ЗС на выходе ФНЧ демодулятора
устраняются во всем звуковом диапазоне частот, а зависимость огибающей сигнала
ошибок квантования от коэффициента кратности остается.
Рассматривая спектры ошибок квантования, необходимо хотя бы кратко оста-
новится на их зависимости от числа используемых разрядов и уровня аудиосигнала.
Если ограничиться увеличением числа разрядов от 8 и выше, то с достаточной точ-
ностью можно считать, что с каждым дополнительным разрядом все составляющие
170 Раздел 3

Ðèñ. 3.24. Спектры ошибок квантования при различных уровнях звукового сигнала

спектра ошибок квантования одинаково уменьшаются на 6 дБ. Это значит, что уже
при 16 разрядах в большей части звукового диапазона они будут лежать ниже абсо-
лютного порога слышимости.
Зависимость спектра ошибок квантования от амплитуды ЗС на кратных и субк-
ратных частотах проявляется в том, что одни составляющие спектра могут увеличи-
ваться, а другие уменьшаться на несколько децибел или вообще исчезать. Так как
составляющих много, это приводит к не очень заметному изменению громкости и
тембра звучания ошибок квантования.
Эта зависимость выражена значительно сильнее, когда спектр ошибок квантова-
ния является почти сплошным и число составляющих спектра очень велико. Из гра-
фиков, представленных на рис. 3.24, создается иллюзия, что интегральная мощность
шума квантования становится больше с увеличением уровня ЗС, что противоречит
теории. На самом деле измеренные значения SNR мало отличаются от расчетных,
определяемых равенством SNR = 6,02q + 1,76 − L, где q — число разрядов, L —
уровень аудиосигнала в дБ.
Этот любопытный феномен объясняется тем, что с увеличением уровня звуково-
го сигнала расширяется спектр ошибок округления и число составляющих зеркального
спектра в звуковом диапазоне увеличивается. Однако они все когерентны уже имею-
щимся составляющим, поэтому происходит не энергетическое суммирование, а алгеб-
раическое, с учетом фаз. В результате происходит усиление одних составляющих и
ослабление других. Общая мощность ошибок квантования при этом не меняется. Так
как увеличение уровня составляющих спектра достигает 25. . . 30 дБ, громкость звука
ошибок квантования становится существенно больше. Аналогичные преобразования
спектра ошибок квантования происходят и при 16-разрядном кодировании, когда ам-
плитуда ЗС составляет 1. . . 10 квантов, что соответствует уровням ниже −70 дБ.
Звучание ошибок квантования
Характер звучания ошибок квантования можно уверенно оценить только при от-
носительно грубом 8-разрядном квантовании, при котором абсолютный порог слыши-
мости меньше влияет на результаты прослушивания. При этом ошибки квантования
слышны почти во всем звуковом диапазоне и вызываемые ими искажения замечают
даже не подготовленные слушатели.
На кратных частотах звучание ошибок квантования в большинстве случаев вооб-
ще незаметно или проявляется только в изменении тембра. На высоких частотах 16 и
12 кГц, у которых в звуковом диапазоне нет никаких гармоник, естественно, ошибки
квантования не слышны. В диапазоне частот от 2 до 9,6 кГц 2–3 гармоники попадают
Аналого-цифровое преобразование аудиосигналов 171

в область с высоким абсолютным поро-


гом слышимости, поэтому ошибки кван-
тования тоже не слышны. В этом диа-
пазоне на частотах 2 и 3,2 кГц дополни-
тельно имеет место еще частотная мас-
кировка ближайших гармоник.
На ЗС с частотой 1 кГц почти все
гармоники находятся выше абсолютно-
го порога слышимости (рис. 3.25). При
уровне ЗС −30 дБ они слышны в ви-
де свистящего звука, но с увеличени-
Ðèñ. 3.25. Спектр ошибок кван-
ем уровня ЗС начинает действовать эф- тования на кратной частоте 1 кГц
фект частотной маскировки. На часто-
тах 500, 100 и 50 Гц большая часть гармоник попадает в область максимальной слы-
шимости слуха от 2 до 5 кГц. Они создают приятно звучащее созвучие, в котором
обертона звучат громче, чем основной тон.
При небольшом отклонении частоты цифрового звука от кратного значения всег-
да возникает низкочастотный тон отклонения, который особо заметен на высоких
частотах при нечетных значениях ykr . Это связано с возникновением боковых полос
из гармоник тона отклонения около всех гармоник ЗС, включая нулевую. В качест-
ве примера на рис. 3.26,а приведены спектры ошибок квантования при отклонении от
кратных частот ЗС 12 и 16 кГц на 3 Гц. Как видно, при частоте ЗС 16 кГц составляю-
щие спектра вблизи нулевой частоты на 30. . . 40 дБ выше, чем при частоте ЗС 12 кГц,
поэтому громкость их звучания выше. Из спектра в области низких частот, приве-
денного на рис. 3.26,б, следует, что слышны нечетные гармоники тона отклонения.
При частоте ЗС 12 кГц в спектре вблизи нулевой частоты нет гармоник тона отклоне-
ния и звук ошибок квантования определяется биениями гармоник нижней граничной
частоты спектра Fn (x). Звук крайне неприятный.
Звук тона отклонения определяется и биениями его гармоник около частоты ЗС
и его гармоник. Однако низкочастотные биения слышны только при условии, если
хорошо слышны сами частоты, которые создают биения. Это происходит только при
частотах ЗС ниже 5. . . 6 кГц.
Пока отклонение ∆F от частоты 16 кГц (k = 3/1) не превышает 0,03. . . 5 Гц,
слышны периодические сухие щелчки, выше — биения в виде глухого рокота, а на-
чиная с ∆F = 50 Гц — звонкое созвучие с основным тоном Ft , причем, чем больше
отклонение, тем уровень громкости звука выше. Это связано с тем, что с увеличением
∆F гармоники тона отклонения перемещаются в область максимальной слышимости.

Ðèñ. 3.26. Спектры ошибок квантования при отклонении частоты ЗС от кратного значения:
а — в области высоких частот; б — в области низких частот
172 Раздел 3

Ðèñ. 3.27.Спектры ошибок квантования на субкратных частотах:


а — F = 20 кГц, k = 24/5; б — F = 19,8 кГц, k = 80/33

Эффект меньшей громкости звучания ошибок квантования при небольших от-


клонениях от кратных частот с четным значением y имеет место и на всех более
низких кратных частотах, но он не так сильно выражен. Это связано с тем, что звук
тона отклонения порождается биениями гармоник около гармоник ЗС ниже частоты
5. . . 6 кГц. Начиная с 3 кГц, звук отклонения становится все менее заметным на слух
и на частотах меньше 1000 Гц из-за маскировки его практически не слышно.
На субкратных частотах в спектре ошибок квантования возникают составляющие
ниже частоты ЗС, которые обычно воспринимаются на слух как тональный призвук.
Это особо проявляется на высоких частотах с малым порядком субкратности, как,
например, на частоте 20 кГц (рис. 3.27,а), когда вместо ЗС слышен только призвук
с частотой 4 кГц. Объясняется это тем, что основной тон созвучия определяется
на слух при числе нечетных гармоник не менее 5–6. Если их меньше, то они восп-
ринимаются как отдельные частоты.
Если значение x достаточно велико, спектр ошибок квантования на высоких час-
тотах простирается вниз до очень низких частот и тогда возникает призвук в виде
созвучия с частотой основного тона Fn (x) (рис. 3.27,б), гармоники этой частоты
определяют тембр созвучия. На более низких частотах призвуки маскируются ЗС.
На субкратных частотах незаметны различия в звучании ошибок квантования при
четном и нечетном значении y.
При небольшом отклонении частоты цифрового звукового сигнала от любого
субкратного значения происходит расширение спектра, резко увеличивается число
его составляющих и всегда возникает низкочастотный звук, также как этот имеет
место при отклонении ЗС от кратного значения. При этом звучание ошибок кван-
тования также зависит от значения y коэффициента кратности (четное он имеет
значение или нечетное).
Главное отличие, оказывающее влияние на звучание ошибок квантования при от-
клонении ЗС от субкратных частот от аналогичного отклонения от кратных частот,
состоит в том, что у этих сигналов исходно принципиально разные спектры ошибок
квантования. При кратных частотах этот спектр простирается только вверх от час-
тоты ЗС, где биения слышны плохо. При субкратных частотах он простирается от
высоких частот вниз (рис. 3.27), в области, где биения гармоник тона отклонения
слышны хорошо. Кроме того, на субкратных частотах значения y достигают 100 и
более, поэтому даже при очень небольшом отклонении от субкратной частоты воз-
никает хорошо слышимый тон Ft .
Возникающие призвуки особенно заметны на высоких субкратных частотах, когда
низкочастотные составляющие спектра попадают в область максимальной слышимос-
ти от 2 до 4 кГц (рис. 3.28,а). Например, при частоте аудиосигнала 9001 Гц низшая
Аналого-цифровое преобразование аудиосигналов 173

Ðèñ. 3.28. Спектр ошибок квантования при отклонении от субкратной частоты ЗС 9 кГц
на 1 Гц: а — полный спектр; б — спектр в области биений в диапазоне 2800...3200 Гц

граница спектра равна 1 Гц, но уровень спектральных составляющих в этой области


ниже −100 дБ. Зато в районе частоты 3 кГц возникает множество составляющих с
интервалом, равным частоте тона отклонения 16 Гц. Между ними возникают биения,
которые очень хорошо слышны.
На субкратных частотах выше 5 кГц, на которых спектральные компоненты
ошибок квантования попадают в область максимальной слышимости 2. . . 4 кГц
(рис. 3.28,б), звучание ошибок квантования может приобретать очень своеобразный
характер. Когда отклонению на ∆F соответствует тон около 5 Гц, возникает звук
похожий на звон колокольчиков, раздражающе действующий на слух. С увеличением
отклонения звуковые биения становятся глухими и, начиная с ∆F = 50 Гц, посте-
пенно переходят в созвучие.
При отклонении от кратных и субкратных частот ЗС ниже 4. . . 5 кГц, при кото-
ром возникает тон отклонения с частотой 5 Гц, всегда звучание ошибок квантования
похоже на переливы колокольчиков. Высокая слышимость биений с частотой 5 Гц
связана с хорошо известным в психоакустике фактом, что частотная и амплитудная
модуляция ЗС наиболее заметны при частоте модуляции 4. . . 5 Гц.
Таким образом, при синусоидальных испытательных сигналах независимо от час-
тоты и уровня ЗС ошибки квантования никогда не воспринимаются как шум. Даже
удивительно, что при очень маленьких отклонениях ЗС от кратных и субкратных час-
тот, когда частотный интервал между составляющими спектра ошибок квантования
меньше 1 Гц во всем звуковом диапазоне, их звучание даже близко не напоминает
шум, а воспринимается как низкочастотный рокот. Если же в качестве испытате-
льного сигнала использовать несколько некогерентных тональных звуков, то тогда
биения составляющих спектра ошибок квантования воспринимаются как обычный
белый шум.
На тестовых синусоидальных сигналах никаких особо неприятных для слуха зву-
ков ошибки квантования не создают. На субкратных частотах из-за них возникают
НЧ призвуки в виде тона или созвучия, либо звонкие биения. В связи с очень боль-
шим числом кратных и субкратных частот, особенно на высоких частотах, наиболее
характерным искажением является звук в виде рокота. На музыкальных сигналах с
8-разрядным квантованием этот рокот воспринимается как «грязное звучание» или
дробовой шум. При 16-разрядном квантовании ни на тестовых синусоидальных сиг-
налах, ни на музыке ошибки квантования практически не слышны.
Технологии повышения качества звучания
Технология Dithering. Современные технологии обработки звуковых сигналов
позволяют линеаризовать передаточную функцию квантователя, преобразовать де-
174 Раздел 3

терминированные ошибки квантования в случайные, существенно понизить их уро-


вень и слуховую заметность при восприятии.
При импульсно-кодовой модуляции квантуется уже дискретизированный сигнал в
виде последовательности кратковременных выборок (отсчетов) положительной и от-
рицательной полярности. Квантователь обычно имеет порог, равный 0,5 шага кван-
тования Q, который определяет его разрешающую способность. Пока входной сигнал
меньше этого порога выходной сигнал квантователя равен нулю, то есть возникает
отсечка. Несколько выше этого порога ЗС синусоидальной формы на выходе ИКМ
демодулятора имеет вид прямоугольных импульсов, поэтому нелинейные искажения
ЗС достигают 80 %.
Ситуация, когда входной сигнал может быть ниже порога квантования, возникает
при реверберации звука и отражении звуковых колебаний, которые очень медленно
затухают по амплитуде, но несут важную информацию о помещении, где происходит
цифровая звукозапись. В квантователе вся эта информация теряется, и восприятие
звука при низких уровнях ЗС сильно искажается.
Искажения в квантователе при синусоидальных испытательных сигналах имеют
характер детерминированных ошибок, форма и спектр которых связаны с амплиту-
дой ЗС жесткой функциональной зависимостью. При этом спектр искажений всегда
дискретный и он существенно зависит от кратности частот fs и F .
Под широко известным сейчас термином dithering — дрожание понимается де-
корреляция ошибок квантования добавлением небольшого шума к дискретизирован-
ному ЗС во время операции квантования. Этот шум суммируется с входным сигналом
квантователя и вызывает беспорядочное дрожание квантуемого сигнала относительно
шкалы квантования. При этом происходит декорреляция и рандомизация детермини-
рованных ошибок квантования.
Декорреляция ошибок квантования решает три задачи: линеаризует амплитудную
характеристику квантователя в области нулевых значений, преобразует искажения в
виде детерминированных ошибок квантования в белый шум и исключает возможность
возникновения модуляционного шума.
При декорреляции ошибок квантования вводимый шум может быть аналоговым
или цифровым. У него могут быть различные законы распределения плотности ве-
роятности пиковых значений (PDF — Propability Dencity Function), такие, как прямоу-
гольный, треугольный и Гаусса (рис. 3.29). Шум может иметь различные огибающие
спектра (белый шум, розовый, коричневый. . . ), однако спектральная плотность мощ-
ность шума должна быть равномерной во всем звуковом диапазоне и максимальная
частота спектра не может превышать частоты Найквиста. Пиковые значения шума
могут быть от 0,5 младшего разряда до нескольких разрядов. Такой шум приво-
дит к линеаризации амплитудной характеристики квантователя при амплитудах ЗС
соизмеримых с шагом квантования и декорреляции ошибок с полезным сигналом.
Ошибки квантования сглаживаются, рассеиваются и субъективное качество звуча-
ния заметно улучшается.
К сожалению, любая операция декорреляции ошибок квантования сопровожда-
ется ухудшением объективных характеристик ИКМ тракта: шум квантования увели-
чивается, а динамический диапазон и отношение сигнал/шум (SNR) уменьшаются.
Максимальная мощность шума определяется достижением линейности амплитудной
характеристики квантователя в диапазоне входных сигналов с амплитудой до 1 кван-
та. В табл. 3.2 приведены оптимальные значения этой мощности для шумов с раз-
ными функциями PDF.
Аналого-цифровое преобразование аудиосигналов 175

Таблица 3.2
Оптимальные характеристики шума
Вид функции Пиковое Мощность Уменьшение
PDF значение шума SNR, дБ
Прямоугольный ±0,5 Q2 /12 −3
Треугольный ±1 Q2 /6 −4,77
Ðèñ. 3.29.Законы распределения плотности
Гаусса ±1,5 Q2 /4 −6
вероятности пиковых значений шума

Все шумы обеспечивают примерно одинаковую


линейность амплитудной характеристики квантовате-
ля в области очень малых значений входных сигна-
лов, но достигается это при различных значениях
мощности и SNR. В случае гауссового шума необ-
ходимая линейность достигается с минимальным пи-
ковым значением шума Q/2 (рис. 3.30). Главное раз-
личие в том, что шум с треугольным законом распре-
деления устраняет и модуляционный шум, тогда как
при прямоугольном и гауссовом законах распределе-
ния этот шум остается. Технически шум с гауссовым
законом распределения обычно реализуется в анало-
Ðèñ. 3.30. Линеаризация пере-
говом варианте, а два других — в цифровом. даточной функции квантователя
В настоящее время стандартом AES17 принята
технология декорреляции ошибок квантования, при которой используется случайный
или псевдослучайный белый шум с треугольной формой огибающей плотности веро-
ятности (TPDF — Triangle Probability Density Function) мгновенных значений шума с
размахом от пика до пика 2 LSB (Least Significant Bit — биты младших разрядов) и
c равномерной спектральной плотностью мощности от 0 до частоты Найквиста. Эта
технология сокращенно называется TPDF dither.
Она легко реализуется практически и гарантирует нулевое среднее значение
ошибки квантования, отсутствие коррелированных искажений, отсутствие больших
вариаций амплитуды шума и шума модуляции, зависимого от сигнала. При использо-
вании такой технологии цифровая система ведет себя также как идеальная аналоговая
система, у которой беспредельное разрешение ниже LSB, отсутствуют искажения и
шум модуляции. Надо подчеркнуть, что при использовании технологии TPDF dither
шум становится более приятным на слух без использования эффектов маскировки
искажений. На рис. 3.31 показано, как в результате применения технологии TPDF
при аналого-цифровом преобразовании дискретный спектр ошибок квантования ста-
новится сплошным и ошибки превращаются в шум.
При 8-разрядном квантовании ЗС частотой 1 кГц в спектре ошибок квантования
присутствуют только нечетные гармоники достаточно высокого уровня (рис. 3.31,а).
При подаче на вход АЦП вместе со ЗС шума с треугольным законом распределения
спектр становится сплошным и огибающая спектра очень близка по форме к белому
шуму (рис. 3.31,б). Важно, что спектральная плотность мощности шума квантования
на 20. . . 25 дБ ниже уровня составляющих спектра ошибок квантования. Если уме-
ньшить размах шума от номинального значения 2 LSB, то в этом случае появится
модуляционный шум.
Использование шума с гауссовым и прямоугольным законами распределения ли-
неаризует амплитудную характеристику квантователя, но ошибки квантования не пол-
176 Раздел 3

Ðèñ. 3.31. Декорреляция ошибок квантования шумом с треугольным законом распределения


8-разрядном квантовании: а — без технологии Dithering; б — на основе технологии TPDF

ностью декоррелируются, поэтому воз-


никает модуляционный шум — шум, мо-
дулированный составляющими спектра
ЗС (рис. 3.32). Если шум подчиняет-
ся закону Гаусса и имеет среднеквадра-
тическое значение около 1 LSB, то хо-
рошей линейности квантователя не дос-
тигнуть и общий шум квантования будет
Ðèñ. 3.32. Декорреляция ошибок квантова-
на 1,25 децибела выше, чем при исполь-
ния шумом с гауссовым законом распределения
зовании технологии TPDF dither.
Шум с таким законом распределения возникает из-за тепловых шумов активных
и пассивных элементов электронных схем. Поэтому он часто используется в операции
dithering при аналого-цифровом преобразовании. Технология TPDF чаще применяет-
ся в процессе редактирования цифровых данных при фильтрации и изменения уровня,
а также в процессах последующей их обработки с увеличением или уменьшением чис-
ла разрядов в кодовом слове при реквантизации.
Технология TPDF dither основывается на свойствах слуха человека. Известно,
что ухо может обнаруживать звуковой сигнал, маскированный широкополосным шу-
мом, когда уровень этого сигнала на 12 дБ ниже уровня шума. Поэтому важно, как
шум, создаваемый декорреляцией, воспринимается на слух. На рис. 3.33 приведены
экспериментальные графики слышимости шума квантования при уровне ЗС 120 дБ,
SPL. Как видно, без применения технологии декорреляции ошибок квантования при
16 разрядах шум квантования превышает абсолютный порог слышимости в диапа-
зоне частот 700. . . 13000 Гц. При увеличении числа разрядов до 18 шум слышен в
более узком диапазоне от 2 до 6 кГц. При 20-разрядном кодировании уровень шума
квантования лежит на всех частотах ниже абсолютного порога слышимости.
Слуховая заметность шума квантования при использовании технологии TPDF
Dither может быть значительно уменьшена, если с помощью ФВЧ осуществляется
подъем спектра шума в области высоких частот или огибающая спектра шума близка
к кривой равной громкости с уровнем 15 фон. Еще больший эффект достигается,
когда применяется технология Noise Shaping. Все это используется при записи сов-
ременных CD дисков с 16-разрядным кодированием, поэтому при воспроизведении
записи обеспечивается значение SNR такое же, как в 18-разрядном ЦАП.
Принято считать, что теоретическое обоснование применения в классической
ИКМ технологии TPDF dither — это наиболее значимый практический результат улуч-
шения качества звучания цифровых записей за последние 10 лет разработки.
Аналого-цифровое преобразование аудиосигналов 177

Ðèñ. 3.34. Спектр шума


Ðèñ. 3.33. Спектральная плотность мощности шума квантования после квантования до и после пере-
операции Dithering дискретизации

Технология Oversampling. Передискретизация, или технология Oversampling —


это способ уменьшения шума квантования повышением частоты дискретизации в нес-
колько раз по сравнению с базовым значением из стандартного ряда 44,1 и 48 кГц.
Коэффициент передискретизации Kos показывает, во сколько раз повышается часто-
та дискретизации. Этот коэффициент определяется через функцию 2x :
fks = fs Kos , Kos = 2x , 2 6 x 6 10.
Передискретизация может быть аналоговой и цифровой.
Аналоговая передискретизации отличается только тем, что выборки делаются
с повышенной частотой дискретизации fsk и применяется она только в АЦП. Эти
идеи используются в системе DVD-Audio, где частота дискретизации может быть
96 и 192 кГц, в системе Super Audio CD частота дискретизации еще намного выше
и равна 2,88224 МГц.
Когда рассматриваются вопросы передискретизации, всегда предполагается, что
в тракте используется технология Dithering, осуществляющая декорреляцию ошибок
квантования, при которой детерминированные ошибки квантования преобразуются в
шум квантования с равномерной спектральной плотностью от 0 до частоты Найк-
виста fN (рис. 3.34).
При равномерном законе распределения плотность вероятности шума квантова-
ния определяется равенством PD (e) = 1/Q, и его эффективное значение рассчит-
ывается по формуле
√∫
Q/2
Q
ē(zq = Q/2) = e2 PD (e) de = √ .
−Q/2 2 3
Модуль спектральной плотности мощности шума квантования SD (e) зависит от
мощности шума квантования и частоты Найквиста fN :
Q2
|SD (e)| = .
12fN
Значение SNR в цифровых звуковых трактах рассчитывается как отношение мак-
симального эффективного синусоидального напряжения на выходе ФНЧ ИКМ демо-
дулятора Āmax к эффективному значению напряжения шума квантования ē:
( )
Āmax
SNR = 20 lg ,

178 Раздел 3

где Āmax = 2(q−1) Q/ 2, поэтому
SNR = 6,02q + 1,76; q > 1 дБ.
Повышение частоты дискретизации приводит к увеличению частоты Найквиста,
как следствие к расширению полосы частот шума квантования до fN sk и уменьшению
модуля спектральной плотности мощности, определяемого равенством
Q2
|SD (e)| = .
12fN sk
Поэтому расчетное соотношение для SNR преобразуется к виду
( )
fs Kos
SNR = 6,02q + 1,74 + 10 lg , дБ,
2Fmax
где Fmax — максимальная частота звукового диапазона.
Из приведенной формулы следует, что значение SNR увеличивается на 3 дБ при
каждом удвоении частоты дискретизации. Это объясняется тем, что при увеличении
частоты дискретизации спектр шума квантования расширяется и во столько же раз
его спектральная плотность мощности уменьшается.
Относительно небольшое увеличение SNR (при изменении частоты дискретиза-
ции) сопровождается двукратным увеличением скорости цифрового потока и необ-
ходимостью двойного увеличения плотности записи. Поэтому при достаточно вы-
сокой частоте передискретизации возникают серьезные технические проблемы в ее
реализации. По этой причине в ИКМ трактах при аналоговой передискретизации в
модуляторе коэффициент Kos равен всего 2 или 4.
Использование аналоговой передискретизации позволяет в ИКМ трактах значи-
тельно упростить антиэлайзинговый аналоговый ФНЧ на входе модулятора, который
предназначен для исключения возможности перекрытия спектров полезного сигнала
и продуктов модуляции. Реализация такого фильтра в обычных ИКМ трактах весьма
сложна, так как у него должна быть линейная АЧХ в рабочем диапазоне и крутой
спад вблизи частоты Найквиста с затуханием не менее 90 дБ. При использовании
передискретизации требования к крутизне спада этого АФНЧ существенно уменьша-
ются, так как существенно увеличивается частота Найквиста (рис. 3.35) и в то же
время обеспечивается отсутствие комбинационных частот с участием ЗС.
Аналоговая передискретизация позволяет также значительно снизить требования
к ФНЧ ИКМ демодулятора. Если, например, частота дискретизации равна 48 кГц, то
в обычном тракте необходимо подавить частоты нижней боковой полосы 1-го порядка

Ðèñ. 3.35. Цифровая передискретизация: а — введение нулевых выборок; б — интерполяция выборок


Аналого-цифровое преобразование аудиосигналов 179

выше 24 кГц. Это может быть выполнено лишь весьма сложным ФНЧ 7–11 порядка.
При 2-кратной передискретизации граница нижней боковой полосы повышается до
1,5 fN sk = 72 кГц и проблем с созданием ФНЧ не возникает.
При высокой частоте дискретизации целесообразно в ИКМ трактах частоту среза
ФНЧ на выходе демодулятора увеличивать до 25. . . 40 кГц. При этом SNR становит-
ся меньше, но зато расширяется полоса звуковых частот. Звучание становится более
прозрачным, за счет уменьшения частотно-фазовых искажений на верхней границе
звукового диапазона.
В некоторых публикациях по этому поводу авторы полагают, что можно исполь-
зовать на выходе демодулятора ИКМ простые ФНЧ, как, например, фильтр Чебышева
3-го порядка. Крутизна среза у них мала, но они обеспечивают хорошее подавление
высокочастотных составляющих спектра модуляции. При этом забывается, что ФНЧ
предназначен еще для накопления и интерполяции выборок при реконструкции ЗС,
поэтому его постоянная времени не может быть малой, иначе возникнут значитель-
ные нелинейные искажения.
Цифровая передискретизация прежде всего используется в ЦАП на основе сигма-
дельта-модуляции с коэффициентом Kos до 128 и даже 1024 крат, так как при этом
отсутствуют проблемы, связанные со скоростью цифрового потока и плотностью за-
писи. Надо обратить внимание на то, что передискретизация увеличивает коэффи-
циент корреляции между последовательными отсчетами. Это обеспечивает большую
точность работы интерполяционных фильтров. По этой причине операция декорре-
ляции ошибок квантования производится после фильтрации.
Существуют два способа цифровой передис-
кретизации (рис. 3.36). При первом способе меж-
ду уже существующими цифровыми выборками
(отсчетами) вводятся дополнительные, рассчи-
танные интерполяцией. Другой способ получения
значений промежуточных значений выборок сос-
тоит во вставке нулевых выборок, после чего вся
последовательность подвергается цифровой фи-
льтрации.
Цифровые фильтры с предварительным рас- Ðèñ. 3.36. Спектры АИМ сигналов

четом интерполированных выборок имеют хоро- до (а) после (б) передискретизации


шие технические характеристики, но для них требуется значительная вычислитель-
ная мощность и они дороги. В CD-проигрывателях с такими фильтрами присутствует
надпись «18 bit 20×Oversampling». Это значит, что используется 20-кратная передис-
кретизация, при которой отношение SNR соответствует 18-разрядному кодированию.
Цифровые фильтры на основе введения нулевых выборок значительно проще и
дешевле. Однако при фильтрации в них возникают специфические помехи, которые
могут достигать величины сигнала. Эти помехи большей частью фильтруются, но
некоторая часть попадает в звуковой диапазон.
Базовые цифровые фильтры выпускаются с коэффициентом передискретизации
2, 4 и 8 крат. При необходимости они могут включаться последовательно с максима-
льным общим коэффициент передискретизации до 1024. Число разрядов на выходах
фильтров может быть от 17 до 28, поэтому требуется их усечение.
При использовании цифровой передискретизации в ЦАП ИКМ-трактов полнос-
тью справедливы приведенные выше формулы для SNR. Из этих формул следует, что
180 Раздел 3

передискретизация позволяет использовать ЦАП с меньшим числом разрядов без


ухудшения SNR. При этом каждое уменьшение кодового слова на один разряд (что
приводит к изменению величины на 6 дБ) может компенсироваться двукратным по-
вышением частоты дискретизации. Например, для того чтобы вместо 16-разрядного
ЦАП использовать более дешевый 10-разрядный, частоту дискретизации следует уве-
личить в 64 раза. При этом потребуется ЦАП с быстродействием во столько же раз
большим, что обойдется еще дороже. Поэтому такой вариант использования пере-
дискретизации не нашел широкого практического применения.
Технология Super Bit Mapping (SBM). Целью этой технологии является повы-
шение качества звучания устранением шума квантования из слышимого диапазона
частот без применения передискретизации. Стандартом CD предусмотрена запись
звука с использованием 16-разрядного линейного квантования, при котором макси-
мальное значение отношения сигнал/шум около 98 дБ. Однако уровень звукового
давления при воспроизведении современных записей музыки достигает 120 дБ, SPL,
при этом шум квантования превышает абсолютный порог слышимости, причем в хо-
рошо слышимом диапазоне от 1 до 8 кГц.
На рис. 3.37 приведен график спектральной плотности мощности шума кван-
тования при использовании технологии Dithering, когда ошибки квантования декор-
релированы и рандомизированы. Необходимо пояснить, что после такой операции
спектр шума квантования имеет равномерное распределение в линейной частотной
шкале по всему звуковому диапазону. Однако в логарифмической шкале огибаю-
щая этого спектра имеет вид прямой линии с подъемом в область высоких частот
с крутизной 3 дБ/октаву.
На рис. 3.37 приведен также график АЧХ абсолютного порога слышимости слу-
хового аппарата человека. Из него видно, что спектральная плотность шума кванто-
вания превышает порог слышимости только в диапазоне частот от 800 до 11000 Гц,
а составляющие этого спектра вне пределов этого диапазона не слышны. Очевидно,
что для улучшения качества звучания необходимо изменить форму огибающей спект-
ра шума квантования, снизив ее на 10. . . 15 дБ в среднечастотной части диапазона за
счет увеличения в области частот выше 12 кГц, но ниже порога слышимости. Такое
решение является одной из частей технологии SBM.
С другой стороны, в настоящее время в студийных условиях в процессе изго-
товления мастер-диска нет особых проблем произвести запись звука с 20 и более
разрядами. Однако стандартом CD предусмотрена возможность использования ИКМ
с разрешением 16 бит/отсчет, поэтому имеется возможность произвести округле-
ние 20-разрядных кодовых слов оптимальным образом так, чтобы звучание при 16-
разрядном коде было почти такое же, как при 20-разрядном. Эта идея является
второй частью технологии SBM. Основой этой технологии является осуществление
переквантования с помощью формирователя огибающей спектра, называемого Noise
Shaper, который решает обе проблемы одновременно.
На рис. 3.38 приведена эквивалентная схема такого реквантователя. В этой схеме
на вход сумматора подаются 20-разрядные выборки Uin (j) с частотой дискретизации
fs . В переквантователе с этой же частотой производится грубое округление, при кото-
ром младшие 4 разряда отбрасываются и на выходе формируется 16-разрядный сиг-
нал Uout (j). При сравнении входа и выхода квантователя формируется сигнал ошибки
округления E(j), который подается на входной сумматор. Отрицательная обратная
связь стремится сделать как можно меньшей разницу между входным и выходным
Аналого-цифровое преобразование аудиосигналов 181

Ðèñ. 3.37. График спектральной плотности шума кван- Ðèñ. 3.38. Эквивалентная схема рекванто-
тования для звукового сигнала с уровнем 120 дБ SPL вателя на основе технологии SBM

сигналами и этим приближает 16-разрядный сиг-


нал к 20-разрядному. Применение технологии
Noise Shaping возможно только при одновремен-
ном использовании технологии Dithering, поэто-
му на вход реквантователя вместе с сигналом по-
дается шум.
В цепи отрицательной обратной связи вклю-
чен фильтр с передаточной функцией по частоте
H(f ), приведенной на рис. 3.39, которая опреде-
ляет форму огибающей спектра шума квантова-
ния. Такая форма огибающей выбрана из усло-
вия обеспечения равной громкости шума во всем
Ðèñ. 3.39. Кривая равной
звуковом диапазоне, поэтому график называется
громкости шума квантования
кривой равной громкости. В соответствии с этим
графиком наиболее сильно спектральная плотность уменьшается на частотах ниже
5 кГц, а подъем начинается с частоты 12 кГц. С такой формой спектра шума кван-
тования 16-разрядная запись соответствует 20-разрядной. Заметим, что при этой
технологии интегральное значение шума квантования не уменьшается, просто проис-
ходит перенос его большей части в диапазон, где на слух он почти не воспринимается.
В технологии SBM для улучшения качества звучания уменьшением слышимос-
ти шума квантования используется еще и эффект одновременной маскировки шума
квантования. С этой целью звуковой диапазон разбивается на полосы, близкие к
критическим полосам слуха. В каждой такой полосе осуществляется непрерывное
преобразование Фурье и рассчитывается кривая маскировки в функции от часто-
ты. В соответствии с этими расчетами непрерывно меняется передаточная функция
фильтра H(f ) в цепи отрицательной обратной связи квантователя.
При больших уровнях ЗС, когда шум квантования маскируется полезным сигна-
лом, преобразование спектра шума квантования почти не используется. Когда же
уровень ЗС мал и эффект одновременной маскировки не работает, в действие всту-
пает преобразователь спектра. Технология SBM наиболее эффективна при воспро-
изведении тихой музыки, когда ошибки квантования наиболее заметны на слух.
В упрощенных вариантах без использования эффекта маскировки технология
SBM широко применяется звуковых программах Audio Cards, Sound Forge, WavLab
и других при реквантизации цифровых данных для уменьшения их объема. Это поз-
воляет преобразовывать ошибки реквантования в шум, менее заметный при слуховом
182 Раздел 3

Ðèñ. 3.40. Спектры шума квантования при реквантовании 16-разрядных слов в 8-разрядные кодовые
слова: а — фильтр равной громкости; б — фильтр верхних частот

восприятии. Для иллюстрации на рис. 3.40 показан спектр ошибок квантования 8-


разрядного ЗС, полученного отбрасыванием младших 8 битов 16-разрядного кода.
При этом преобразовании используется технология TPDF и в цепи обратной связи
реквантователя применяется фильтр верхних частот или фильтр равной громкости,
который более предпочтителен. В обоих вариантах исполнения обеспечивается пол-
ная декорреляция ошибок квантования и отсутствие модуляционного шума.
3.2. Сигма-дельта модуляция
Основы технологии Noise Shaping
Сигма-дельта модуляция предназначена для аналого-цифрового и цифроаналого-
вого преобразований звуковых сигналов. В отличие от импульсно-кодовой модуляции
она позволяет использовать при этих операциях достаточно грубые преобразователи
с числом разрядов вплоть до одного, обеспечивая при этом отношение сигнал шум
до 120. . . 140 дБ, что необходимо для профессиональной записи звука. Технология
производства АЦП и ЦАП на основе сигма-дельта модуляции значительно проще и
дешевле, поэтому такие преобразователи широко используются в современных циф-
ровых магнитофонах, в оптической звукозаписи и звуковых картах компьютеров.
В отличие от ИКМ АЦП и ЦАП на основе сигма-дельта модуляции работают
на частоте дискретизации в 4 и более раз выше стандартного значения, соответст-
вующего требованиям теоремы Котельникова. В них используются квантователи с
числом разрядов от 1 до 6 с частотно-зависимой отрицательной обратной связью.
Квантование уже квантованного цифрового сигнала в ЦАП на основе сигма-дельта
модуляции называют реквантизацией.
Основой сигма-дельта модуляции является так называемая технология Noise
Shaping, при которой под действием частотно-зависимой отрицательной обратной
связи изменяется вид огибающей спектральной плотности мощности шума квантова-
ния таким образом, что в звуковом диапазоне она существенно уменьшается, за счет
увеличения ее за пределами этого диапазона. Технология Noise Shaping включает в
себя операцию Dithering, с помощью которой осуществляется декорреляция ошибок
квантования и преобразование их в шум с равномерной спектральной плотностью, а
также аналоговую или цифровую передискретизацию.
Реализация технологии Noise Shaping поясняется рис. 3.41, на котором квантова-
тель (реквантователь) представлен сумматором, на один вход которого подается кван-
туемый сигнал, а на второй — сигнал ошибки или шум квантования, соответствующий
числу используемых двоичных разрядов. Для преобразования спектра ошибок кванто-
вания без изменения спектра квантуемого сигнала в предложенной модели использу-
Аналого-цифровое преобразование аудиосигналов 183

Ðèñ. 3.41. Квантование (реквантование) с отрицательной обратной связью

ется отрицательная обратная связь, два интегратора и вычислитель разности между


входным сигналом и сигналом обратной связи. Чтобы эта модель была справедлива
как при квантовании аналоговых, так и реквантовании цифровых сигналов, входной
и выходной сигналы представляются в аналоговой форме в виде последовательности
выборок (отсчетов) с частотой дискретизации. В качестве этих выборок может быть
сигнал на выходе устройства выборки-хранения после амплитудно-импульсной модуля-
ции или уже квантованный цифровой сигнал, но в аналоговой форме представления.
Благодаря применению двух одинаковых интеграторов, одного на входе и другого
в цепи обратной связи, обеспечивается частотная независимость передачи квантуе-
мого сигнала с входа на выход, так как разностный сигнал на входе сумматора в этом
случае на всех частотах равен нулю. Сигнал ошибки квантования проходит только
через один интегратор, поэтому возникает частотная зависимость его коэффициен-
та передачи. Поэтому приведенную схему называют формирователем спектра шума
квантования.
Путем линейных преобразований схема на рис. 3.41 может быть приведена к виду
с одним интегратором в прямой ветви (рис. 3.42). В этой схеме интегратор имеет
передаточную функцию Tint (s) = 1/s, где s = j2πF τi — оператор преобразования
Лапласа, τi — постоянная времени интегратора.
Передаточная функция для сигнала
Y (s) 1
Ts (s) = =
X(s) 1+s
(когда N (s) = 0) такая же, как у фильтра нижних частот (ФНЧ) первого порядка.
Передаточная функция для ошибки квантования
Y (s) s
Tn (s) = =
N (s) 1+s
(когда X(s) = 0) имеет такой же вид, как у фильтра верхних частот (ФВЧ) первого
порядка. Таким образом, в приведенной схеме в звуковом диапазоне частот квантуе-
мый сигнал передается без изменений, а спектральная плотность ошибок квантования
понижается на низких частотах и повышается на высоких. Отрицательная обратная
связь стремится уравнять выходной сигнал с входным.

Ðèñ. 3.42. Эквивалентная схема формирователя спектра


184 Раздел 3

Математические модели сигма-дельта модуляторов


В цифровой технике работа всех узлов модулятора тактируется и для анализа
работы используются не преобразования Лапласа, а z-преобразования, поэтому эк-
вивалентная схема формирователя спектра шума квантования с интегратором 1-го
порядка несколько изменяется (рис. 3.43). Для ее работы необходимо, чтобы сигнал
обратной связи был сдвинут по времени на один такт по отношению к входному сигна-
лу. Предполагается также, что ошибки квантования рандомизированы и декоррелиро-
ваны, спектр шума квантования равномерен от 0 Гц до частоты Найквиста, а на входе
схемы действует сигнал с коэффициентом передискретизации Kos = 2x , x = 0,1 . . . 10.
В приведенной схеме используется дискретно-временной интегратор 1-го порядка
с собственной петлей обратной связи. У него единичный коэффициент усиления и он
осуществляет задержку на один такт: τ = 1/fsk . В схеме интегратора функция z −1
является z-оператором временной задержки, сумматор выполняет функции аналого-
вого накопителя в дискретной форме. Передаточная функция такого интегратора в
форме z-преобразования имеет вид
z −1
H(z) = ,
1 + z −1

где z = eiθ ; θ = 2πf /fsk ; i = −1 — мнимая единица, 0 < θ < π; f — текущая
частота; θ — нормализованная частота; fsk = fs Kos ; fs — частота дискретизации.
В литературе схему формирователя спектра ошибок квантования часто называют
сигма-дельта модулятором (SDM, или Σ∆). При этом уточняют, что он аналоговый,
если производится квантование, или цифровой, если производится реквантование.
Вместо схемы, представленной на рис. 3.43, часто используется другая модель
SDM 1-го порядка с задержкой в цепи обратной связи (рис. 3.44). Эти съемы равно-
ценны. В обеих схемах сигнал на выходе модулятора в функции дискретного времени
можно представить в виде равенства
Yout1 (j) = X(j) + e(j) − e(j − 1),
из которого следует, что мгновенная ошибка квантования определяется как
esdm (j) = e(j) − e(j − 1).
Эта формула отражает основную суть Σ∆-модуляции. Очевидно, что ошибки двух
последовательных выборок на низких частотах почти не отличаются и разностная
ошибка стремится к нулю. На высоких частотах скорость изменения ЗС большая и эти
ошибки могут отличаться очень значительно, они могут иметь и разную полярность,
поэтому суммарная ошибка квантования сильно возрастает.

Ðèñ. 3.43. Модель сигма-дельта модулятора 1-го Ðèñ. 3.44. Модель сигма-дельта модулятора
порядка 1-го порядка (версия)
Аналого-цифровое преобразование аудиосигналов 185

Ðèñ. 3.45. Модель сигма-дельта модулятора 2-го порядка

В приведенной схеме выходной сигнал в форме z-преобразования имеет вид


Yout1 (z) = z −1 X(z)in + (1 − z −1 )e(z).
Из этой формулы следует, что модули коэффициентов передачи по сигналу и ошибке
соответственно равны:
|Tx (z)| = |z −1 | = 1; |Te (z)1 | = |1 − z −1 | = 2| sin(θ/2)|.
Это значит, что к