Вы находитесь на странице: 1из 371

Краткая теория звука.

Что такое звук?


Любой человек, который учился (или учится) в школе, без особых размышлений ответит на этот вопрос так:
«Звук - это волна». И будет совершенно прав. А вот при попытке объяснить, что же представляет собой эта
волна, большинство людей вспоминает хрестоматийный пример с веревкой или волнами на поверхности
воды и после этого надолго задумываются. Так что же такое звук?

Любой предмет, совершающий возвратно-поступательные движения (камертон, струна рояля или гитары,
наши голосовые связки и т.д.), вызывает в воздухе попеременное уменьшение или увеличение плотности.
Движения одних молекул воздуха передаются другим молекулам, в результате чего в пространстве
распространяются периодически повторяющиеся зоны увеличения и уменьшения плотности. Они-то и
представляют собой звуковую волну(Рис. 1.). Если мы в каком-то месте поставим прибор, способный
реагировать на изменение плотности воздуха, запишем его показания в течение некоторого времени и
составим график зависимости плотности от времени, то получим кривую, близкую к синусоиде, знакомую нам
по школьным учебникам физики (Рис. 2). Именно такие колебания и улавливаются нашим ухом, в результате
чего мы получаем ощущение звука.

Рис.1

Рис 2

Частота, длина, амплитуда и фаза звуковой волны


Количество колебаний воздуха в секунду называется частотой звука. Волны с разной частотой
воспринимаются нами как звук разной высоты: волны с малой частотой воспринимаются как низкие, басовые
звуки, а волны с большой частотой - как высокие. Частота измеряется в Герцах (Гц): 1 Гц = 1 колебание в
секунду; или килогерцах (кГц): 1кГц = 1000 Гц. Большинство людей от 18 до 25 лет реально способны
слышать колебания воздуха с частотой от 20 до 20000 Герц (с возрастом верхняя граница восприятия
уменьшается). Именно этот диапазон волн называется звуковым диапазоном. Кстати говоря, наши уши
устроены таким образом, что когда мы слышим два звука, частоты которых относятся как 2:1, то нам кажется,
что эти звуки близки друг к другу и при одновременном воспроизведении они для нас как бы сливаются.
Именно на этом эффекте основана музыкальная шкала высоты звуков, у которой одна и та же нота
повторяется каждую октаву. То есть в натуральном звукоряде частоты одинаковых нот соседних октав
соотносятся между собой как 2:1.

Частота волны обратно пропорциональна длине волны - отрезку на оси распространения волны, в котором
умещается полный цикл (период) изменения плотности воздуха. Чем больше частота звука, тем меньше
длина волны и наоборот. Длину волны очень легко вычислить по формуле l=C/f, где C - скорость звука (340
м/с), а f - частота звуковых колебаний. Например, волна, имеющая частоту 100 Гц, имеет длину 340/100=3.4
м.

Амплитудой звуковой волны называется половина разницы между самым высоким и самым низким
значением плотности. На графике амплитуде будет соответствовать разница между самой высокой (или
низкой) точкой волны и горизонтальной осью графика.

Для описания относительных временных свойств двух звуковых волн (или разных частей одной волны)
вводится понятие фазы звуковой волны. Посмотрите на рисунок. На первом графике показаны две волны,
которые полностью совпадают друг с другом. В этом случае говорят, что волны находятся в фазе. На третьем
графике в том месте, где у одной волны находится область высокой плотности, у другой - область низкой
плотности. В этом случае говорят, что волны находятся в противофазе. При этом, если волны одинаковые,
происходит их взаимное уничтожение (в природе это бывает крайне редко, чаще противофазные волны при
наложении сильно искажают звук). Средний график показывает некое промежуточное положение. В этом
случае говорят, что фаза одной волны сдвинута относительно другой.

Уровень и громкость звука


Любая звуковая волна, которая распространяется в пространстве, может оказывать на встречающиеся
препятствия (в том числе и на наши барабанные перепонки) некое давление. Люди, которые бывали на рок-
концертах и стояли около мощных колонок не понаслышке знают, что оно может быть и очень сильным. Мы
субъективно воспринимаем изменение давления звуковых волн в виде ощущения изменения громкости звука.
Максимальное изменение давления в воздухе при распространении звуковых волн по сравнению с
давлением при отсутствии волн называется звуковым давлением. Как и любое другое, звуковое давление
измеряется в Паскалях (Па).

Но в акустике, при оценке интенсивности звуковых волн чаще применяется другое понятие - сила звука. Оно
показывает поток звуковой энергии, который каждую секунду проходит через квадратный сантиметр условной
плоскости, расположенной перпендикулярно направлению распространения волны. Звуковое давление и
сила звука находятся в квадратичной зависимости. То есть, сила звука = звуковое давление в квадрате. Сила
звука описывает энергетические свойства самой волны и измеряется в ваттах/квадратный сантиметр
(Вт/кв.см.). Такая единица бывает очень удобна при некоторых расчетах - это единственная причина ее
введения.

Для того, чтобы мы смогли услышать тот или иной звук, его сила должна быть больше определенного уровня.
Этот уровень называется порогом слышимости. То есть, если звуковая волна имеет малую интенсивность -
ниже этого порога, мы просто не воспринимаем ее, и нам кажется, что вокруг стоит полная тишина, хотя на
самом деле воздух вокруг колеблется. Точно также дело обстоит и со звуками большой интенсивности - мы
слышим звук только до определенного уровня, который называется болевым порогом. Если сила звука
больше этого уровня, то мы испытываем боль в ушах. Разница между уровнями болевого порога и порога
слышимости называется динамическим диапазоном слуха. Мы способны воспринимать изменения силы звука
в огромных пределах: сила звука болевого порога превосходит силу звука порога слышимости в тысячу раз!

Наш слуховой аппарат устроен таким образом, что линейное изменение силы звука (или звукового давления)
не воспринимается нами как линейное изменение громкости. Громкость звука и его сила связаны между
собой более хитрой зависимостью. Увеличение громкости в два раза соответствует увеличению силы звука в
100 раз (звукового давления - в 10 раз), увеличение громкости в 3 раза соответствует увеличению силы звука
уже в 10000 раз (звукового давления - в 100 раз), а увеличение громкости в 4 раза соответствует изменению
силы звука в 100000000 раз (звукового давления - в 10000 раз)! Такая зависимость называется
логарифмической, и именно из-за такой особенности нашего восприятия изменение уровня (громкости) звука
принято измерять в логарифмических единицах - белах (Б).

Различие величин силы звука в белах вычисляется по формуле: N=lg I1/I2 (на всякий случай, напомним, что lg
- это десятичный логарифм, и он показывает степень, в которую возводится число 10; то есть, если 10lg=100,
то lg=2, иначе lg100=2), где N - изменение уровня звука, а I1 и I2 - верхняя и нижняя границы силы звука.
Десятикратное увеличение силы звука соответствует 1 белу (lg10=1), а стократное увеличение соответствует
двум белам (lg100=2) и т. д. Словом, логарифмическая шкала позволяет достаточно сильно «сжимать»
линейную шкалу, сохраняя при этом достоверность. И именно такая шкала полностью соответствует
особенностям нашего слуха.

Изменение уровня звука в один бел одинаково отражает и изменение силы звука, и изменение звукового
давления. Если вы подставите в вышеприведенную формулу соответствующие значения звукового давления
(памятуя, что сила звука = звуковое давление в квадрате), то получите те же самые значения изменения
уровня в белах. Судите сами:

N= lg I1/I2=lg (P1/P2)2=2lg P1/P2, где P1 и P2 - верхняя и нижняя границы звукового давления.

Проверяем. Изменение звукового давления в 100 раз соответствует изменению силы звука в 10000 раз (I=P2).
Подставляя эти значения в вышеприведенную формулу, мы получаем следующие вещи: lg 10000=4 бела
(изменения силы звука); 2lg 100=2х2=4 бела (изменения звукового давления). Как видите, в обоих случаях мы
получили одинаковые изменения уровня звука в белах.

Но на практике оказывается, что бел - это слишком большая величина для изменения уровня. Поэтому чаще
применяется децибел (дБ) - десятая часть бела. То есть изменение уровня в децибелах будет вычисляться
по формуле N=10 lg I1/I2 или N=20 lg P1/P2. Минимальный перепад уровня, который способно воспринять наше
ухо, как раз равен одному децибелу. Это одна из главных причин введения такой системы измерения уровня.
А весь динамический диапазон слуха составляет 120 дБ. Согласитесь, что гораздо удобней оперировать
единицами, которые мы можем услышать.

Изменение уровня звука обычно оценивается в децибелах относительно порога слышимости. Когда говорят,
что уровень звука в колонках равен ста децибелам, подразумевают, что колонки работают на уровне,
превышающем порог слышимости на 100 дБ.

Для того, чтобы как-то почувствовать такой непростой способ измерения уровня звука (лишь отражающий
парадоксальность нашего слухового восприятия), мы приведем таблицу со знакомыми вам звуковыми
объектами и уровнями звука, которые они производят. Просмотрев эту таблицу, вы сможете более наглядно
представить себе логарифмическую шкалу уровня.

Слуховой порог 0

Шепот на расстоянии 1 м 20

Шум в квартире 40

Шепот на расстоянии 10 см 50

Тихий разговор на расстоянии 1 м 50

Аплодисменты 60

Игра на акустической гитаре пальцами; звук на расстоянии 40 см 70

Тихая игра на фортепиано 70

Игра на акустической гитаре медиатором; звук на расстоянии 40 см 80

Шум в метро во время движения 90

Громкий голос на расстоянии 15 см 100

Фортиссимо (максимально энергичный пассаж) оркестра 100

Реактивный самолет на расстоянии 5 м 120

Барабанный бой на расстоянии 3 см 140

Кстати говоря, последняя строчка таблицы показывает уровень звука, превышающий болевой порог. Поэтому
никогда не пытайтесь послушать звук барабана прямо у мембраны - ощущения будут очень неприятные.

Теперь давайте более подробно поговорим о громкости звука - нашем субъективном ощущении от звуковых
волн, имеющих разный уровень (звуковое давление, силу). Наше ощущение громкости во многом зависит от
частоты звука. Высокие и низкие звуки, имеющие одинаковый уровень, субъективно воспринимаются нами как
звуки разной громкости. А значение уровня звука и субъективно слышимой громкости совпадают только на
частоте 1000 Гц. На основании исследований человеческого слуха были построены графики, которые
известны каждому звукорежиссеру как кривые равной громкости. На них изображены линии (они расположены
через 10 дБ на частоте 1000 Гц), которые соответствуют одинаково воспринимаемой громкости на разных
частотах (см. рисунок). Легко можно видеть, что мы гораздо лучше слышим на средних частотах. А вот на
низких и высоких частотах чувствительность слуха притупляется.

Из графика кривых равной громкости следует важный для практической деятельности вывод. Посмотрите на
рисунок - наиболее линейно мы воспринимаем звук при уровнях 80-90 дБ. То есть при таких уровнях
громкости наши уши наиболее адекватно передают звуковую картину. Поэтому любые работы по
корректировке звучания фонограмм лучше всего делать при достаточно высокой громкости звука в
акустических системах - 80-90 дБ (примерно такой же уровень имеет шум в вагоне метро - см. таблицу). Если
мы будем заниматься работой со звуком при меньших уровнях, то вероятность ошибки будет возрастать -
ведь восприятие низких и высоких частот будет притупляться.

Тембр звука
Гитарист может извлекать из своего инструмента высокие и низкие, громкие и тихие звуки. Но что гитару
делает гитарой? Почему ее звук отличается от звука фортепиано? Все объясняется довольно просто:
реальные звуки представляют собой созвучия, состоящие из нескольких простых звуковых волн. От
комбинаций этих волн и зависит тембр инструмента.

У каждого созвучия есть основной тон - волна определенной частоты, которая имеет наибольший уровень.
Например, у ноты Ля первой октавы эта волна имеет частоту 440 Гц. Но вместе с ней звучат и другие волны,
частота которых в 2, 4, 8 раз и т.д. выше, чем у основного тона (эти звуки располагаются через октаву). В
музыке они называются обертонами. В акустике принята немного другая терминология. И основной тон, и
обертона называются гармониками и имеют порядковый номер в зависимости от высоты: основной тон -
первая гармоника, первый обертон - вторая гармоника и т.д.

Стоячие волны и резонанс


Звуковая волна, которая встречает на своем пути перпендикулярную твердую поверхность (например, стену),
отражается от нее и возвращается по тому же самому пути. Две волны, движущиеся в противоположные
стороны способны производить так называемые стоячие волны, которые окрашивают звук новыми
гармониками(то есть изменяют тембр звука). Например, в замкнутом прямоугольном помещении стоячие
звуковые волны находятся точно посередине комнаты. И если вы встанете в это место, то услышите, как
изменился звук (чаще всего в худшую сторону).

Если длина волны источника звука становится кратна длине помещения, то фаза отраженной волны
совпадает с фазой прямой волны, в результате чего происходит их взаимное усиление. А так как в
прямоугольном помещении звук отражается от стен несколько раз, то происходит многократное усиление
громкости звука. То есть, возникает воздушный резонанс - частный случай стоячей волны.

Любое помещение имеет некую критическую частоту звука при которой возникает резонанс. Причем у
помещений с разными геометрическими размерами будут разные критические частоты. Эту частоту называют
частотой резонанса. Резонанс чаще всего возникает именно на низких частотах, так как длина волны низких
звуков сравнима с длиной и шириной помещения. Кстати, бас-гитаристы, репетирующие дома, отлично
знакомы с таким эффектом: некоторые взятые на инструменте ноты неожиданно усиливаются, при этом
начинают угрожающе звенеть стекла в окнах и шкафах.

Резонанс, в большинстве случаев, явление крайне неприятное. Поэтому в музыкально используемых


помещениях с ним борются всеми возможными способами. Например, ликвидируют параллельные
поверхности - студийные комнаты очень часто проектируются таким образом, что все углы имеют величину
больше 90 градусов. Однако резонанс не всегда бывает вреден. В духовых инструментах и органах это
явление используют для усиления звука и получения характерного тембра.

У любой трубки есть своя частота резонанса, которая определяется геометрическими размерами самой
трубки. Если в такую трубку попадает звуковая волна (например, от трости саксофона), то в центре сечения
трубки возникает резонансная волна определенной частоты, которая усиливает звук и украшает его новыми
гармониками. Меняя длину трубки, мы можем добиться изменения высоты звука. Именно такой принцип
управления используется во всех духовых инструментах: например, в тромбоне музыкант выдвигает колено
трубы, меняя ее длину; в кларнете, гобое, флейте, саксофоне длина трубы меняется при помощи закрытия и
открытия отверстий и т. д.

Для музыкантов, которые записывают свои композиции дома, знание о наличии в любом помещении стоячих
волн и понимание природы воздушного резонанса достаточно важно, так как позволяет с этими явлениями
бороться. Например, если вы что-то записываете с микрофона в обычной жилой комнате, то микрофон ни в
коем случае нельзя располагать прямо в центре помещения - иначе вы на записи получите искаженный
стоячими волнами звук. С резонансами тоже можно бороться. Например, чем больше в вашей комнате
отражающих непараллельных поверхностей, тем меньше условий для возникновения резонансов. Особенно
важно обеспечить такие условия при записи с микрофона низкочастотных инструментов - контрабасов и бас-
гитар.

Реверберация помещения
В разделе «Стоячие волны и резонанс» мы разобрали случай, когда звуковая волна встречает на своем пути
перпендикулярную твердую поверхность. Однако, в любом помещении волны от источника звука
распространяются во всех направлениях и многократно отражаются от стен и других препятствий. И только
малое количество этих волн порождает стоячие волны и резонансы. Остальные отраженные волны
воспринимаются слушателем как характерный гул, который называется реверберацией.

Временем реверберации называется время, в течение которого уровень отраженных волн падает на 60 дБ.
Разумеется, у различных помещений это время будет разным. Однако оно не находится в прямой связи с
геометрическими размерами пола, стен и потолков – бывает, что в большом зале время реверберации
достаточно мало (когда, например, стены, пол и потолок покрыты пористым материалом, хорошо
поглощающим звук), а в небольшой комнате, наоборот, - велико. Информацию же о размере помещения и
расстоянии до источника звука нам приносят первые шесть-десять отраженных волн, которые называются
ранними отражениями. А время в течение которого они приходят называют предварительной задержкой.
Кстати говоря, реверберация способна довольно сильно изменить тембр источника звука. Причем, с
музыкальной точки зрения реверберация в одних помещениях может украшать звучание, а в других - портить.
Зависит это от отражающих свойств поверхностей из которых изготовлены стены. Например, в спортивном
зале с бетонными стенами реверберация имеет очень резкий и неприятный характер. Отражаясь от таких
стен звуковые волны создают рассеянное эхо с сильным "свистящим" призвуком. И если вы запишите в таком
помещении, предположим, акустическую гитару, то она будет звучать очень резко из-за реверберационного
окрашивания.

А вот если вы принесете эту же гитару в комнату, где много отражающих поверхностей из неокрашенного
дерева, то характер ее звучания изменится до неузнаваемости - она сразу заработает очень "тепло" и певуче.
Решающую роль в такой метаморфозе сыграют акустические свойства помещения. Комнаты с деревянными
поверхностями имеют очень приятную на слух, "мягкую" и "теплую" реверберацию - неслучайно в студиях
звукозаписи очень часто стены обшиваются именно этим материалом.

Современные городские квартиры имеют как правило бетонные или кирпичные стены со штукатуркой,
закрытые только слоем обоев. Реверберация в таких помещениях не способствует улучшению звучания
музыкальных инструментов и голоса. Если вы хотите получить действительно качественную запись своего
исполнения, то можете поступить двумя способами: либо поискать себе место для записи с хорошей
акустикой, либо "заглушить" свою комнату и записывать только "сухой" голос или музыкальный инструмент, а
реверберацию добавлять электронным способом при помощи процессора эффектов или компьютерной
программы.

Обычно для "заглушения" комнаты используются любые ковры, одеяла и т.д. То есть, вы просто завешиваете
стены любыми пористыми материалами, которые поглощают звук и не дают ему отражаться от стен.

Преобразование звуковых волн в электрический сигнал


С самого детства мы сталкиваемся с записями музыки на разных носителях - грампластинках, кассетах,
компакт-дисках и т.д. Сейчас существует два основных способа записи звука: аналоговый и цифровой. Но для
того, чтобы записать звук на какой-нибудь носитель (например, магнитофонную кассету), его нужно
преобразовать в электрический сигнал.

Это делается с помощью микрофона. Самые простые микрофоны имеют мембрану, которая колеблется под
воздействием звуковых волн. К мембране присоединена катушка, перемещающаяся синхронно с мембраной
в магнитном поле. А из школьных уроков физики вы, вероятно, помните, что в такой ситуации в катушке
возникает переменный электрический ток. Изменения напряжения тока точно отражают изменения плотности
воздуха в звуковых волнах.
Переменный электрический ток, который появляется на выходе микрофона, называется аналоговым
сигналом. Слово "аналоговый", применительно к электрическому сигналу, обозначает, что этот сигнал
непрерывен по времени и амплитуде. Он точно отражает форму звуковой волны, которая распространяется в
воздухе.

Уровень электрического сигнала


У любого бытового усилителя есть ручка громкости. С ее помощью вы изменяете уровень электрического
сигнала, который подается на акустические системы, заставляя последние звучать тише или громче. Обычно
в электронике для измерения уровня сигнала используются единицы напряжения: вольты или более мелкие
единицы - милливольты. Однако в звуковых приложениях принято измерять уровень сигнала в уже знакомых
вам по разделу «Уровень и громкость звука» логарифмических единицах - децибелах. Причем изменение
уровня сигнала в усилителе на 5 дБ приводит к изменению уровня звука в акустических системах на те же
самые 5 дБ. Это очень удобно, поэтому все измерители уровня как бытовых, так и профессиональных
звуковых устройств показывают уровни в логарифмических единицах.

В электронике применяются отрицательные значения уровня, выраженного в децибелах. Шкала начинается с


минус бесконечности (отсутствие напряжения) и доходит до нуля. Положительные значения уровня
указывают на перегрузку звукового тракта и, соответственно, возникновение искажений. Если у вас есть
кассетная дека с индикаторами уровня записи, то вы должны это знать: если уровень 0 дБ превышается, то
светятся красные сегменты индикаторов.

Как и в случае со звуковыми волнами, значение изменения уровня переменного электрического сигнала в
децибелах рассчитывается по формуле, знакомой вам из раздела « Уровень и громкость звука», только
значения звукового давления (силы звука) меняются на значения напряжения: N=20lg U2/U1, где U2 и U1 - это
конечное и начальное напряжение сигнала. За 0 дБ принято напряжение в 0.775 В.

Моно и стерео запись звука


Примерно до середины шестидесятых годов звук записывался на магнитофон при помощи одного микрофона,
а воспроизводился с помощью одной колонки. Такой метод записи и воспроизведения - монофонический или
моно - был хорош всем, кроме одного: в фонограмме отсутствовало привычное для нас пространственное
звучание. Это создавало определенный дискомфорт при прослушивании, ведь наш слух имеет
пространственную избирательность, то есть мы можем сосредоточиться на каком-то конкретном звуке. Когда
же прослушивается моно фонограмма, нам гораздо труднее выделить детали - они просто маскируются за
наиболее громкими звуками.

Поэтому сейчас стандартом является стерео запись и стерео воспроизведение фонограмм. В самом простом
случае запись производится с двух широко расставленных микрофонов на два независимых канала
магнитофона. То есть, как бы имитируется процесс восприятия звука нашим слуховым аппаратом. При
воспроизведении этой фонограммы через две широко расставленные колонки пространственная картина
восстанавливается, при этом мы получаем гораздо лучшую детализацию. Наш слух получает более
привычную звуковую картину, чем при моно записи.

Передаваемая в стерео фонограмме пространственная "картинка" называется стереопанорамой. В панораме


можно четко выделить три положения: левое, правое и центр. Звук, находящийся в центре, будет одинаково
громко воспроизводиться из двух колонок. Звуки, находящиеся в левом и правом крайних положениях, будут
слышны только в одной из колонок. Все остальные положения в панораме будут воспроизводиться
соответственно.

Представление сигнала в виде амплитудной и амплитудно-частотной


характеристик
Когда мы разговариваем о звуковых электрических сигналах и их обработке, то удобнее показывать все
происходящее на графиках. Чаще применяют два графика: амплитудный и амплитудно-частотный.

Первый показывает зависимость амплитуды сигнала от времени (Рис. 1). С его помощью очень удобно
иллюстрировать все процессы воздействия на динамический диапазон сигнала. Кроме этого все
современные компьютерные программы записи и обработки звука сразу представляют фонограмму в виде ее
амплитудной характеристики. Все монтажные операции гораздо удобнее делать над таким графическим
представлением сигнала: вы видите все паузы, начала и концы полезного сигнала и т.д.

Рис. 1

Амплитудно-частотная характеристика применяется в тех случаях, когда нужно посмотреть частотный спектр
сигнала. Такой график показывает зависимость уровня сигнала от его частоты. Вы очень легко сможете
посмотреть какой уровень имеет любая частотная полоса. С помощью амплитудно-частотной характеристики
удобно иллюстрировать процессы корректировки тембра звука. А в практической работе полезно не только
слушать результаты своих действий, но и визуально оценивать их.
Амплитудно-частотная характеристика может иметь два варианта представления. Часто используется
двухмерный график, который иллюстрирует частотный спектр сигнала в определенный момент времени. Но в
любой фонограмме спектр может меняться, например, в моменты вступления других музыкальных
инструментов. Поэтому для его динамического представления используется трехмерный график амплитудно-
частотной характеристики, в который добавляется ось времени (Рис. 2). Вы можете посмотреть все
изменения частотного спектра, которые происходят в фонограмме.

Рис. 2

В студиях звукозаписи для отображения амплитудно-частотной характеристики фонограмм используются


приборы, которые называются анализаторами спектра (Рис. 2). Они, как правило, измеряют уровень 31
частотной полосы, которые располагаются через 1/3 октавы. Результаты измерений выводятся на дисплей в
виде «столбиков», которые меняют свою высоту в зависимости от уровня той или иной полосы. Анализаторы
спектра часто встраиваются и в бытовые музыкальные центры, однако в бытовом варианте они редко имеют
больше 7-10 полос.

Рис. 3
Искажения звукового сигнала и помехи звукового тракта
Любая аудиоаппаратура (как любительская, так и профессиональная) не идеальна. Так или иначе, в звуковом
тракте присутствуют различные помехи, а при передаче сигнала последний искажается. Хорошая аппаратура
отличается от плохой лишь низким уровнем этих искажений и помех.

Идеальный звуковой тракт абсолютно линеен, то есть сигнал на входе точно соответствует сигналу на
выходе. Но в реальных условиях такой точности достичь невозможно. В любых схемах сигнал на выходе
немного отличается от входного. В таких случаях говорят, что звуковой тракт (звуковое устройство) привносит
в звук нелинейные искажения.

Если у вас есть магнитофон с ручной регулировкой уровня записи, то вы можете услышать, как проявляют
себя нелинейные искажения. При небольшом превышении уровня 0 дБ искажения практически не
ощущаются. Если вы увеличите уровень записи, то звук начнет менять свой тембр. При еще большем
увеличении в колонках появляются хрипы и явные искажения. Рис.1 иллюстрирует эти изменения сигнала.

Кстати говоря, с нелинейными искажениями отлично знаком любой гитарист, использующий в своей работе
эффекты овердрайв и дисторшн. Они имитируют звучание перегруженного лампового усилителя. То есть,
когда вы вращаете ручку Drive на эффекте, вы изменяете не что иное, как уровень нелинейных искажений.

Обычно производители указывают в спецификациях своих звуковых устройств величину коэффициента


нелинейных искажений. Эта величина указывается для сигнала, уровень которого не превышает уровень 0
дБ, то есть не происходит перегрузки. Коэффициент нелинейных искажений показывает в процентах на
сколько уровень чистого синусоидального сигнала с частотой 1000 Гц (не имеющего гармоник) больше уровня
гармоник, добавляющихся к сигналу в результате нелинейности звукового тракта. В качестве ориентира
можно дать такую цифру: мы не слышим нелинейные искажения, если их коэффициент не превышает 2-3%. У
современной высококачественной аппаратуры коэффициент нелинейных искажений составляет десятые или
сотые доли процента.
Теперь давайте поговорим о помехах в звуковом тракте. Они в любой аппаратуре гораздо сильнее портят
фонограмму, чем нелинейные искажения. Помехи бывают трех видов: фон, внешние наводки и шум.

Фоном называется низкое однотонное гудение с частотой 50 или 100 Гц. Чаще всего его можно услышать в
различных усилителях. Возникает фон в результате плохой фильтрации переменного тока питания. Другая
причина возникновения фона - электромагнитные наводки со стороны близко расположенных сетевых шнуров
другой аппаратуры. Но наводки проявляются не только в виде фонового низкочастотного гудения. Любые
источники сильного электромагнитного излучения: компьютерные мониторы, телевизоры, трансформаторы,
близко расположенные радиостанции и т.д. - способны оказывать на аппаратуру воздействие. Гитаристы
часто слушают в своих акустических системах разные передачи радио - это одно из проявлений наводок.

В дорогих звуковых устройствах фон и наводки обычно отсутствуют. Этого добиваются, во-первых, при
помощи хорошей фильтрации питающего тока, а во-вторых, применяя разного рода экраны - металлические
кожухи, которые защищают устройства от электромагнитных наводок. На качественной аппаратуре наличие
металлического, а не пластмассового корпуса - признак хорошей экранировки. Помимо узлов аппаратуры
всегда экранируются соединительные шнуры, по которым передается электрический сигнал. Шнуры без
экранировки представляют собой отличные антенны.

Шумом обычно называют однотонное шипение (вы наверняка хорошо с ним знакомы, если у вас есть
дешевые магнитолы или другие недорогие звуковые устройства). Такое шипение еще называют иногда "
белым шумом ". Это собственное шипение радиодеталей, и бороться с ним гораздо сложнее, чем с фоном.
Высокая цена на качественную технику во многом объясняется тем, что в ней используются специально
отобранные детали с низким собственным уровнем шума.

Практически во всех спецификациях звуковой аппаратуры вы найдете такой параметр как соотношение
сигнал/шум. Это соотношение показывает насколько уровень шумов в звуковом тракте меньше полезного
сигнала, имеющего уровень 0 дБ. Иногда в спецификациях приводится отрицательное значение уровня шума.
Смысл такого представления точно такой же: это уровень шума относительно 0 дБ.

Для того, чтобы вам было легче ориентироваться в спецификациях, приведем следующие цифры.
Соотношение сигнал/шум у современной магнитной ленты находится в районе 55-60 дБ, то есть любой
магнитофон, воспроизводя эту ленту с отключенной системой шумоподавления, шипит именно на таком
уровне. Граница уровня шумов у современной профессиональной звуковой техники находится на уровне 80
дБ. Лучшие звуковые карты, дорогие бытовые компакт-диск проигрыватели и минидисковые деки имеют
схожее или лучшее соотношение сигнал/шум.

Однако все эти цифры справедливы только для шума, то есть собственного шипения радиодеталей, из
которых собрано звуковое устройство. Соотношение сигнал/шум не учитывает фон и наведенные шумы.
Поэтому реальный уровень шумов звуковой аппаратуры может иметь уровень гораздо больший, чем
написано в спецификации. Особенно часто этим страдает дешевая техника, так как производители
предпочитают не тратить деньги на экранировку и другие подобные "излишества". Поэтому цифрам
соотношения сигнал/шум можно верить только для дорогой аппаратуры, которая заведомо хорошо
экранируется и защищается от сетевых помех.

Чем цифровая запись лучше аналоговой?


Самым главным недостатком аналоговой записи на магнитную ленту является старение носителя. За год
фонограмма, которая имела нормальный уровень высоких частот, может потерять их. Виниловые
грампластинки имеют тот же самый порок - достаточно несколько раз проиграть их и качество уже не то.

Когда в начале 80-х годов появились компакт-диски, то одними из самых главных преимуществ нового
носителя назывались долговечность и неподверженность механическому старению. Это не означает, что
можно использовать CD в качестве подставки для чайника, а потом ставить в проигрыватель. Речь идет о
чисто механическом износе во время воспроизведения. Теоретически, цифровой диск может служить вечно,
если его не царапать и аккуратно обращаться.

Вторым важным преимуществом цифрового формата является отсутствие потерь при перезаписи. Если вы
переписываете понравившийся альбом с пластинки на кассетную деку, то качество звука ухудшается. Еще
одна перезапись - и звук снова ухудшается. При цифровой перезаписи таких потерь нет. Вы можете
копировать компакт-диск множество раз, однако никакого ухудшения фонограммы не услышите.

Последним достоинством цифровой техники является лучшее соотношение цена/качество. Качество звука у
дешевого компакт-диск проигрывателя гораздо лучше, чем у дешевого "кассетника". Аналоговые
магнитофоны, которые имеют звук, лучший чем у дешевых CD плееров стоят намного дороже. Поэтому
покупатели делают совершенно разумный выбор в пользу цифровой техники.

Однако утверждение о том, что любая цифровая запись лучше, чем аналоговая не совсем соответствует
действительности. Многие аналоговые магнитофоны записывают звук гораздо лучше, чем цифровые.
Поэтому они до сих пор активно используются во многих профессиональных студиях. В некоторых ситуациях
звукорежиссеры вообще однозначно отдают предпочтение аналоговой записи. Например, считается, что
итоговую фонограмму (мастер) лучше записывать не на цифровой DAT магнитофон, а на двухканальные
катушечные магнитофоны на скорости 38 см/с, и уже потом переводить в цифровой вид. Поэтому не думайте,
что цифровая запись автоматически дает отличное качество звука.

Цифро-аналоговое и аналого-цифровое преобразование


Звуковые волны при помощи микрофона превращаются в аналоговый переменный электрический сигнал.
Этот сигнал (Рис.1, схема 1) проходит через звуковой тракт и попадает в аналого-цифровой
преобразователь(АЦП) - устройство, которое переводит сигнал в цифровую форму.

В упрощенном виде принцип работы АЦП можно описать


так: он измеряет через определенные промежутки времени амплитуду сигнала и передает дальше, уже по
цифровому тракту, последовательность чисел, несущих информацию об изменениях величины амплитуды
(Рис. 1, схема 2).

Во время аналого-цифрового преобразования на самом деле никакого физического преобразования не


происходит. С электрического сигнала как бы снимается отпечаток или образец, являющийся цифровой
моделью колебаний напряжения в аудиотракте. На схеме 2 эта модель представлена в виде
последовательности столбиков, каждый из которых соответствует определенному числовому значению. На
этой схеме видно, что цифровая модель не совсем точно соответствует форме аналогового сигнала. Поэтому
говорят, что цифровой сигнал по своей природе дискретен - то есть, прерывист.

Промежуток времени между двумя измерениями амплитуды аналогового сигнала называется семплом (или
«отсчетом» в отечественной литературе) С английского слово Sample дословно переводится как "образец".
Поэтому это слово в мультимедийной и профессиональной звуковой терминологии имеет несколько
значений, для обозначения разных видов "образцов". Кроме промежутка времени семплом называют любую
последовательность цифровых данных, полученных в результате аналого-цифрового преобразования, а сам
процесс преобразования – семплированием.

Вывод цифрового звука осуществляется при помощи цифро-аналогового преобразователя(ЦАП), который на


основании поступающих цифровых данных в соответствующие моменты времени генерирует электрический
сигнал необходимой амплитуды (Рис.1., схема 3). А в акустических системах этот сигнал преобразуется в
звуковые волны, которые мы слышим.

Одним из двух ключевых параметров процесса оцифровки является частота семплирования (частота
дискретизации) - количество измерений амплитуды аналогового сигнала в секунду. Так как диапазон
колебаний звуковых волн лежит в пределах от 20 Гц до 20 кГц, то количество измерений сигнала в секунду
должно быть больше, чем количество колебаний звуковой волны за тот же промежуток времени. На Рис.2.
показано, что происходит, если частота семплирования гораздо ниже, чем частота звуковой волны: за время
между измерениями амплитуда сигнала успевает несколько раз измениться, в результате чего цифровой
отпечаток несет хаотичный набор данных. При цифро-аналоговом преобразовании такой семпл будет
выдавать только шум, а основной сигнал передаваться не будет.

Рис 2

Поэтому для качественного преобразования применяют частоты более чем в два раза превышающие
верхнюю границу звукового диапазона: 44.1 и 48 кГц. А в новом формате компакт-дисков под названием Audio
DVD применяется частота семплирования 96 кГц. То есть за 1 секунду сигнал измеряется 96 тысяч раз!

В мультимедийных приложениях очень часто применяют меньшие частоты: 11, 22 и 32 кГц для экономии
места на жестком диске. Но с уменьшением частоты семплирования сразу уменьшается слышимый диапазон
частот, а то, что слышно - довольно сильно искажается. На Рис.3. представлены четыре графика,
показывающие с одинаковым масштабом один и тот же звук высотой 1 кГц (этой частоте примерно
соответствует нота До седьмой октавы фортепиано), но семплированный с разной частотой (нижняя часть
синусоиды на всех рисунках не показана). Одно деление на горизонтальной оси, показывающей время,
соответствует 10 семплам. Все эти рисунки были получены при помощи аудиоредактора Sound Forge 4.5.
Рис 3

Вы видите, что на частоте 11 кГц на каждые 50 семплов приходятся примерно 5 колебаний звуковой волны, то
есть один период синусоиды отображается всего лишь при помощи 10 значений. При таком отображении ни о
какой точной передаче говорить не приходится. Зато при частоте оцифровки 44 кГц на каждый период
синусоиды приходится уже почти 50 семплов - такая точность отображения позволяет получить сигнал
хорошего качества.

Теперь давайте разберемся с другим ключевым параметром цифрового преобразования - разрядностью


семплирования. Этот параметр указывает, с какой точностью происходят измерения амплитуды аналогового
сигнала.

Посмотрите еще раз на Рис 1. Точность, с которой при оцифровке передается значение амплитуды сигнала в
каждый из моментов времени («столбики» на схеме 2), фактически определяет качество сигнала после
цифро-аналогового преобразования. От этой точности зависит достоверность восстановления формы волны.

Любое цифровое устройство, в том числе и компьютер на аппаратном уровне может оперировать только с
двоичным кодом. Этот код позволяет представить любую информацию в виде нулей и единиц. Такой способ
обмена информацией гораздо проще реализовать технически - ведь любое цифровое устройство
представляет собой электрический "ящик". Например, одна величина напряжения соответствует нулю, а
другая величина - единице. Сделайте побольше разницу между этими двумя величинами и вероятность
ошибки практически сводится к нулю. А если бы тот же компьютер на аппаратном уровне оперировал
десятичными цифрами, нам пришлось бы вводить десять значений напряжения, чтобы закодировать цифры с
0 до 9. Это уменьшает надежность системы.

Минимальной информационной единицей в двоичной системе является бит(иногда его называют


«разрядом») Он может принимать два значения - 0 и 1, то есть одним битом можно представить два
десятичных числа. Двумя битами - уже четыре числа (используя все возможные комбинации нолей и единиц:
00, 01, 10, 11). Тремя битами - восемь чисел и т.д.

Именно такой принцип и применяется для кодирования значения амплитуды сигнала. Обычно используется 8
или 16 битное представление значений амплитуды. Давайте остановимся на этом моменте подробней.

Если при оцифровке используется 8-битное кодирование, то измерения амплитуды аналогового сигнала
будут производиться с точностью до 1/256 от динамического диапазона цифрового устройства (8 бит
8
позволяют представить 2 чисел - 256). Такая точность недостаточна для достоверного восстановления
исходного сигнала: будут велики нелинейные искажения. Поэтому 8-битное кодирование применяется
преимущественно в мультимедиа-приложениях, где не требуется высокое качество звука.
Если же мы повысим разрядность представления значений амплитуды аналогового сигнала до 16 бит, то
16
точность измерения возрастет не в два раза, а в 256. Ведь 16 бит позволяют закодировать уже 2 =65536
значений амплитуды. Такая точность кодирования позволяет нелинейные искажения свести к минимуму.
Именно разрядность 16 бит используется при записи компакт-дисков.

В современных же преобразователях используется 24-битное кодирование сигнала. Такая разрядность


24
позволяет получить 2 =16777216 значений амлитуды, что более чем достаточно для высококачественной
оцифровки звука.

Здесь надо остановиться и поговорить об одной особенности оцифровки. Все приведенные выше данные
справедливы только для сигнала, имеющего максимальный уровень 0 дБ. Если преобразуется сигнал,
имеющий уровень -6 дБ с разрядностью 16 бит, то реально для кодирования его амплитуды будет оставаться
15 бит. Для сигнала с уровнем -12 дБ эта цифра будет составлять 14 бит. То есть с уменьшением уровня
сигнала будет уменьшаться разрядность его оцифровки и, соответственно, увеличиваться уровень
нелинейных искажений (в технической литературе эти искажения иногда называются шумом квантования).
Уменьшение уровня на каждые 6 дБ будет "съедать" 1 бит. В результате, для кодирования амплитуды
сигнала с уровнем -90 дБ у нас останется всего 1 бит.

Этот недостаток 16-битного кодирования и является основным катализатором введения нового бытового
цифрового формата Audio DVD, у которого помимо частоты семплирования 96 кГц используется разрядность
24 бита. Ожидается, что через несколько лет он полностью вытеснит с рынка обычные компакт-диски.

Теперь давайте подсчитаем, сколько места будет занимать одна минута цифрового звука на жестком диске
или любом другом цифровом носителе. Если мы записываем моно сигнал с частотой 44.1 кГц, разрядностью
16 бит (2 байта), то каждую минуту аналого-цифровой преобразователь будет выдавать 44100х2х60=5292000
байт, т.е. около 5 Мб данных об амплитуде аналогового сигнала, которые в компьютере записываются на
жесткий диск. Стерео сигнал уже будет занимать 10584000 байт или около 10 Мб. Объем данных для 11, 22
или 32 кГц вы можете подсчитать самостоятельно.

П родолжаем знакомиться с формами представления музыки в компьютерных программах. В

предыдущем выпуске журнала мы рассмотрели нотатор, отпечатки клавиш, виртуальный гитарный


гриф и отпечатки пальцев. И это были еще цветочки. А сегодня наступило время ягодок. Речь пойдет
о списке сообщений, привилегированных системных сообщениях, треках и клипах.

Список сообщений
Если ноты - язык общения музыкантов, то список сообщений - это привычная среда работы
программистов.

Каждое сообщение (Event) занимает в списке одну строчку и, по существу, представляет собой
указание, которое должен выполнить музыкальный компьютер в определенный момент времени.

Для MIDI-редактора сообщения - это наиболее естественная форма представления музыкальной


информации. Более того, MIDI-система способна принимать и выполнять только те сигналы, которые
являются MIDI-сообщениями. Вы записываете ноты, наносите отпечатки клавиш и пальцев, а
компьютер, в конечном счете, все равно преобразует их в сообщения.

Что ж это за такой страшный зверь - сообщение? На самом деле MIDI-сообщения - это всего лишь
закодированные числами команды органам управления синтезатором - контроллерам. Наиболее
часто встречаются команды Note On (включить звучание определенной ноты в такой-то момент
времени с такой-то громкостью) и Note Off (выключить звучание ноты в такой-то момент времени).
Вы помните, что все MIDI-ноты пронумерованы от 0 до 127.
Кроме этих команд MIDI-сообщения могут содержать указания о смене инструмента, перестройке
частотного фильтра, нажатии педали, виде и глубине эффекта, а также многое другое. Соответствие
чисел командам стандартизировано. Правда, одновременно имеют хождение целых три стандарта:
GM, GS и XG (см. "Магия ПК", 2001 № 3). Смысл основных команд в них, к счастью, совпадает.

Стандарты стандартами, но они не должны сдерживать прогресс. Продвинутые фирмы-изготовители


стремятся предоставлять пользователю все новые и новые возможности управления синтезом. Для
расширения функций синтезатора в MIDI предусмотрено несколько путей. Один из них -сообщения
типа NRPN (нерегистрируемые параметры). Если разработчик придумывает что-нибудь эдакое, что
не предусмотрено стандартом, то управление этим "чем-нибудь" можно осуществлять посредством
NRPN.

В документации на звуковые карты сведения об NRPN приводятся в виде таблиц, в которых в


шестнадцатеричной системе счисления содержатся значения младшего (LSB) и старшего (MSB)
байтов номеров NRPN. А редакторы MIDI-сообщений, в частности, Event List программы Cakewalk
Pro Audio требуют вводить номер NRPN в виде одного десятичного числа. Мне доподлинно известно,
что многие музыканты отказываются от попыток использования расширенных возможностей синтеза
из-за неспособности преодолеть это несоответствие. Вычисляют десятичное значение необходимого
NRPN, с помощью окна Event List посылают это сообщение, и… никакой реакции со стороны
синтезатора. Дело вовсе не в том, что некоторые "лирики" не в ладах с "физикой" и не знают, как
перевести число из одной системы счисления в другую. Эта проблема решается элементарно,
например, с помощью стандартного калькулятора MS Windows. Все сложнее и, в то же время, проще.
Суть состоит в том, что посылают они сообщения буквально "на деревню дедушке", промахиваясь
мимо требуемого адреса, как минимум, на 256 "домов".

"Магия ПК" - это интересно, а вот магия стереотипов - страшное дело. Все привыкли думать, что байт
- это 8 бит. Однако в байте MIDI-сообщения один бит не является значащим, это бит статусный,
говорящий о том, какая информация передается - MIDI-команда или MIDI-данные. По этой причине
вес младшего бита старшего байта (MSB) составляет не 256, а 128. Вот и весь секрет, о котором и
вы теперь будете знать. Правда, это только один из сотен секретов успешной работы над музыкой с
помощью компьютера. Еще парочку тайн я выдам сегодня, а о других - в следующих выпусках
журнала.

Редактор MIDI-сообщений есть в музыкальной программе каждой уважающей себя фирмы.


Разработчики же программы Cakewalk Pro Audio пошли еще дальше. В окне Event List, можно
редактировать не только MIDI-сообщения, но и сообщения еще нескольких типов. Среди них: тексты
песен, обозначения аккордов, параметры действия символов крещендо и диминуэндо, команды
воспроизведения звуковых файлов, команды управления любым мультимедийным оборудованием
компьютера, привилегированные системные сообщения, позволяющие добраться до самых дальних
закоулков синтезатора.
Рис. 1. Окно Event List - список сообщений

Список сообщений - это таблица. В ячейках таблицы содержится время выполнения сообщения, его
тип и параметры. Редактирование содержания таблицы производится мышью с помощью меню и
полей ввода.

С помощью окна Event Manger вы можете избирательно выводить на экран сообщения любых
необходимых типов (рисунок дает наглядное представление о типах сообщений, поддерживаемых
программой Cakewalk Pro Audio).

Рис. 2. Окно Event Manger

А если, скажем, вы захотите поместить над нотным станом символы табулатур (сообщения типа
Chord), то достаточно вызвать окно редактора аккордов, а уж в нем найдется любое разрешенное
теорией гармонии звукосочетание, представленное в графическом виде.
Рис. 3. Редактор аккордов

В ряду типов MIDI-сообщений особый статус принадлежит привилегированным системным


сообщениям (Sysx). Посредством них осуществляется управление большинством неочевидных
ресурсов любого синтезатора. Доступ к нестандартным контроллерам управления параметрами
синтеза, регистрам синтезатора, эффект-процессору, загрузка в память синтезатора установок
патчей и даже целых сэмплов - основой всего этого являются привилегированные системные
сообщения.

Можно сказать, что все прочие MIDI-сообщения обеспечивают соответствие звуковой карты или
синтезатора минимальным требованиям, а NRPN и особенно Sysx наращивают ваши возможности
управления звуком сверх предусмотренных стандартом.

О том, какие системные сообщения "понимает" ваш синтезатор, можно узнать, прочитав его
техническое описание. Для их редактирования пересылки и приема в Cakewalk Pro Audio
предназначено специальное окно Sysx, представленное на рисунке.

Рис. 4. Работа с банками системных сообщений

Пользуясь этим окном, вы можете либо манипулировать банками системных сообщений, либо
редактировать содержание отдельного системного сообщения. Во втором случае вам опять
придется иметь дело с последовательностью шестнадцатеричных чисел.
Рис. 5. Редактирование содержания системного сообщения

А вот и еще один из обещанных секретов. Системное сообщение обязательно должно начинаться с
шестнадцатеричного числа F0 и заканчиваться числом F7. Это границы системного сообщения. А его
"начинка" определяется типом синтезатора и смыслом передаваемой информации. Например,
сообщение F0 43 10 4C 02 01 00 13 00 F7 правильно поймет только синтезатор звуковой карты
стандарта XG (принадлежность синтезатора к детищам славной фирмы Yamaha закодирована
числами 43 10 4C). И означает оно, что для эффект-процессора выбран вариант реверберации,
имитирующий акустическую обстановку мрачного подземелья.

А теперь раскрою третий даже не секрет, а небольшой такой секретик. Системные сообщения часто
хранятся в MIDI-файлах и загружаются вместе с ними. Почти наверняка в начале каждого файла,
"скачанного" из INTERNET, хранится сообщение о системном сбросе. Так вот, подобные сообщения
для звуковых карт, соответствующих стандартам GM, GS и XG, различны. И если вдруг при
воспроизведении очередная отлично знакомая вам MIDI-композиция звучит не похоже на саму себя,
очень может быть, что в предыдущей композиции содержалось сообщение о сбросе для другого
стандарта, а не того, что поддерживается вашей звуковой картой. Как с этим бороться? Либо
записывайте в начало всех ваших композиций одно из системных сообщений GMSYSTEM.SYX, GS-
RESET.SYX, XG-RESET.SYX (то, которому соответствует ваша звуковая карта), либо посылайте его
в реальном времени перед воспроизведением очередной композиции с помощью окна Sysx.

Техника работы со списком сообщений и редактором системных сообщений не сложна. Главное


заключается в другом: нужно знать, какое именно сообщение и с какими параметрами уместно в том
или ином случае. В краткой статье об этом рассказать невозможно. Необходимо, как минимум,
несколько десятков страниц. Могу посоветовать обратиться к нашей книге "Cakewalk Pro Audio 9.
Секреты мастерства", в ней вы:

• Найдете материал о сообщениях, которыми можно изменить диапазон колеса перестройки тона,
переключить тип реверберации и хоруса в MIDI-устройствах фирм Roland и Yamaha, в звуковых
картах SB Live! и Turtle Beach Tropez Plus
• Узнаете, что такое регистрируемые и нерегистрируемые параметры, и как с их помощью управлять
контроллерами, в явном виде недоступными
• Познакомитесь с методикой безошибочного вычисления номера контроллера по его младшему и
старшему значащим байтам с использованием калькулятора MS Windows для перевода чисел из
шестнадцатеричной в десятичную систему счисления и обратно

Конечно, можно и не пытаться освоить редактирование сообщений, а работать только с нотами и


отпечатками клавиш. Но, во-первых, без редактирования сообщений вам не удастся точно
установить значения многих параметров синтеза звука, значит, и в музыке ваш замысел до конца не
будет воплощен. А во-вторых, процентов, этак, 90 возможностей звуковой карты вам будут просто
недоступны. За что, спрашивается тогда, столько "у.е." платили?

Треки и клипы
У каждой из рассмотренных форм компьютерного представления музыки есть свои достоинства. Все
вместе они позволяют эффективно решить любую проблему понотного редактирования. Но в любом
музыкальном редакторе профессионального уровня музыкальная информация может быть
представлена не только отдельными нотами или сообщениями, но и в виде блоков сообщений.
Такими блоками могут считаться треки и клипы.

Трек - это группа сообщений, направляемая в определенный канал и порт вывода - MIDI или аудио.
А клип - это группа сообщений, с которой можно производить операции редактирования, как с
единым целым.

На рисунке вы видите окно Track программы Cakewak Pro Audio. Его левая часть - это секция треков.
Для каждого их них нужно задать несколько атрибутов: номер и имя трека; его состояние (заглушен
или звучит, солирует, подготовлен к записи); порты ввода и вывода; закрепленные MIDI-инструмент
и MIDI-канал; громкость; панораму, интервал транспонирования, смещение событий относительно
тактовой сетки.

Рис. 6. Окно Track программы Cakewak Pro Audio

Прямоугольники (вообще-то цветные) в правой части окна - клипы.

В одном предельном случае клип - это одно сообщение, в другом - вся композиция или как мы
говорим, весь сонг. Но практическое применение находят только клипы, объединяющие в себе часть
композиции. Примеры клипов:

• Один или несколько тактов нескольких треков


• Один трек
• Несколько треков
• Логически завершенный фрагмент композиции, скажем, куплет или припев
Технология клипов в сотни раз ускоряет работу компьютерного музыканта. В каких ситуациях?
Например, записали вы 4 такта барабанной партии, выдели их в отдельный клип и путем
копирования размножили клип так, что образовалась партия, насчитывающая десятки, а то и сотни
тактов.

Или: записали один куплет и один припев песни, выделили это в клип и размножили в необходимом
количестве экземпляров.

Еще один пример. Записали солирующую партию в исполнении фортепиано. Захотелось найти
какой-то оригинальный тембр. Вот он - синтезированный звук плачущей флейты! Но у этого звука
большое время атаки, он медленно нарастает. Создается впечатление запаздывания. Хорошо бы
сделать так, чтобы ноты этой партии брались с небольшим опережением. Если вы не работаете с
клипами, то станете передвигать каждую ноту, на что уйдет уйма времени. Да еще придется делать
это не один раз. А вот после объединения партии в клип, все ноты вы сможете переместить одним
легким движением руки с мышью.

И MIDI-, и аудиотреки в окне Track можно разбить на клипы. Клип можно скопировать, вырезать,
мышью перенести в любое место партитуры. Можно применить к выделенному клипу любую
обработку, MIDI или аудиоэффекты (о них я обязательно расскажу в будущем). Несколько клипов
можно объединить в один.

Особенно интересна технология связанного копирования клипов, когда любое изменение в одном из
связанных клипов автоматически распространяется на все остальные. Очень это удобно при
редактировании однотипных фрагментов, скажем, куплетов.

Мы с вами, уважаемый читатель, хоть и компьютерные, но все же музыканты. Образные выражения


в нашем общении допустимы. Поэтому скажу, что клипы и треки - это средство обзора композиции в
целом, с высоты птичьего полета. Это не только наглядное графическое отображение структуры
партитуры, но и возможность быстрого и легкого переноса партий и их фрагментов во времени и
пространстве музыкального произведения.

Клипы и треки - это, по сути дела, инструменты дирижера. Причем, виртуальные оркестранты этому
дирижеру подчиняются безоговорочно, замысел его понимают абсолютно и воплощают в музыке
идеально.

Ч то такое трехмерный звук и почему по этому поводу возникает так много споров? Как

соотносится понятие "трехмерное, пространственное звучание" со способностью человека


воспринимать звук двумя ушами? Эти вопросы часто задают себе как пользователи так и
профессионалы. Дело в том, что повсеместное использование понятий 3D (3D графика, 3D звук)
вносят сумятицу и неразбериху в головы простых пользователей. Зачастую эти понятия
используются, мягко говоря, не совсем уместно, что вносит дополнительный раздор в их
употребление и правильное понимание. 3D графика - тема не этой статьи. Здесь же мы остановимся
на трехмерном звуке.
Реализация пространственного звучания (3D звука) в том или ином виде, применительно к
компьютерной технике, используется для придания естественности звуку в компьютерных играх или
фильмах, для создания полного ощущения погружения в процесс игры или просмотра фильма. Такая
постановка задачи делает недостаточным использование обычного стереофонического звучания.
Это связано с тем, что стерео сигнал, приходящий к слушателю от двух физических источников
звука, не обеспечивает объемного звучания, а определяет расположение мнимых (слышимых)
источников лишь в той плоскости, в которой расположены реальные (физические) источники звука.
Кстати, как ни парадоксально, "stereophonic" на самом деле обозначает "трехмерный звук" (от греч.
"stereos" - пространственный, трехмерный, цельный). Таким образом, обычного стерео сигнала не
достаточно для создания полного реализма звучания, когда источники звука могут находиться в
трехмерном пространстве. Также заблуждением является мысль, что объемное звучание
обеспечивается квадрофонической системой (два источника перед слушателем и два сзади). Дело в
том, что также, как и в стереофонической системе, здесь все четыре источника находятся в одной
плоскости, что не позволяет создать полное ощущение трехмерного звучания.
В целом можно обозначить три основных способа реализации пространственного звучания:

расширение стерео базы (Stereo Expansion) - специальная обработка уже имеющегося стерео
сигнала и, таким образом, расширение кажущегося звукового поля (имитация расширения
расстояния между источниками);

позиционирование звучания (Positional 3D Audio) - оперирование с множеством отдельных


звуковых потоков и расположение каждого из них в пространстве вокруг слушателя;

виртуальный (мнимый) окружающий звук (Virtual Surround Sound) - использование определенного


числа звуковых потоков с целью воспроизведения истинного звучания с помощью ограниченного
числа физических источников звука.

Что это все означает на практике? На практике это означает, что метод расширения стерео базы
относительно прост в реализации и очень часто находит применение в стерео фонической бытовой
технике. Однако, в той же степени, на сколько проста его реализация, сам метод не дает ощущения
"трехмерного звучания" в том понимании, в котором мы его себе представляем, по причине
обеспечения звучания лишь в одной плоскости. Не достаточно также и применения так называемого
панорамирования. Панорамирование (panning) - это управление уровнем сигнала в каналах, в не
зависимости от частоты сигнала. Панорамирование позволяет создавать иллюзию перемещения
мнимого источника сигнала где-то между физическими источниками (разумеется, в одной с ними
плоскости).

Для создания более или менее реалистичного объемного звучания необходимо что-то
принципиально другое. Попытаемся в этом разобраться.

Как ни странно, но вся проблема в устройстве слухового аппарата человека. Оказывается, что он на
столько не совершенен, что даже в реальной жизни мы можем столкнуться с трудностями,
связанными с неточностью восприятия звуковых сигналов и определения их пространственного
месторасположения. Все дело в том, что все мы живем на планете Земля и все время
существования человека его основная пища и враги находились в плоскости, параллельной земле.
Поэтому, два уха, расположенные по обеим сторонам головы, позволяют нам определять
расположение источников звука только лишь в горизонтальной плоскости (бинауральный эффект).
При этом мы очень плохо различаем звук идущий спереди и сзади. Способность оценки
человеческим ухом (слуховым аппаратом) расположения источников звука в вертикальной плоскости
также крайне ограничена. Кроме того, тело слушателя, в частности, голова, уши и туловище,
является, как известно, препятствием на пути распространения звуковых колебаний. Взаимодействуя
с телом звук отражается, затухает и искажается, что приводит к восприятию слушателем не
исходного, а измененного звучания. Все это создает трудности имитации пространственного
звучания.

Что же происходит внутри нас? Приемником сигнала в человеке является барабанная перепонка,
скрытая ушной раковиной. При восприятии звука, мозг как бы декодирует получаемый от барабанной
перепонки сигнал, интерпретируя его определенным образом для правильного определения
пространственного местоположения источника/ков звука. И именно это рассуждение взято в основу
всех существующих на сегодня технологий создания пространственного звучания.

Оказывается, если произвести специальную обработку звукового потока с учетом максимального


числа особенностей восприятия звука слуховым аппаратом, то, возможно, удастся имитировать
пространственное звучание даже с использованием всего двух источников (колонок или наушников).
Необходимо подчеркнуть, что любой алгоритм создания 3D звука реализовывается с помощью
алгоритмов фильтрации (оперирующих с амплитудой и частотой звукового сигнала) той или иной
сложности, которые определенным образом "обманывают" слуховой аппарат, "заставляя его
считать", что то, что он слышит, расположено в трехмерном пространстве вокруг слушателя.

Одним из таких алгоритмов (способов) является HRTF - Head Related Transfer Function. Посредством
этого алгоритма звук можно преобразовать специальным образом, что обеспечит прекрасное 3D
звучание, рассчитанное на прослушивание в наушниках (пояснение этому можно найти чуть ниже).
Следует отметить, что HRTF (в том или ином виде) является основой создания множества
существующих на сегодня методов создания объемного звучания. Однако мы не даром заговорили о
HRTF как об одном из алгоритмов, так как этот алгоритм в чистом виде (впрочем, как и все
остальные) не является единственным и совершенным. Все дело в том, что HRTF неодинаков для
различного слушателя и, тем более, для различных положений головы (если речь идет о
воспроизведении не через наушники). Безусловно, есть способы найти сбалансированный HRTF для
всех слушателей, но такой подход не обеспечивает высокочеткое восприятие звука для каждого, и
уж тем более не решает проблему с поворотами головы. Наверное, именно поэтому стандарт на
HRTF не существует до сих пор.

Конечно, если в качестве источников звука будут выступать наушники, закрепленные на голове
слушателя, то их расположение относительно головы слушателя не будет изменяться, какие бы
повороты головы не производились. В этом случае, как мы сказали, с использованием HRTF может
быть достигнуто высококачественное пространственное звучание. В случае же, если источниками
являются, например, две колонки, то, кроме всего прочего, для создания естественного
пространственного звучания необходимо, в частности, точно отслеживать повороты слушателем
головы для соответствующей корректировки сигналов от каждого физического источника. Кроме того,
при воспроизведении звука через наушники, сигнал от каждого канала попадает только в
соответствующее ухо, а при воспроизведении через колонки сигналы могут смешиваться, в
результате чего появляются перекрестные искажения. Этот недостаток частично устраняется с
помощью специального устройства - бифонического процессора.

Итак, как мы сказали выше, при использовании в качестве источников звука колонок, возникает
проблема необходимости расположения слушателя строго в определенной области пространства
между источниками звука. Эта область называется Sweet Spot. При отсутствии возможности
контролировать положение слушателя в пространстве относительно источников звука при прочих
равных условиях, Sweet Spot накладывает строгие ограничения на расположение слушателя. Это
значит, что как только слушатель покидает область Sweet Spot, звучание, создаваемое источниками,
перестает восприниматься слушателем как пространственное. Поэтому, при создании технологий
объемного звучания перед разработчиками возникает проблема расширения области Sweet Spot.
Одним из эффективных методов решения этой проблемы является введение дополнительного
третьего источника звука, когда слушатель становится независимым от области Sweet Spot.
Трехканальные системы объемного звучания часто используются в бытовой аудио и видео
аппаратуре. Существуют также многоканальные (трех-, четырех- и более) расширения этого метода.

Однако наряду с проблемами реализации трехмерного звучания с помощью HRTF, у любой системы
звуковоспроизведения есть проблемы другого плана. Так, например, наушники слабо справляются с
воспроизведением фронтальных сигналов. При использовании наушников также возникает проблема
локализации звукового сигнала внутри головы слушателя, а также эффект бесконечного расширения
стерео базы. Конечно, существуют способы борьбы с этими эффектами, однако всех проблем это не
решает. Двухканальные системы плохо обеспечивают восприятие слушателем звучания сзади. В
реализации многоканальных систем слабым местом является необходимость достаточно точного
расположения источников сигнала, потому что как раз это зачастую сделать затруднительно. Кроме
того, здесь также существует проблема звучания в одной плоскости.

Таким образом, создание настоящего качественного пространственного звучания затруднено как


необходимостью учитывать все особенности слухового аппарата человека, так и необходимостью
динамического отслеживания положения слушателя относительно источников звука, а также учета
особенностей звукопередачи последних. По этому, сложно сказать, какая схема создания 3D звука
более совершенна. Гораздо легче сказать, что все существующие схемы далеки от совершенства, и
все технологии 3D звука, построенные на использовании HRTF или других алгоритмов, имеют массу
недостатков, так как просто невозможно создать универсальную схему, учитывающую все
вышеперечисленные особенности слуха, источников звука и их расположения относительно
слушателя.

В качестве справки отметим, что для создания библиотек HRTF используется искусственный
манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное "цифровое ухо".
В случае использования манекена суть измерений состоит в следующем. В уши манекена
встраиваются микрофоны. Звук воспроизводится источниками, расположенными вокруг манекена, а
запись производится с микрофонов. В результате, запись от каждого микрофона представляет собой
звук, "прослушанный" соответствующим ухом манекена с учетом всех изменений, которые звук
претерпел на пути к уху. Расчет HRTF производится с учетом исходного звука и звука, "услышанного"
манекеном.

Следует сказать также, что мы рассмотрели лишь одну сторону реализации полноценного
пространственного звучания. Дело в том, что на ряду со сложностями, связанными с "правильной"
передачей объемности звучания, при создании игр возникают также проблемы корректной имитации
различных физических свойств звука (эффектов отражения от различных поверхностей, поглощения
и искажения звука). Грамотная реализация этих свойств также коренным образом влияет на
ощущение слушателем пространственности звучания. Однако, эта проблема в основном касается
аккуратности механизмов, закладываемых разработчиками в игры. Что же касается рассмотренной
нами выше проблемы <донесения> трехмерного звука до пользователя (а вернее, до его нервной
системы), то она остается не решенной, так как идеальные модели реализации трехмерного
звучания еще не найдены.

Звуковое сопровождение компьютера всегда находилось несколько на втором плане. Большинство


пользователей более охотно потратят деньги на новейший акселератор 3D графики, нежели на
новую звуковую карту. Однако за последний год производители звуковых чипов и разработчики
технологий 3D звука приложили немало усилий, чтобы убедить пользователей и разработчиков
приложений в том, что хороший 3D звук является неотъемлемой частью современного мультимедиа
компьютера. Пользователей убедить в пользе 3D звука несколько легче, чем разработчиков
приложений. Достаточно расписать пользователю то, как источники звука будут располагаться в
пространстве вокруг него, т.е. звук будет окружать слушателя со всех сторон и динамично
изменяться, как многие сразу потянутся за кошельком. С разработчиками игр и приложений сложнее.
Их надо убедить потратить время и средства на реализацию качественного звука. А если звуковых
интерфейсов несколько, то перед разработчиком игры встает проблема выбора. Сегодня есть два
основных звуковых интерфейса, это DirectSound3D от Microsoft и A3D от Aureal. При этом, если
разработчик приложения предпочтет A3D, то на всем аппаратном обеспечении DS3D будет
воспроизводиться 3D позиционируемый звук, причем такой же, как если бы изначально
использовался API DS3D. Само понятие "трехмерный звук" подразумевает, что источники звука
располагаются в трехмерном пространстве вокруг слушателя. Это основа. Далее, чтобы придать
звуковой модели реализм и усилить ощущения при восприятии звука слушателем, используются
различные технологии, обеспечивающие воспроизведение реверберации, отраженных звуков,
окклюзии (звук прошедший через препятствие), обструкции (звук не прошел через препятствие),
дистанционное моделирование (вводится параметр удаленности источника звука от слушателя) и
масса других интересных эффектов. Цель всего этого — создать у пользователя ощущение
реальности звука и усилить впечатления от видеоряда в игре или приложении. Не секрет, что слух
это второстепенное чувство человека, именно поэтому, каждый индивидуальный пользователь
воспринимает звук по-своему. Никогда не будет однозначного мнения о звучании той или иной
звуковой карты или эффективности той или иной технологии 3D звука. Сколько будет слушателей,
столько будет мнений. В данной статье мы попытались собрать и обобщить информацию о
принципах создания 3D звука, а также рассказать о текущем состоянии звуковой компьютерной
индустрии и о перспективах развития. Мы уделим отдельное внимание необходимым составляющим
хорошего восприятия и воспроизведения 3D звука, а также расскажем о некоторых перспективных
разработках. Некоторые данные в статье рассчитаны на подготовленного пользователя, однако,
никто не мешает пропустить нудные формулы тем, кому это не интересно или давно надоело в
институте.

Итак, наверняка почти все слышали, что для позиционирования источников звука в виртуальном 3D
пространстве используются HRTF функции. Ну что же, попробуем разобраться в том, что такое HRTF
и действительно ли их использование так эффективно.

Сколько раз происходило следующее: команда разработчиков, отвечающая за звук, только что
закончила встраивание 3D звукового движка на базе HRTF в новейшую игру; все комфортно
расселись, готовясь услышать "звук окружающий вас со всех сторон" и "свист пуль над вашей
головой"; запускается демо версия игры и… и ничего подобного вы просто не слышите!

HRTF (Head Related Transfer Function) это процесс, посредством которого наши два уха определяют
слышимое местоположение источника звука; наши голова и туловище являются в некоторой степени
препятствием, задерживающим и фильтрующим звук, поэтому ухо, скрытое от источника звука
головой воспринимает измененные звуковые сигналы, которые при "декодировании" мозгом
интерпретируются соответствующим образом для определения местоположения источника звука.
Звук, улавливаемый нашим ухом, создает давление на барабанную перепонку. Для определения
создаваемого звукового давления необходимо определить характеристику импульса сигнала от
источника звука, попадающего на барабанную перепонку, т.е. силу, с которой звуковая волна от
источника звука воздействует на барабанную перепонку. Эту зависимость называют Head Related
Impulse Response (HRIR), а ее интегральное преобразование по Фурье называется HRTF.

Если вас интересует научное объяснение, то нет проблем, оно будет ниже. Если вас пугают
формулы или вы их уже видеть не можете, просто пролистайте пару экранов вниз.

С точки зрения науки, правильнее характеризовать акустические источники скоростью


распространения вещества в звуковой волне V(t), нежели давлением P(t), распространяемой
звуковой волны. Теоретически, давление, создаваемой идеальным точечным источником звука
бесконечно, но ускорение распространяемой звуковой волны есть величина конечная. Если вы
достаточно удалены от источника звука и если вы находитесь в состоянии "free field" (т.е. в
окружающей среде нет ничего кроме, источника звука и среды распространения звуковой волны),
тогда давление "free field" (ff) на расстоянии "r" от источника звука определяется по формуле:
Pff(t) = Zo V(t - r/c) / r
где Zo это постоянная, называемая волновым сопротивлением среды (characteristic impedance of the
medium), а "c" это скорость распространения звука в среде. Итак, давление ff пропорционально
скорости в начальный период времени (происход "сдвиг" по времени, обусловленный конечной
скоростью распространения сигнала, т.е. возмущение в этой точке описывается скоростью источника
в момент времени, отстоящий на r/c - время которое затрачено на то, чтобы сигнал дошел до
наблюдателя. В принципе не зная V(t) нельзя утверждать характера изменения скорости при сдвиге,
т.е. произойдет замедление или ускорение) и уменьшается обратно пропорционально расстоянию от
источника звука до точки наблюдения.

С точки зрения частоты, давление звуковой волны можно выразить так:

Pff(f) = Zo V(f) exp(- i 2 pi r/c) / r


где "f" это частота в герцах (Hz), i = sqrt(-1), а V(f) получается в результате применения
преобразования Фурье к скорости распространения вещества в звуковой волне V(t). Таким образом,
задержки при распространении звуковой волны можно охарактеризовать параметром, называемым
"phase factor", т.е. фазовым коэффициентом exp(- i 2 pi r / c). Или, говоря словами, это означает, что
функция преобразования в "free field" Pff(f) просто является результатом произведения
масштабирующего коэффициента Zo, фазового коэффициента exp(- i 2 pi r /c) и обратно
пропорциональна расстоянию 1/r. Заметим, что более рациональным будет использовать
традиционную циклическую частоту, равную 2*pi*f, нежели просто частоту.

Если поместить в среду распространения звуковых волн человека, тогда звуковое поле вокруг
человека искажается за счет дифракции (рассеивания или иначе говоря наблюдается различие
скоростей распространения волн разной длины), отражения и дисперсии (рассредоточения) при
контакте человека со звуковыми волнами. Теперь все тот же источник звука будет создавать
несколько другое давление звука P(t) на барабанную перепонку в ухе человека. С точки зрения
частоты это давление обозначим как P(f). Теперь, P(f), как и Pff(f) также содержит фазовый
коэффициент, чтобы учесть задержки при распространении звуковой волны, при этом давление
вновь ослабевает обратно пропорционально расстоянию. Для исключения этих концептуально
незначимых эффектов HRTF функция H определяется как соотношение P(f) и Pff(f). Итак, строго
говоря, H это функция, определяющая коэффициент умножения для значение давления звука,
присутствующее в центре головы слушателя, если нет никаких объектов на пути распространения
волны, по отношению к величине давления на барабанную перепонку в ухе слушателя.

Обратным преобразованием Фурье функции H(f) является функция H(t), представляющая собой
HRIR (Head-Related Impulse Response). Таким образом, строго говоря, HRIR это коэффициент (он же
есть отношение давлений, т.е. безразмерен; это просто удобный способ загнать в одну букву в
формуле очень сложный параметр), который определяет воздействие на барабанную перепонку,
когда звуковой импульс испускается источником звука, за исключением того, что мы сдвинули
временную ось так, что t=0 соответствует времени, когда звуковая волна в "free field" достигнет
центра головы слушателя. Также мы масштабировали результаты таким образом, что они не зависят
от того, как далеко источник звука расположен от человека, относительно которого производятся все
измерения.

Если вы готовы пренебречь этим временным сдвигом и масштабированием расстояния до источника


звука, вы можете просто сказать, что HRIR это давление, воздействующее на барабанную
перепонку, когда источник звука является импульсным.

Напомним, что интегральным преобразованием Фурье функции HRIR является HRTF функция. Если
известно значение HRTF для каждого уха, мы можем точно синтезировать бинауральные сигналы от
монофонического источника звука (monaural sound source). Соответственно, для разного положения
головы относительно источника звука задействуются разные HRTF фильтры. Библиотека HRTF
фильтров создается в результате лабораторных измерений, производимых с использованием
манекена, носящего название KEMAR (Knowles Electronics Manikin for Auditory Research, т.е. манекен
Knowles Electronics для слуховых исследований) или с помощью специального "цифрового уха"
(digital ear), разработанного в лаборатории Sensaura, располагаемого на голове манекена. Понятно,
что измеряется именно HRIR, а значение HRTF получается путем преобразования Фурье. На голове
манекена располагаются микрофоны, закрепленные в его ушах. Звуки воспроизводятся через
акустические колонки, расположенные вокруг манекена и происходит запись того, что слышит каждое
"ухо".

HRTF представляет собой необычайно сложную функцию с четырьмя переменными: три


пространственных координаты и частота. При использовании сферических координат для
определения расстояния до источников звука больших, чем один метр, считается, что источники
звука находятся в дальнем поле (far field) и значение HRTF уменьшается обратно пропорционально
расстоянию. Большинство измерений HRTF производится именно в дальнем поле, что
существенным образом упрощает HRTF до функции азимута (azimuth), высоты (elevation) и частоты
(frequency), т.е. происходит упрощение, за счет избавления от четвертой переменной. Затем при
записи используются полученные значения измерений и в результате, при проигрывании звук
(например, оркестра) воспроизводится с таким же пространственным расположением, как и при
естественном прослушивании. Техника HRTF используется уже несколько десятков лет для
обеспечения высокого качества стерео записей. Лучшие результаты получаются при прослушивании
записей одним слушателем в наушниках.

Наушники, конечно, упрощают решение проблемы доставки одного звука к одному уху и другого
звука к другому уху. Тем не менее, использование наушников имеет и недостатки. Например:

• Многие люди просто не любят использовать наушники. Даже легкие беспроводные


наушники могут быть обременительны. Наушники, обеспечивающие наилучшую акустику,
могут быть чрезвычайно неудобными при длительном прослушивании.

• Наушники могут иметь провалы и пики в своих частотных характеристиках, которые


соответствуют характеристикам ушной раковины. Если такого соответствия нет, то
восприятие звука, источник которого находится в вертикальной плоскости, может быть
ухудшено. Иначе говоря, мы будем слышать преимущественно только звук, источники
которого находится в горизонтальной плоскости.

• При прослушивании в наушниках, создается ощущение, что источник звука


находится очень близко. И действительно, физический источник звука находится очень
близко к уху, поэтому необходимая компенсация для избавления от акустических сигналов
влияющих на определение местоположения физических источников звука зависит от
расположения самих наушников.

Использование акустических колонок позволяет обойти большинство из этих проблем, но при этом
не совсем понятно, как можно использовать колонки для воспроизведения бинаурального звука (т.е.
звука, предназначенного для прослушивания в наушниках, когда часть сигнала предназначена для
одного уха, а другая часть для другого уха). Как только мы подключим вместо наушников колонки,
наше правое ухо начнет слышать не только звук, предназначенный для него, но и часть звука,
предназначенную для левого уха. Одним из решений такой проблемы является использование
техники cross-talk-cancelled stereo или transaural stereo, чаще называемой просто алгоритм crosstalk
cancellation (для краткости CC).
Идея CC просто выражается в терминах частот. На схемы выше сигналы S1 и S2 воспроизводятся
колонками. Сигнал Y1 достигающий левого уха представляет собой смесь из S1 и "crosstalk" (части)
сигнала S2. Чтобы быть более точными, Y1=H11 S1 + H12 S2, где H11 является HRTF между левой
колонкой и левым ухом, а H12 это HRTF между правой колонкой и левым ухом. Аналогично Y2=H21
S1 + H22 S2. Если мы решим использовать наушники, то мы явно будем знать искомые сигналы Y1 и
Y2 воспринимаемые ушами. Проблема в том, что необходимо правильно определить сигналы S1 и
S2, чтобы получить искомый результат. Математически для этого просто надо обратить уравнение:

На практике, обратное преобразование матрицы не является тривиальной задачей.

• При очень низкой частоте звука, все функции HRTF одинаковы и поэтому матрица
является вырожденной, т.е. матрицей с нулевым детерминантом (это единственная помеха
для тривиального обращения любой квадратной матрицы). На западе такие матрицы
называют сингулярными. (К счастью, в среде отражающей звук, т.е. где присутствует
реверберация, низкочастотная информация не являются важной для определения
местоположения источника звука).

• Точное решение стремиться к результату с очень длинными импульсными


характеристиками. Эта проблема становится все более и более сложной, если в
дальнейшем искомый источник звука располагается вне линии между двумя колонками,
т.е. так называемый фантомный источник звука.

• Результат будет зависеть от того, где находится слушатель по отношению к


колонкам. Правильное восприятие звучания достигается только в районе так называемого
"sweet spot", предполагаемого месторасположения слушателя при обращении уравнения.
Поэтому, то, как мы слышим звук, зависит не только от того, как была сделана запись, но и
от того, из какого места между колонками мы слушаем звук.

При грамотном использовании алгоритмов CC получаются весьма хорошие результаты,


обеспечивающие воспроизведение звука, источники которого расположены в вертикальной и
горизонтальной плоскости. Фантомный источник звука может располагаться далеко вне пределов
линейного сегмента между двумя колонками.

Давно известно, что для создания убедительного 3D звучания достаточно двух звуковых каналов.
Главное это воссоздать давление звука на барабанные перепонки в левом и правом ушах таким же,
как если бы слушатель находился в реальной звуковой среде.

Из-за того, что расчет HRTF функций сложная задача, во многих системах пространственного звука
(spatial audio systems) разработчики полагаются на использование данных, полученных
экспериментальным путем, например, данные получаются с помощью KEMAR, о чем мы писали
выше. Тем не менее, основной причиной использования HRTF является желание воспроизвести
эффект elevation (звук в вертикальной плоскости), наряду с азимутальными звуковыми эффектами.
При этом восприятие звуковых сигналов, источники которых расположены в вертикальной плоскости,
чрезвычайно чувствительно к особенностям каждого конкретного слушателя. В результате
сложились четыре различных метода расчета HRTF:

• Использование компромиссных, стандартных HRTF функций. Такой метод


обеспечивает посредственные результаты при воспроизведении эффектов elevation для
некоторого процента слушателей, но это самый распространенный метод в недорогих
системах. На сегодня, ни IEEE, ни ACM, ни AES не определили стандарт на HRTF, но
похоже, что компании типа Microsoft и Intel создадут стандарт де-факто.

• Использование одного типа HRTF функций из набора стандартных функций. В этом


случае необходимо определить HRTF для небольшого числа людей, которые
представляют все различные типы слушателей, и предоставить пользователю простой
способ выбрать именно тот набор HRTF функций, который наилучшим образом
соответствует ему (имеются в виду рост, форма головы, расположение ушей и т.д.).
Несмотря на то, что такой метод предложен, пока никаких стандартных наборов HRTF
функций не существует.

• Использование индивидуализированных HRTF функций. В этом случае необходимо


производить определение HRTF исходя из параметров конкретного слушателя, что само по
себе сложная и требующая массы времени процедура. Тем не менее, эта процедура
обеспечивает наилучшие результаты.

• Использование метода моделирования параметров определяющих HRTF, которые


могут быть адаптированы к каждому конкретному слушателю. Именно этот метод сейчас
применяется повсеместно в технологиях 3D звука.

На практике существуют некоторые проблемы, связанные с созданием базы HRTF функций при
помощи манекена. Результат будет соответствовать ожиданиям, если манекен и слушатель имеют
головы одинакового размера и формы, а также ушные раковины одинакового размера и формы.
Только при этих условиях можно корректно воссоздать эффект звучания в вертикальной плоскости и
гарантировать правильное определение местоположения источников звука в пространстве. Записи,
сделанные с использованием HRTF называются binaural recordings, и они обеспечивают
высококачественный 3D звук. Слушать такие записи надо в наушниках, причем желательно в
специальных наушниках. Компакт диски с такими записями стоят существенно дороже стандартных
музыкальных CD. Чтобы корректно воспроизводить такие записи через колонки необходимо
дополнительно использовать технику CC. Но главный недостаток подобного метода - это отсутствие
интерактивности. Без дополнительных механизмов, отслеживающих положение головы
пользователя, обеспечить интерактивность при использовании HRTF нельзя. Бытует даже
поговорка, что использовать HRTF для интерактивного 3D звука, это все равно, что использовать
ложку вместо отвертки: инструмент не соответствует задаче.

Sweet Spot
На самом деле значения HRTF можно получить не только с помощью установленных в ушах
манекена специальных внутриканальных микрофонов (inter-canal microphones). Используется еще и
так называемая искусственная ушная раковина. В этом случае прослушивать записи нужно в
специальных внутриканальных (inter-canal) наушниках, которые представляют собой маленькие
шишечки, размещаемые в ушном канале, так как искусственная ушная раковина уже перевела всю
информацию о позиционировании в волновую форму. Однако нам гораздо удобнее слушать звук в
наушниках или через колонки. При этом стоит помнить о том, что при записи через inter-canal
микрофоны вокруг них, над ними и под ними происходит искажение звука. Аналогично, при
прослушивании звук искажается вокруг головы слушателя. Поэтому и появилось понятие sweet spot,
т.е. области, при расположении внутри которой слушатель будет слышать все эффекты, которые он
должен слышать. Соответственно, если голова слушателя расположена в таком же положении, как и
голова манекена при записи (и на той же высоте), тогда будет получен лучший результат при
прослушивании. Во всех остальных случаях будут возникать искажения звука, как между ушами, так
и между колонками. Понятно, что необходимость выбора правильного положения при
прослушивании, т.е. расположение слушателя в sweet spot, накладывает дополнительные
ограничения и создает новые проблемы. Понятно, что чем больше область sweet spot, тем большую
свободу действий имеет слушатель. Поэтому разработчики постоянно ищут способы увеличить
область действия sweet spot.

Частотная характеристика
Действие HRTF зависит от частоты звука; только звуки со значениями частотных компонентов в
пределах от 3 kHz до 10 kHz могут успешно интерпретироваться с помощью функций HRTF.
Определение местоположения источников звуков с частотой ниже 1 kHz основывается на
определении времени задержки прибытия разных по фазе сигналов до ушей, что дает возможность
определить только общее расположение слева/справа источников звука и не помогает
пространственному восприятию звучания. Восприятие звука с частотой выше 10 kHz почти
полностью зависит от ушной раковины, поэтому далеко не каждый слушатель может различать звуки
с такой частотой. Определить местоположение источников звука с частотой от 1 kHz до 3 kHz очень
сложно. Число ошибок при определении местоположения источников звука возрастает при снижении
разницы между соотношениями амплитуд (чем выше пиковое значение амплитуды звукового
сигнала, тем труднее определить местоположение источника). Это означает, что нужно использовать
частоту дискретизации (которая должна быть вдвое больше значения частоты звука)
соответствующей как минимум 22050 Hz при 16 бит для реальной действенности HRTF.
Дискретизация 8 бит не обеспечивает достаточной разницы амплитуд (всего 256 вместо 65536), а
частота 11025 Hz не обеспечивает достаточной частотной характеристики (так как при этом
максимальная частота звука соответствует 5512 Hz). Итак, чтобы применение HRTF было
эффективным, необходимо использовать частоту не ниже 22050 Hz при, хотя бы, 16 битной
дискретизации.

Ушная раковина (Pinna)


Мозг человека анализирует разницу амплитуд, как звука, достигшего внешнего уха, так и разницу
амплитуд в слуховом канале после ушной раковины для определения местоположения источника
звука. Ушная раковина создает нулевую и пиковую модель звучания между ушами; эта модель
совершенно разная в каждом слуховом канале и эта разница между сигналами в ушах представляет
собой очень эффективную функцию для определения, как частоты, так и местоположения источника
звука. Но это же явление является причиной того, что с помощью HRTF нельзя создать корректного
восприятия звука через колонки, так как по теории ни один из звуков, предназначенный для одного
уха не должен быть слышимым вторым ухом.

Мы вновь вернулись к необходимости использования дополнительных алгоритмов CC. Однако, даже


при использовании кодирования звука с помощью HRTF источники звука являются неподвижными
(хотя при этом амплитуда звука может увеличиваться). Это происходит из-за того, что ушная
раковина плохо воспринимает тыловой звук, т.е. когда источники звука находятся за спиной
слушателя. Определение местоположения источника звука представляет собой процесс наложения
звуковых сигналов с частотой, отфильтрованной головой слушателя и ушными раковинами на мозг с
использованием соответствующих координат в пространстве. Так как происходит наложение
координат только известных характеристик, т.е. слышимых сигналов, ассоциируемых с визуальным
восприятием местоположения источников звука, то с течением времени мозг "записывает"
координаты источников звука и в дальнейшем определение их местоположения может происходить
лишь на основе слышимых сигналов. Но видим мы только впереди. Соответственно, мозг не может
правильно расположить координаты источников звука, расположенных за спиной слушателя при
восприятии слышимых сигналов ушной раковиной, так как эта характеристика является неизвестной.
В результате, мозг может располагать координаты источников звука совсем не там, где они должны
быть. Подобную проблему можно решить только при использовании вспомогательных сигналов,
которые бы помогли мозгу правильно располагать в пространстве координаты источников звуков,
находящихся за спиной слушателя.

Неподвижные источники звука


Все выше сказанное подвело нас к еще одной проблеме:

Если источники звука неподвижны, они не могут быть точно локализованы, как "статические" при
моделировании, т.к. мозгу для определения местоположения источника звука необходимо наличие
перемещения (либо самого источника звука, либо подсознательных микро перемещений головы
слушателя), которое помогает определить расположение источника звука в геометрическом
пространстве. Нет никаких оснований, ожидать, что какая-либо система на базе HRTF функций будет
корректно воспроизводить звучание, если один из основных сигналов, используемый для
определения местоположения источника звука, отсутствует. Врожденной реакцией человека на
неожидаемый звук является повернуть голову в его сторону (за счет движения головы мозг получает
дополнительную информацию для локализации в пространстве источника звука). Если сигнал от
источника звука не содержит особую частоту, влияющую на разницу между фронтальными и
тыловыми HRTF функциями, то такого сигнала для мозга просто не существует; вместо него мозг
использует данные из памяти и сопоставляет информацию о местоположении известных источников
звука в полусферической области.

Каково же будет решение?


Лучший метод воссоздания настоящего 3D звука это использование минимальной частоты
дискретизации 22050 Hz при 16 битах и использования дополнительных тыловых колонок при
прослушивании. Такая платформа обеспечит пользователю реалистичное воспроизведение звука за
счет воспроизведение через достаточное количество колонок (минимум три) для создания
настоящего surround звучания. Преимущество такой конфигурации заключается в том, что когда
слушатель поворачивает голову для фокусировки на звуке какого-либо объекта, пространственное
расположение источников звука остается неизменным по отношению к окружающей среде, т.е.
отсутствует проблема sweet spot.

Есть и другой метод, более новый и судить о его эффективности пока сложно. Суть метода, который
разработан Sensaura и называется MultiDrive, заключается в использовании HRTF функций на
передней и на тыловой паре колонок (и даже больше) с применением алгоритмов CC. На самом
деле Sensaura называет свои алгоритмы СС несколько иначе, а именно Transaural Cross-talk
cancellation (TCC), заявляя, что они обеспечивают лучшие низкочастотные характеристики звука.
Инженеры Sensaura взялись за решение проблемы восприятия звучания от источников звука,
которые перемещаются по бокам от слушателя и по оси фронт/тыл. Заметим, что Sensaura для
вычисления HRTF функций использует так называемое "цифровое ухо" (Digital Ear) и в их
библиотеке уже хранится более 1100 функций. Использование специального цифрового уха должно
обеспечивать более точное кодирование звука. Подчеркнем, что Sensaura создает технологии, а
использует интерфейс DS3D от Microsoft.

Технология MultiDrive воспроизводит звук с использованием HRTF функций через четыре или более
колонок. Каждая пара колонок создает фронтальную и тыловую полусферу соответственно.

Фронтальные и тыловые звуковые поля специальным образом смещены с целью взаимного


дополнения друг друга и за счет применения специальных алгоритмов улучшает ощущения
фронтального/тылового расположения источников звука. В каждом звуковом поле применяются
собственный алгоритм cross-talk cancellation (CC). Исходя из этого, есть все основания предполагать,
что вокруг слушателя будет плавное воспроизведение звука от динамично перемещающихся
источников и эффективное расположение тыловых виртуальных источников звука. Так как
воспроизводимые звуковые поля основаны на применении HRTF функций, каждое из создаваемых
sweet spot (мест, с наилучшим восприятием звучания) способствует хорошему восприятию звучания
от источников по сторонам от слушателя, а также от движущихся источников по оси фронт/тыл.
Благодаря большому углу перекрытия результирующее место с наилучшим восприятием звука
(sweet spot) покрывает область с гораздо большей площадью, чем конкурирующие четырех
колоночные системы воспроизведения. В результате качество воспроизводимого 3D звука должно
существенно повысится.

Если бы не применялись алгоритмы cross-talk cancellation (CC) никакого позиционирования


источников звука не происходило бы. Вследствие использования HRTF функций на четырех колонках
для технологии MultiDrive необходимо использовать алгоритмы CC для четырех колонок, требующие
чудовищных вычислительных ресурсов. Из-за того, что обеспечить работу алгоритмов CC на всех
частотах очень сложная задача, в некоторых системах применяются высокочастотные фильтры,
которые срезают компоненты высокой частоты. В случае с технологией MultiDrive Sensaura заявляет,
что они применяют специальные фильтры собственной разработки, которые позволяют обеспечить
позиционирование источников звука, насыщенными высокочастотными компонентами, в тыловой
полусфере. Хотя sweet spot должен расшириться и восприятие звука от источников в вертикальной
плоскости также улучшается, у такого подхода есть и минусы. Главный минус это необходимость
точного позиционирования тыловых колонок относительно фронтальных. В противном случае
никакого толка от HRTF на четырех колонках не будет.

Стоит упомянуть и другие инновации Sensaura, а именно технологии ZoomFX и MacroFX, которые
призваны улучшить восприятие трехмерного звука. Расскажем о них подробнее, тем более что это
того стоит.

MacroFX

Как мы уже говорили выше, большинство измерений HRTF производятся в так называемом дальнем
поле (far field), что существенным образом упрощает вычисления. Но при этом, если источники звука
располагаются на расстоянии до 1 метра от слушателя, т.е. в ближнем поле (near field), тогда
функции HRTF плохо справляются со своей работой. Именно для воспроизведения звука от
источников в ближнем поле с помощью HRTF функций и создана технология MacroFX. Идея в том,
что алгоритмы MacroFX обеспечивают воспроизведение звуковых эффектов в near-field, в
результате можно создать ощущение, что источник звука расположен очень близко к слушателю, так,
будто источник звука перемещается от колонок вплотную к голове слушателя, вплоть до шепота
внутри уха слушателя. Достигается такой эффект за счет очень точного моделирования
распространения звуковой энергии в трехмерном пространстве вокруг головы слушателя из всех
позиций в пространстве и преобразование этих данных с помощью высокоэффективного алгоритма.
Особое внимание при моделировании уделяется управлению уровнями громкости и
модифицированной системе расчета задержек по времени при восприятии ушами человека звуковых
волн от одного источника звука (ITD, Interaural Time Delay). Для примера, если источник звука
находится примерно посередине между ушами слушателя, то разница по времени при достижении
звуковой волны обоих ушей будет минимальна, а вот если источник звука сильно смещен вправо, эта
разница будет существенной. Только MacroFX принимает такую разницу во внимание при расчете
акустической модели. MacroFX предусматривает 6 зон, где зона 0 (это дистанция удаления) и зона 1
(режим удаления) будут работать точно так же, как работает дистанционная модель DS3D. Другие 4
зоны это и есть near field (ближнее поле), покрывающие левое ухо, правое ухо и пространство внутри
головы слушателя.

Этот алгоритм интегрирован в движок Sensaura и управляется DirectSound3D, т.е. является


прозрачным для разработчиков приложений, которые теперь могут создавать массу новых
эффектов. Например, в авиа симуляторах можно создать эффект, когда пользователь в роли пилота
будет слышать переговоры авиа диспетчеров так, как если бы он слышал эти переговоры в
наушниках. В играх с боевыми действиями может потребоваться воспроизвести звук пролетающих
пуль и ракет очень близко от головы слушателя. Такие эффекты, как писк комара рядом с ухом
теперь вполне реальны и доступны. Но самое интересное в том, что если у вас установлена
звуковая карта с поддержкой технологии Sensaura и с драйверами, поддерживающими MacroFX, то
пользователь получит возможность слышать эффекты MacroFX даже в уже существующих
DirectSound3D играх, разумеется, в зависимости от игры эффект будет воспроизводиться лучше или
хуже. Зато в игре, созданной с учетом возможности использования MacroFX. Можно добиться очень
впечатляющих эффектов.
Поддержка MacroFX будет включена в драйверы для карт, которые поддерживают технологию
Sensaura.

ZoomFX

Современные системы воспроизведения позиционируемого 3D звука используют HRTF функции для


создания виртуальных источников звука, но эти синтезированные виртуальные источники звука
являются точечными. В реальной жизни звук зачастую исходит от больших по размеру источников
или от композитных источников, которые могут состоять из нескольких индивидуальных генераторов
звука. Большие по размерам и композитные источники звука позволяют использовать более
реалистичные звуковые эффекты, по сравнению с возможностями точечных источников звука. Так,
точечный источник звука хорошо применим при моделировании звука от большого объекта
удаленного на большое расстояние (например, движущийся поезд). Но в реальной жизни, как только
поезд приближается к слушателю, он перестает быть точечным источником звука. Однако в модели
DS3D поезд все равно представляется, как точечный источник звука, а значит, страдает реализм
воспроизводимого звука (т.е. мы слышим звук скорее от маленького поезда, нежели от огромного
состава громыхающего рядом). Технология ZoomFX решает эту проблему, а также вносит
представление о большом объекте, например поезде как собрание нескольких источников звука
(композитный источник, состоящий из шума колес, шума двигателя, шума сцепок вагонов и т.д.).

Для технологии ZoomFX будет создано расширение для DirectSound3D, подобно EAX, с помощью
которого разработчики игр смогут воспроизводить новые звуковые эффекты и использовать такой
параметр источника звука, как размер. Пока эта технология находится на стадии завершения.

Компания Creative реализовала аналогичный подход, как в MultiDrive от Sensaura, в своей технологии
CMSS (Creative Multispeaker Surround Sound) для серии своих карт SB Live!. Поддержка этой версии
технологии CMSS, с реализацией HRTF и CC на четырех колонках, встроена в программу
обновления LiveWare 2.x. По своей сути, технология CMSS является близнецом MultiDrive, хотя на
уровне алгоритмов CC и библиотек HRTF наверняка есть отличия. Главный недостаток CMSS такой
же, как у MultiDrive - необходимость расположения тыловых колонок в строго определенном месте, а
точнее параллельно фронтальным колонкам. В результате возникает ограничение, которое может не
устроить многих пользователей. Не секрет, что место для фронтальных колонок давно
зарезервировано около монитора. Место для сабвуфера можно выбрать любым, обычно это где-то в
углу и на полу. А вот тыловые колонки пользователи располагают там, где считают удобным для
себя. Не каждый захочет расположить их строго за спиной и далеко не у всех есть свободное место
для такого расположения.

Заметим, что главный конкурент Creative на рынке 3D звука, компания Aureal, использует технику
панорамирования на тыловых колонках. Объясняется это именно отсутствием строгих ограничений
на расположение тыловых колонок в пространстве.

Не стоит забывать и о больших объемах вычислений при расчете HRTF и Cross-talk Cancellation для
четырех колонок.

Еще один игрок на рынке 3D звука - компания QSound пока имеет сильные позиции только в области
воспроизведения звука через наушники и две колонки. При этом свои алгоритмы для
воспроизведения 3D звука через две колонки и наушники (в основе лежат HRTF) QSound создает
исходя из результатов тестирования при прослушивании реальными людьми, т.е. не довольствуется
математикой, а делает упор на восприятие звука конкретными людьми. И таких прослушиваний было
проведено более 550000! Для воспроизведения звука через четыре колонки QSound использует
панорамирование, т.е. тоже, что было в первой версии CMSS. Такая техника плохо показала себя в
играх, обеспечивая слабое позиционирование источников звука в вертикальной плоскости.

Компания Aureal привнесла в технологии воспроизведения 3D звука свою технику Wavetracing. Мы


уже писали об этой технологии, вкратце, это расчет распространения отраженных и прошедших
через препятствия звуковых волн на основе геометрии среды. При этом обеспечивается полный
динамизм восприятия звука, т.е. полная интерактивность.
Итак, подведем итоги. Однозначный вывод состоит в том, что если вы хотите получить наилучшее
качество 3D звука, доступное на сегодняшний день, вам придется использовать звуковые карты,
поддерживающие воспроизведение минимум через четыре колонки. Использование только двух
фронтальных колонок - это конфигурация вчерашнего дня. Далее, если вы только собираетесь
переходить на карты с поддержкой четырех и более колонок, то перед вами встает классическая
проблема выбора. Как всегда единственная рекомендация состоит в том, чтобы вы основывали свой
выбор на собственных ощущениях. Послушайте максимально возможно число разных систем и
сделайте именно свой выбор.

Теперь посмотрим, с каким багажом подошли ведущие игроки 3D звукового рынка к сегодняшнему
дню и что нас ждет в ближайшем будущем.

EAR

EAR - в текущей версии IAS 1.0 реализована поддержка воспроизведения DS3D, A3D 1.0 и EAX 1.0
через четыре и более колонок. За счет воспроизведения через четыре и более колонок, мозг
слушателя получает дополнительные сигналы для правильного определения местоположения
источников звука в пространстве.

Осенью ожидается выход IAS 2.0 с поддержкой DirectMusic, YellowBook, EAX 2.0 и A3D 2.0, force-feed
back (мы сможем чувствовать звук, а именно давление звука, громкость и т.д.), декодирование в
реальном времени MP3 и Dolby/DTS, будет реализована поддержка ".1" канала (сабвуфера). Кроме
того, в IAS 2.0 будет реализовано звуковое решение, не требующее наличие звуковой карты (cardless
audio solution) для использования с полностью цифровой системой воспроизведения звука, например
с USB колонками или в тандеме с домашней системой Dolby Digital.

Главные достоинства IAS от EAR:

• Один интерфейс для любой многоколоночной платформы, обеспечивающий


одинаковый результат вне зависимости от того, как воспроизводится звук при
использовании специального API.

• Имеется поддержка воспроизведения через две колонки (для старых систем), если
многоколоночная конфигурация недоступна.

• Пользователь может подключить свой компьютер к домашней звуковой системе


(Dolby Digital и т.д.) и IAS будет воспроизводить звук без необходимости какой-либо
модернизации.

Итак, по сравнению с конкурентами, IAS работает на любой платформе и не требует специального


аппаратного обеспечения. При этом IAS использует любое доступное аппаратное обеспечение и
обеспечивает пользователю наилучшее качество звука, которое доступно на его системе. Только вот
остановит ли свой выбор пользователь на этой технологии, это большой вопрос. С другой стороны,
для использования IAS не нужно покупать специальных звуковых карт.

Sensaura

Sensaura - компания занимающаяся созданием технологий. Производители звуковых чипов


лицензируют разработки Sensaura и воплощают их в жизнь. В чипе Canyon3D от ESS будет
реализована поддержка современных технологий Sensaura, которые должны обеспечить
слушателем 3D звук на современном уровне, т.е. позиционируемый в пространстве и с
воспроизведением через четыре и более колонок. За воспроизведение через четыре и более
колонок отвечает технология MultiDrive, которая реализует HRTF и алгоритмы Cross-talk cancellation.
Многообещающе выглядят технологии ZoomFX и MacroFX. Кроме того, Sensaura поддерживает
воспроизведение реверберации через EAX от Creative, равно как и через I3DL2, а также эмулирует
поддержку A3D 1.х через DS3D.
Первым звуковым чипов, который реализует технологию MultiDrive на практике, является Canyon3D
от ESS Technology, Inc. Более подробную информацию о чипе Canyon3D можно найти на
официальном сайте www.canyon3d.com.

Первая карта на базе чипа Canyon3D называется DMX и производит ее компания Terratec.

Как только эта карта попадет к нам на испытания, мы представим на ваш суд обзор. Заметим только,
что на этой карте будут сразу оба типа цифровых выходов S/PDIF коаксиальный (RCA) и оптический
(Toslink), и один цифровой вход. Так что продукт обещает быть очень интересным.

Creative

Creative - занимается совершенствованием своего движка реверберации. В итоге в свет выйдет EAX
3.0, который должен добавить больше реализма в воспроизводимый звук. Никто не спорит, что
реверберация это хорошо, что именно она обеспечивает насыщенное и живое звучание. При этом
Creative упорно не собирается вести разработки в области геометрии акустики. Кстати, Microsoft
объявила о намерении включить EAX в состав DirectSound3D 8.0. С другой стороны, есть
неподтвержденные слухи, что EAX 3.0 будет закрытым стандартом. Интересно, изменит ли Creative
свою позицию со временем? Пока же в новых версиях EAX нам обещают больше реализма и
гибкости в настройках реверберации и моделировании звуковой среды для конкретных объектов и
помещений, плюс плавные переходы от одной заранее созданной звуковой среды к другой при
движении слушателя в 3D мире. Будут улучшения в области воспроизведения эффектов окклюзии и
обструкции. Обещают и поддержку отраженных звуков, но без учета геометрии и более продвинутую
дистанционную модель. Вообще, я не удивлюсь, если Creative лицензирует MacroFX и ZoomFX у
Sensaura. Что касается моделирования звука на основе физической геометрии среды, то Creative
очень усиленно отрицает для себя возможность поддержки такого метода. Хотя, если поднять
архивы и посмотреть первый пресс-релиз о будущем чипе Emu10k1, то вы будете удивлены. Там
говорится именно об использовании физической геометрии среды при моделировании звука. Потом
планы изменились. Кто помешает Creative вновь изменить планы? Особенно если учесть появление
в ближайшее время движка реверберации от Aureal. Вряд ли Creative не сделает ответного хода.

QSound

QSound ведет работы по созданию новой технологии воспроизведения 3D звука через четыре и
более колонок. Зная пристрастия QSound, можно предположить, что в основу новой технологии
опять лягут результаты реальных прослушиваний. QSound, как и Sensaura занимается именно
технологиями, которые воплощают в виде чипов другие компании. Так, чип Thunderbird128 от VLSI
воплощает в себе все последние достижения QSound в области 3D звука, при этом Thunderbird128
это DSP, а значит, есть все основания ожидать последующей модернизации. Стоит упомянуть, что
QSound, подобно Creative считает, что главное в 3D звуке это восприятие слушателем окружающей
атмосферы игры. Поэтому QEM (QSound Environmental Modeling) совместима с EAX 1.0 от Creative.
Следует ожидать, что QEM 2.0 будет совместима с EAX 2.0. Отметим, что QSound славится очень
эффективными алгоритмами и грамотным распределением доступных ресурсов, неслучайно именно
их менеджер ресурсов был лицензирован Microsoft и включен в DirectX.

Aureal

С Aureal все более-менее понятно. В ближайшем будущем нам обещают дальнейшее улучшение
функциональности A3D, мощный движок реверберации, поддержку HRTF на четырех и более
колонках. Кроме того, есть вероятность, что Aureal начнет продавать свои карты под своей маркой.
Кстати, осенью должны начаться продажи супер колонок под маркой Aureal.

Мы упомянули основные разработки в области 3D звука, которые применяются в компьютерном


мире. Есть еще ряд фирм с интересными решениями, но они делают упор на рынок бытовой
электроники, поэтому мы не стали в данном материале рассказывать о них.

Ну что же, надеюсь, вы получили представление о том, как создается 3D звук и о том, какими
параметрами должны обладать звуковые карты и акустические системы. Компьютерная индустрия
звука продолжает поступательное развитие. Нам, как пользователям, это только на руку. Можно
прогнозировать, что будущие звуковые карты и звуковые интерфейсы позволят разработчикам игр
создавать потрясающие своей реальностью и производимым впечатлением эффекты. Библиотеки
HRTF будут все дальше совершенствоваться. Возможно, чипы звуковых карт будут поддерживать
декодирование AC-3 и других форматов цифрового звука. Звуковые карты будут поддерживать
подключение более четырех колонок. Широкое распространение получат цифровые интерфейсы и
цифровые подключения. Отдельной веткой будут развиваться дешевые решения на базе AMR. Нам
же остается самая сложная часть, выбрать именно тот продукт, который устроит нас по всем
параметрам. Не забывайте, что звук каждый слышит по-своему, поэтому, только послушав
самостоятельно, вы составите правильное мнение о звуковой карте и звуковых технологиях.

Ч ем больше новшеств и технологий появляется в современной компьютерной индустрии, тем

больше пользы это приносит пользователю – это правило подтверждается множеством примеров. В
частности, процесс постоянного совершенствования и усложнения технологий компьютерного звука
заставляет пользователя постоянно развиваться, «догонять передовую компьютерную мысль»,
становиться все более грамотным и компетентным. Но, с другой стороны, все более и более
изощренным становится и бизнес в этой области, который впитывает в себя как губка все новое и
передовое.

Музыку из Интернета не «качает» сегодня только ленивый. Повсеместное распространение


технологий «сжатия аудио с потерями» – «lossy-coding» (технологии MPEG, WMA, Ogg Vorbis, VQF и
многие другие) привело к тому, что достать музыку, некогда с таким трудом добываемую на аудио
кассетах или CD, стало легко и просто - это можно сделать в Интернете даже не вставая с кресла.
Такое положение вещей открыло новые возможности не только для пользователей, но и для тех, кто
любит делать деньги на нечестном бизнесе.
В этой статье речь пойдет о том, как нелегальный компьютерный бизнес использует современное
ПО и компьютерные технологии в области звука. Мы поговорим об аудио CD, «нарезанных» из .MP3-
файлов, а, главное, о том, как практически отличить оригинальный CD от фальшивого.

Что нужно, чтобы наладить производство аудио компакт дисков? Завод по изготовлению «болванок»,
машины для тиражирования CD и своя звукозаписывающая студия? Нет, сегодня это уже не так.
«Болванки» можно купить в магазине за углом, писать диски можно «потихоньку» на домашнем
компьютере в недорогом приводе CD-R, а музыку можно выкачивать из Интернета, например, в
формате .MP3 (MPEG-1 Layer III). Все просто, и, самое главное, - дешево. Этим и пользуется
нечистоплотный бизнес. «Бизнесмены» ставят подобное производство (с небольшими
модификациями) на поток, и продают результаты этого производства в магазинах, выдавая
«паленые» компакт диски за оригинальные. Что в этом плохого, кроме некрасивого отношения к
своим покупателям? Дело в том, что звучание подобных компакт-дисков если не катастрофически, то
очень заметно отличается от звучания оригинальных композиций, из которых были сделаны
использованные для записи CD .MP3-файлы (то же самое относится и к файлам в других lossy-
форматах). Это обусловлено самой природой lossy-кодирования. Компрессоры (подобные
компрессорам .MP3 и другим), основанные на идее кодирования с потерями качества (lossy-coding),
преследуют две цели: закодировать аудио так, чтобы сжатые данные занимали как можно меньший
объем памяти и звучали при этом как можно более близко к оригиналу. Способы, которыми
достигаются эти две цели, могут быть различными, однако, все они в результате приводят к тому,
что закодированные данные при воспроизведении (декодировании) уже не являются оригинальным
сигналом, а лишь похоже звучат. Такая деградация оригинального качества звука связана с тем, что
в процессе кодирования данные сильно "упрощаются": из них выбрасываются ненужные
слабослышимые или замаскированные детали, а также используются другие методы «облегчения»
данных (подобная техника упрощения аудио данных известна под понятием «психоакустическая
модель»). Процесс декодирования уже не способен восстановить утраченные во время компрессии
данные (нюансы звучания, отфильтрованные частоты и проч.). Поэтому, покупая сегодня аудио CD
можно столкнуться с тем, что «компакт» окажется подделкой и будет являть собой СD, созданный из
декодированных .MP3-файлов. А это означает, что качество звучания такого CD будет заведомо
хуже оригинала.

Перейдем к делу. Предположим, вы приобрели аудио CD. Не спешите выбрасывать чек, – может
быть вам еще придется вернуть этот диск назад в магазин. Давайте разберемся, что вас может
насторожить в покупке. Таких моментов есть несколько. Первый, и наиболее очевидный, – это вид
самого компакт диска. Фирменный диск всегда качественно упакован, чаще имеет голографическую
маркировку, штрих-код и т.д., что явно отличает его от китайской штамповки. Второй момент – это,
конечно, звучание CD: если оно сопровождается странными помехами («бульканьем»,
позвякиванием, резкими перепадами уровня сигнала на различных частотах) – это уже плохой
признак, так как все упомянутые помехи, являются типичными «артефактами» кодирования в .MP3.
Третий момент, на который тоже следует обращать внимание, – это неравная громкость звучания
треков. Это может оказаться признаком того, что диск был записан с использованием не
выровненных по уровню громкости .MP3-файлов.

Давайте попробуем разобраться, каким образом можно отличить оригинальный CD от диска,


записанного с использованием .MP3-файлов.

Таких способов есть несколько. Однако ради справедливости здесь отметим, что ни один из
указанных ниже способов не гарантирует, к сожалению, стопроцентной уверенности в
напрашивающихся выводах. Это связано с тем, что все способы, которые мы рассмотрим,
опираются на известные особенности кодирования в MP3 (или подобного, основанного на
использовании психоакустики). Поэтому, грамотный и хитроумный специалист может при желании
«замести следы». Но, все же, шанс обнаружить подделку при внимательном и правильном изучении
диска достаточно велик. Кроме того, все рассматриваемые способы требуют некоторого понимания
процесса компрессии аудио в .MP3. Всю необходимую информацию по этому поводу мы рассмотрим
ниже по ходу изложения материала статьи.

Первое. В первую очередь необходимо вооружиться какой-нибудь программой, позволяющей


копировать аудио данные с CD на винчестер в .WAV-файлы. Эта программа необходима для
извлечения аудио данных для предстоящей проверки диска на «честность».

В качестве справки: информация на аудио CD хранится в некодированном


цифровом виде, но не в файлах, а в специальном формате CDDA. Чтобы иметь
возможность работать с этой информацией, необходимо предварительно
скопировать ее в файлы: каждый аудио трек с диска копируется в отдельный файл.
Стандартным файловым контейнером для хранения информации с параметрами,
как на аудио CD, – 44.1 КГц / 16 бит / стерео - является .WAV-файл.

Программ для копирования данных с аудио CD существует множество, например, WinDAC, Feurio,
CD Copy, CDex. Автор статьи уже давно остановил свой выбор на программе Exact Audio Copy.
Воспользовавшись выбранной программой нужно скопировать все треки (либо только те, которые вы
бы хотели исследовать) с CD в файлы на винчестер.

Второе. Необходимо установить какой-нибудь редактор цифрового аудио. Для этой цели, пожалуй,
лучше всего подойдет редактор Cool Edit Pro компании Sintrillium. Редактор понадобится нам для
детального изучения исследуемых данных. Откровенно говоря, Cool Edit сам умеет копировать
информацию с аудио CD, однако, все же, лучше воспользоваться специально предназначенной для
этой процедуры программой.

Третье. Приступаем к исследованию.


Способ 1. Предпосылкой к рождению этого способа является одна специфическая особенность
кодирования аудио в .MP3. Кодирование данных в .MP3 происходит не целиком, а частями - аудио
данные разбиваются на, так называемые «фреймы», длительностью 50 мс, и каждый фрейм
анализируется и сжимается кодером отдельно. Тонкости этого процесса здесь описывать не будем.
Главным является то, что самый первый фрейм в созданном в результате кодирования файле .MP3
оказывается пустым (или, точнее, почти пустым). А, значит, при обратном декодировании .MP3 в
.WAV-файл, полученный аудио поток будет содержать «полную тишину» (сигнал с нулевой
амплитудой) протяженностью около 25-40 мс (в зависимости от кодера, использованного для
компрессии). Таким образом, аудио трек на неоригинальном аудио CD (в случае, если его передний
край не подрезали специально перед созданием CD) характеризуется наличием короткого участка
«полной тишины». Чтобы проверить, не имеем ли мы дело как раз с таким треком, нужно загрузить
.WAV-файл в редактор (мы условились, что пользуемся редактором Cool Edit Pro), подобрать
масштаб по амплитудной и временнОй шкале, и в случае «успеха» мы увидим картину, похожую на
представленную ниже (см. рис. 1, показан только левый канал трека).

рис. 1

Масштаб временной шкалы следует подбирать так, чтобы на все видимое рабочее поле
отображалось примерно 60-100 мс от начала файла. Масштаб амплитудной шкалы следует
выбирать покрупнее, так как нужно быть уверенным наверняка в том, что интересующий нас участок
аудио действительно несет нулевую амплитуду, а не просто очень низкий по уровню не нулевой
сигнал.
Надо отметить, что полная тишина в начале трека еще не означает, что трек «фальшивый». Не
исключено, что при подготовке диска к записи оригинальный сигнал действительно был нарочно
приглушен по краям. Поэтому, чтобы сделать верные выводы относительно всего CD, нужно
внимательно изучить не один и не два трека, а желательно все. В случае наличия тишины в начале
каждого трека на диске, можно с определенной долей вероятности утверждать, что данный диск
неоригинальный.

Способ 2. Рассмотрим способ, основанный на других специфических нюансах lossy-кодирования в


.MP3. Как было упомянуто выше, lossy-кодирование основано на «упрощении сигнала», которое
сильно способствует повышению коэффициента сжатия (иными словами, упрощенный сигнал
сжимается намного сильнее, чем оригинальный). В MPEG-1 Layer III (а также во многих других
кодеках) под упрощением сигнала подразумевается применение к сжимаемым данным также уже
упомянутой выше психоакустической модели. В процессе такой обработки из сигнала
отфильтровываются, например, неслышимые и замаскированные частоты, а также резкие
кратковременные всплески, нераспознаваемые или малозаметные для человеческого слуха.
Подобная фильтрация тем агрессивнее, чем более низкий битрейт используется для компрессии
данных.

Врезка. В качестве справки: при сжатии в .MP3 пользователь указывает желаемый


битрейт (или границы изменения битрейта) для сжатого выходного потока (битрейт
– количество бит, используемых для хранения одной секунды аудио). Чем ниже
битрейт, тем меньше бит позволяется кодеру отводить для хранения информации
об одной секунде аудио и, таким образом, тем хуже качество получаемого сжатого
потока аудио. Наиболее распространенное среднее значение битрейта колеблется
в пределах от 128 до 192 Kbps («килобит в секунду»).

Чтобы «справиться» с компрессией данных на достаточно низких битрейтах (таких, как 96, 112 и 128
Kbps), некоторые кодеры .MP3 перед применением психоакустики отфильтровывают из
оригинальных данных все частотные составляющие, расположенные выше определенного предела
(для 128 Kbps граничная частота обычно составляет 16 КГц). Это означает, что при декомпрессии
аудио этих частот также не будет. А, это в свою очередь означает, что если исследуемый диск
«нарезан» из низкобитрейтных .MP3 файлов, то нехитрый спектральный анализ покажет полное или
частичное отсутствие частот выше определенной границы.

Для того чтобы проверить нашу гипотезу, загрузим один из треков в редактор и посмотрим на этот
трек в режиме сонограммы (в редакторе Cool Edit Pro режим просмотра сонограммы включается в
меню View -> Spectral View). Пример того, как выглядит сонограмма .WAV-файла, декодированного
из .MP3 128 Kbps, можно увидеть на рис. 2 (показан только левый канал).

рис. 2

Как видите, частот выше 16 КГц просто нет. Более того, видна совершенно четкая граница
фильтрации.

Надо отметить, что этот метод проверки CD более точен. Однако и в этом случае нужно учитывать,
что, во-первых, не все кодеры и не во всех режимах осуществляют такую жесткую фильтрацию -
грамотно сжатый .MP3 даже на низком битрейте более или менее правильно отражает спектральную
картину оригинального сигнала во всей полосе частот. Поэтому, даже если диск не оригинальный,
подобной картины можно и не увидеть. Во-вторых, следует обратить внимание на то, что проблема
имеет и обратную сторону. В ваших руках может оказаться оригинальный диск, который по
результатам подобной проверки вы можете принять за фальшивый. Такое может случиться, если вы
не учтете тот факт, что не все оригинальные диски содержат аудио материалы прекрасного
качества. Некоторые диски могут быть записаны со старых носителей (старые магнитные ленты,
виниловые пластинки), где частотный диапазон ограничен либо качеством самого носителя, либо
невысоким качеством использованной при записи аппаратуры.

Способ 3. Как мы уже сказали выше, помимо возможной фильтрации верхних частот при
кодировании в .MP3 происходит сильное «упрощение сигнала». Кодер анализирует аудио
информацию и, опираясь на указанный пользователем битрейт, «решает» какие тонкости звучания
можно выбросить. Чем ниже битрейт, тем сильнее будут упрощены оригинальные аудио данные.
Такая обработка сигнала не проходит бесследно: сжатый сигнал начинает звучать менее
естественно, а к звучанию добавляются так называемые «артефакты кодирования» («бульканье»,
позвякивание, заметные скачки уровня сигнала на различных частотах). В двух словах объяснить
возникновение подобных искажений несложно: выходной поток кодера ограничен по размеру
указанным битрейтом; кодер, «пытаясь» уложиться в заданный размер и, в то же самое время, не
сильно испортить сигнал, «старается» сохранить как можно больше нюансов оригинального
звучания. Однако ввиду конечности скорости реакции кодера и вследствие невозможности
«запихнуть» в выходной поток все подобные нюансы, кодер вынужден резко переключаться между
ними, изменять параметры фильтрации и проч., что в результате приводит к заметным искажениям в
звучании. Естественно, эти искажения тем ощутимее, чем ниже битрейт.
Возвращаясь к практической части разговора надо отметить, что описанные искажения и дефекты
кодирования в той или иной степени можно распознать на сонограмме. Если анализируемый аудио
материал действительно является декодированным из .MP3, то такие артефакты будут различимы
на сонограмме (в зависимости от битрейта исходного .MP3 они будут различимы больше или
меньше).

Итак, для определения уровня искаженности сигнала берем фрагмент одного из треков
протяженностью 1 – 1,5 секунды с наиболее насыщенным звучанием, причем, масштаб временной
шкалы следует подобрать так, чтобы выбранный фрагмент занимал все рабочее поле; при
необходимости масштаб можно еще более укрупнить. На рис. 3 в качестве примера приведена
сонограмма фрагмента .MP3-файла (128 Kbps).

рис. 3

А теперь, для сравнения, посмотрите на сонограмму оригинального сигнала, показанную на рис. 4.

рис. 4

Как видите, сонограмма оригинального сигнала выглядит гладко, однородно, без резких скачков и
рваных краев. Первая же сонограмма (рис. 3) выглядит наоборот, очень прерывистой, зернистой,
неоднородной. Это и есть результат попыток кодера максимально «отработать» всю полосу частот,
сохранив все тонкости звучания. Конечно, когда вы попытаетесь воспользоваться приведенным
способом для определения подлинности купленного диска, в вашем распоряжении не будет
оригинала, и сравнить сонограммы вы не сможете. Однако представленная на рис. 3 сонограмма
типична для низкобитрейтного .MP3-файла и может послужить вам примером того, как выглядит
неоригинальный сигнал. Видимая невооруженным глазом неоднородность, крупнозернистость и
прерывистость спектра является наглядным примером наиболее характерных артефактов
кодирования. Заметим, что такая наглядность снижается с увеличением битрейта .MP3-файла. В
качестве еще одного примера посмотрим на сонограмму того же сигнала, однако закодированного на
битрейте 160 Kbps (см. рис. 5).
рис. 5

На таком битрейте неоднородность сигнала хотя и стала менее заметной, однако все равно
различима.

К сожалению, и этот способ определения оригинальности CD не гарантирует абсолютную


достоверность. Он лишь дает наиболее уверенные результаты, чем предыдущие способы, но тоже
не претендует на объективность по нескольким причинам. Во-первых, не всегда исследуемый сигнал
имеет фрагменты с таким «наглядным» насыщенным спектром. Во-вторых, при подготовке диска к
записи, профессионал может попытаться скрыть следы .MP3-кодирования. Кроме уже описанного
обрезания тишины в начале файла, он может попытаться скрыть артефакты кодирования путем
пропускания декодированного сигнала через специальные программы, облагораживающие звучание
и реконструирующие частотные составляющие. После такой серьезной начальной обработки
сигнала, можно и не заметить явно выраженных искажений сигнала. Однако все же этот способ
анализа CD может оказаться решающим в определении происхождения купленного диска.

Способ 4. Последний способ, который может сыграть одну из решающих ролей в установлении
истины, прост и красив. Способ основан на следующей идее. Обычно, основная аудио информация
расположена не стерео панораме приблизительно в центре. То есть по субъективным ощущениям
слушателя, источником звука является некий мнимый источник, находящийся посредине между
двумя физическими. Артефакты кодирования же являются, как мы говорили, результатом
невозможности точно отработать все тонкости звучания. Поскольку таких тонкостей может оказаться
достаточно много, то безо всякой зависимости от стерео картины, дефекты кодирования могут быть
разбросаны по стерео панораме достаточно хаотично.

Таким образом, вычитание сигнала одного канала из сигнала другого канала, по сути, «выбросит»
все основное звучание, оставив только то, что находилось по бокам. Артефакты кодирования при
этом станут намного заметнее, поскольку они окажутся выделенными на общем фоне. А, значит,
такая нехитрая операция, как вычитание каналов даст возможность на слух достаточно уверенно
определить все дефекты кодирования, если таковые имели место.

Теперь о том, как вычесть каналы. Загрузите один из .WAV-файлов (треков) в редактор и
произведите вычитание правого канала из левого (в Cool Edit Pro: выделите правый канал,
скопируйте его в буфер, теперь выделите левый канал, воспользуйтесь меню Edit -> Mix Paste,
включите Invert и Overlap, примените). Теперь, исключительно для удобства прослушивания,
скопируйте полученный результат из левого канала в правый. В случае если в вашем распоряжении
оказался, все-таки, фальшивый трек, декодированный из .MP3, результатом проделанной процедуры
будет сигнал, содержащий «все ужасы» кодирования в .MP3: все шумы, искажения и скрежет,
«захлебывание» ударных, высокочастотный шум, – все это с большой долей вероятности окажется в
полученном результирующем сигнале. Чтобы ясно представить себе, чего ожидать от такого
звучания, вы можете сами создать свой .MP3 и сравнить звучание разности каналов оригинального
сигнала со звучанием разности каналов .MP3.

Вывод. Личная практика автора по применению приведенных способов анализа показывает, что ни
один из четырех представленных на ваш суд способов не является панацеей. Однако если большая
часть результатов применения приведенных выше методов склоняет вас думать о подлоге, то,
скорее всего, так оно и есть.
Данная статья кроме своей практической направленности преследовала своей целью расширить
кругозор пользователей в области компьютерного звука. Автор будет признателен читателям за
отзывы по данной статье, а также за новые идеи расширения методологии определения
оригинальности аудио CD.

Виден был уже остров сирен. Залепил я воском уши моим спутникам, а они так крепко привязали
меня к мачте, что не мог я двинуть ни одним суставом. Быстро плыл наш корабль мимо острова,
а с него неслось чарующее пение сирен. О, плыви к нам, великий Одиссей! - так пели сирены, - к
нам направь свой корабль, чтобы насладиться нашим пением. Не проплывет мимо ни один моряк,
не послушав нашего сладостного пения. Насладившись им, покидает он нас, узнав многое...

Э тими словами в книге "Легенды и мифы Древней Греции" пересказывается одно из

приключений Одиссея, описанных Гомером. В наши дни по поводу этой легенды существует много
самых разных мнений. Кто-то воспринимает поэму "Одиссея" как романтическую сказку, а кто-то
всерьез анализирует методы вождения судов, вроде бы изложенные в поэме. Есть и те, что считают
Одиссея никудышным руководителем, который, погубив корабли и команду, многие годы скрывался
от гнева соплеменников, а когда страсти окончательно улеглись, вернулся домой и, чтобы как-то
объяснить свое длительное отсутствие, наплел с три короба.

Словом, миф об Одиссее, как и всякий миф, предоставляет широчайшее поле для анализа,
толкований, фантазирования. Рискну и я высказать свои предположения о... причине столь мощного
воздействия пения сирен на слушателей.

В представлении многих людей, в том числе и тех, кто воплощал образ мифологических сирен в
музыке, в качестве основных отличительных признаков голосов этих полуптиц-полуженщин вольно
или невольно присутствуют чарующая красота и, главное, необычайная мощь звучания. Но,
думается, дело здесь не только и не столько в силе голоса каждой отдельно взятой сирены. Скорее
всего, способность воздействовать на психику человека возникает из-за того, что сирены поют
хором. Если голоса у сирен действительно столь мощные, что начинают "доставать" моряков на
довольно большом расстоянии (едва остров появился на горизонте), то физика их воздействия на
слух значительно усложняется: возникает нелинейный эффект. Свойства среды и слухового
рецептора оказываются зависимыми от самих колебаний. Из-за нелинейности характеристики
какого-либо элемента среды возникают комбинационные колебания. Например, если на вход
нелинейного элемента подается единственное синусоидальное колебание, то на его выходе
появятся колебания с частотами (гармониками) в 2, 3, 4, 5,... раз больше частоты исходного
колебания. Если же подать колебания двух частот, возникнет бесчисленное количество колебаний,
частоты которых равны суммам и разностям всех гармоник двух исходных колебаний.

Гомер ничего не говорит о том, сколько сирен одновременно заводили свою роковую песню. Похоже,
их было много. Это означает, что в спектре их чарующего вопля присутствовало бесчисленное
количество достаточно мощных комбинационных инфразвуковых колебаний. Известно, что такие
колебания при определенных условиях "самосинхронизируются" с ритмами головного мозга. В
малых "дозах" подобные колебания могут усилить эмоциональное воздействие музыки, сделать ее
субъективно более приятной и желанной. Эффект зависит, среди прочего, от конкретных значений
частот. От длительного и интенсивного воздействия колебаний одних частот возникают теплые,
успокаивающие ощущения, другие частоты вызывают у человека возбуждение, агрессивность. Впору
и в самом деле привязать себя к мачте или, за неимением таковой, к батарее центрального
отопления, чтобы не натворить разных бед в состоянии звуконаркотического опьянения!

Существуют специальные программы, формирующие колебания, которые, по замыслу


разработчиков, должны синхронизироваться с ритмами активности головного мозга. Об одном из
подобных средств вы могли прочитать в "Магии ПК" №9/2001. Однако на практике получить такой
эффект очень трудно. Наверное, для того чтобы возник эмоциональный резонанс, необходима очень
точная и тонкая подстройка параметров колебаний под свойства слуха и сознания конкретного
человека. Эффект будет мягче, разнообразнее и стабильнее, если вместо единственного
"прицельного" по частоте колебания формировать множество колебаний со случайными частотами,
постоянно меняющимися, но находящимися в некотором характерном диапазоне. Реальным
генератором таких сигналов может служить большой хор певцов, а идеальным - хор сирен.

Конечно, в распоряжении начинающего компьютерного музыканта нет ни обычного хора, ни хора


сирен, но зато есть достойная замена - звуковой эффект, который носит не требующее перевода
название "хорус".

Хорус как таковой


Хорус (Chorus) проявляется как эффект исполнения одного и того же звука или всей партии не одним
инструментом или певцом, а несколькими. Искусственно выполненный эффект является моделью
звучания настоящего хора.

В том, что хоровое пение или одновременное звучание нескольких музыкальных инструментов
украшает и оживляет музыкальное произведение, сомнений, вероятно, нет ни у кого. С одной
стороны, голоса певцов и звуки инструментов при исполнении одинаковой ноты должны звучать
одинаково, и к этому стремятся и музыканты, и дирижер. Но из-за индивидуальных различий
источников звук все равно получается разным. В пространстве, тракте звукоусиления и в слуховом
аппарате человека эти слегка неодинаковые колебания взаимодействуют, образуются так
называемые биения. Спектр звука обогащается и, самое главное, течет, переливается.

Можно считать, что предельным случаем хоруса является одновременное звучание слегка
отличающихся по частоте двух источников - унисон. Он был известен задолго до появления
электронных синтезаторов. В основе сочного и живого звучания двенадцатиструнной гитары,
аккордеона, баяна, гармони лежит именно унисон. В аккордеоне, например, звук каждой ноты
генерируется узлом, содержащим два источника колебаний (язычка), специально настроенных "в
разлив" - с небольшой разницей в частотах (единицы герц). В двенадцатиструнной гитаре звук
извлекается одновременно из пары струн, а разница в частотах образуется естественным путем, из-
за невозможности идеально одинаково настроить обе струны. Наличие ничтожной разницы в
частотах голосов певцов или инструментов и служит причиной красивого звучания унисона (для двух
голосов) или хоруса (для голосов, числом более двух).

В цифровых электромузыкальных инструментах, напротив, частоты пары генераторов могут быть


абсолютно равными друг другу. В таком звучании отсутствует жизнь - оно слишком правильное. Для
оживления электронного звучания и для создания впечатления игры нескольких инструментов и
используют хорус.

Существует довольно много разновидностей алгоритмов хоруса, но все они сводятся к следующему:

• Исходный сигнал разделяют на два или несколько каналов


• В каждом канале спектр сигнала сдвигают по частоте на определенную величину. Частотные сдвиги
очень малы (доли герца) и в ряде случаев изменяются во времени
• В каждом канале сигнал немного задерживают во времени, причем величина задержки может
меняться (поэтому хорус относится к числу эффектов, основанных на задержке сигнала)
• Каждый из каналов позиционируют в свою точку на стереопанораме
• Сигналы, полученные таким способом, складывают.
В итоге получается сигнал, в котором звуковые волны как бы "плывут" с разными скоростями. Спектр
сигнала непрерывно изменяется, причем период полного цикла этого изменения столь велик, что
повторяемость спектральных свойств сигнала не ощущается. Хорус настолько украшает звучание
инструментов, что ныне имеется практически в каждом синтезаторе и во многих звуковых картах.
Обработка аудиосигнала звуковыми редакторами позволяет получить очень много разновидностей
этого эффекта, но чрезмерное увлечение им может привести к ухудшению разборчивости звучания
голоса, к "засорению" акустической атмосферы композиции.

Хорус в Cool Edit Pro 2


Было бы странно, если бы в мощном звуковом редакторе Cool Edit Pro 2 отсутствовал эффект, давно
ставший классическим. Окно эффекта Chorus открывается командой Effects > Delay Effects >
Chorus....

Вы можете обогатить звучание композиции, имитируя одновременное исполнение партии


несколькими голосами или инструментами. Кроме всего прочего, хорус - это еще и один из способов
создания эффекта присутствия, то есть выделения голоса певца или звука инструмента на фоне
аккомпанемента. Вы можете также использовать хорус, чтобы создать эффект
псевдостереофонического звучания монофонического аудиотрека или обогатить гармонию
вокальной партии.

В Cool Edit Pro 2 применяется метод прямого моделирования эффекта Chorus: из каждого исходного
голоса формируются новые голоса, звучание которых отличается от оригинала за счет неглубокой
модуляции частоты и сдвига по времени, а также псевдослучайного интонирования.
Пространственную протяженность и даже некоторую объемность эффекту придает наличие
обратной связи в алгоритме обработки. Рассмотрим опции окна Chorus.

Окно эффекта Chorus звукового редактора Cool Edit Pro 2

В группе Chorus Characteristics сосредоточены опции, определяющие параметры эффекта. В поле


Thickness_Voices указывается количество голосов, участвующих в формировании эффекта. Для
управления параметрами хоруса служат следующие движковые регуляторы (слайдеры) и поля
ввода:
• Max Delay - максимальное временное рассогласование (задержка) голосов. Рекомендуется
устанавливать эту величину в пределах 15-35 мс. При очень маленьком ее значении все голоса
начнут объединяться в оригинал, и могут возникнуть неприятные ощущения. При слишком
больших значениях параметра слушателю может показаться, что запись воспроизводится
магнитофоном, который начал "зажевывать" ленту
• Delay Rate - частота модуляции времени задержки
• Feedback - глубина обратной связи
• Spread - дополнительная задержка каждого голоса (до 200 мс). При больших значениях этого
параметра отдельные голоса начинают звучать в разное время. Малые значения дополнительной
задержки придают эффекту характер унисона нескольких голосов
• Vibrato Depth - глубина вибрато (модуляции по частоте, см. "Магия ПК" №11/2002)
• Vibrato Rate - частота вибрато

В группе Stereo Chorus Mode находятся опции, от которых зависят стереофонические свойства
эффекта.

Если флажок Average Left & Right сброшен, то исходные сигналы левого и правого каналов будут
обрабатываться эффектом по отдельности. Существовавший до обработки стереообраз звука
претерпит минимальные искажения. При установленном флажке сформируется некий усредненный
стереообраз, так как обрабатываться будет смесь канальных сигналов. По сути дела, сначала
программа до основания разрушит исходный стереообраз, сформировав моносигнал, а затем
придаст ему стереофоничность за счет разноса отдельных голосов по панораме.

Если обрабатывается монофонический аудиофайл, то флажок Average Left & Right следует
сбросить, чтобы избежать бессмысленной траты времени на преобразование моносигнала в
моносигнал.

При установленном флажке Add Binaural Cues в сформированный сигнал добавляются задержки,
разные для правого и левого каналов. Тогда голоса, исходящие из различных точек панорамы, будут
появляться в различные моменты времени.

Расположенные ниже этих флажков движковый регулятор и поле ввода предназначены для выбора
протяженности эффекта на стереопанораме (ширины стереополя). Если движок находится в
положении Narrow Field (введено число 0), все голоса будут помещены в центр стереопанорамы. При
установке движка в положение 50% они расположатся на панораме равномерно слева направо.
Например, если имитируется хор из 5 голосов, то голоса панорамируются в следующие позиции:

• Первый голос - в крайнюю левую точку панорамы


• Второй голос - посредине левой части панорамы
• Третий голос - в центр панорамы
• Четвертый голос - посредине правой части панорамы
• Пятый голос - в крайнюю правую точку панорамы

Если параметру, определяющему протяженность стереоэффекта, задать значение больше 50%, то


по мере передвижения движка вправо голоса начнут смещаться к крайним точкам панорамы: левые
переместятся еще левее, а правые - правее. В случае работы с нечетным числом голосов один голос
будет всегда находиться точно в центре панорамы. При четном числе голосов в центре не будет ни
одного голоса. Половина голосов окажется в правой части панорамы, половина - в левой.

Если движок находится в положении Wide Field (значение параметра - 100%), все левые голоса
будут помещены в крайнюю левую точку, правые - в крайнюю правую точку.

В группе Output сосредоточены регуляторы и поля вода, с помощью которых можно выбрать
пропорцию смешивания обработанного эффектом (Wet Out) и исходного (Dry Out) сигналов.

При установленном флажке Bypass на выход эффекта независимо от состояния регуляторов группы
Output подается только обработанный сигнал.
Если установить флажок Highest Quality (but slow), то для реализации эффекта будет использован
алгоритм, обеспечивающий более высокое качество (меньший уровень искажений), однако время,
необходимое для вычислений, возрастет.

Звуковой редактор Cool Edit Pro 2 отличается большим количеством интересных пресетов (заранее
установленных наборов значений параметров эффектов). Для хоруса это:

• 5 Voices (Pro), 5 Voices Sing, Another Dimension - варианты хора из пяти голосов
• Amateur Chorus, Thick Chorus - варианты хора из 12 голосов
• AcousticDuet, Duo - варианты дуэтов
• Electro-Voice - имитация электронного звучания голоса
• Flying Saucers - такие звуки, по мнению разработчика, издают летающие тарелки
• More Sopranos, Soprano Chorus - варианты хора из голосов сопрано
• Quadra Chorus Quartet - варианты квартета
• Rich Chorus, Rich Chorus In Unison - варианты хора с насыщенным звучанием
• Thick Chorus, Wide & Thick - варианты большого хора с широким стереополем
• TrippyVox - хор из 5 голосов, необработанный сигнал на выходе эффекта отсутствует.

Хорус в SONAR 2.1


В музыкальном редакторе SONAR 2.1 есть несколько видов хоруса, реализуемых в соответствующих
окнах: Chorus (mono), Chorus и FxChorus. Первый из них достался программе в наследство от очень
ранних версий Cakewalk Pro Audio. Эффект утратил актуальность по причине монофоничности. Два
остальных эффекта стереофонические. В определенном смысле они дополняют друг друга, так как
несколько отличаются параметрами, доступными для регулирования. Замечу, что FxChorus -
наиболее современный DX-плагин, поддерживающий динамическое управление параметрами
эффекта с помощью специальных графиков - огибающих.

Эффекты в SONAR 2.1 можно применять как в реальном времени, так и путем пересчета данных на
выделенном треке. Во втором случае окна эффектов содержат две вкладки. Опции вкладки Mixing
(одинаковой для всех эффектов) позволяют определить характер взаимодействия исходного и
обработанного цифрового звука, а все настройки эффекта расположены на вкладке Settings.
Команда Process > Audio Effects > Cakewalk > Chorus... вызывает окно Chorus.
Вкладка Settings окна эффекта Chorus музыкального редактора SONAR 2.1

Регулятор Dry Mix (%) предназначен для управления уровнем громкости необработанного сигнала,
ретранслируемого на выход эффекта, а Wet Mix (%) - обработанного сигнала на выходе эффекта.
Если выключатель Link этой группы опций выключен, то регулировать эти параметры можно
независимо друг от друга, если же включен, то увеличение значения одного параметра приведет к
уменьшению значения другого, и наоборот.

Left Delay (ms) и Right Delay (ms) - регуляторы интервала времени между повторениями сигналов
левого и правого каналов соответственно. Если выключатель Link не активен, то регулировку этих
двух параметров можно выполнить независимо. В противном случае регуляторы Left Delay (ms) и
Right Delay (ms) будут объединены в группу, и задержка для обоих каналов будет одинаковой.

Cross Feedback Mix (%) - регулятор коэффициента перекрестной обратной связи (когда сигнал с
выхода левого канала подается на вход правого, а сигнал с выхода правого канала - на вход левого).
Чем выше значение коэффициента перекрестной обратной связи, тем больше количество повторов
сигнала и шире стереобаза источника звука.

Left Feedback Mix (%) и Right Feedback Mix (%) - регуляторы уровня сигналов обратной связи левого
и правого каналов. Чем выше значения этих параметров, тем больше количество повторов сигнала.

LFO Depth - регулятор глубины модуляции времени задержки (в миллисекундах). Максимальное


время задержки сигнала составляет 80 мс. Выбор слишком высоких значений LFO Depth может
привести к фальшивости звучания. Тонкий и приятный на слух эффект хорового исполнения может
быть получен лишь при небольших значениях этого параметра.

LFO Rate (Hz) - регулятор частоты модуляции времени задержки сигналов (в герцах).

Triangular и Sinusoidal - переключатели формы модулирующих сигналов (треугольная или


синусоидальная).

С помощью выключателя Bypass можно сравнить звучание фрагмента композиции до и после


обработки (если он активен, эффект выключен).

Команда Process > Audio Effects > Cakewalk > FxChorus... вызывает окно диалога FxChorus.
Вкладка Settings окна диалога эффекта FxChorus музыкального редактора SONAR 2.1

Эффект FxChorus позволяет оживить звучание голоса певца или музыкального инструмента:
создается впечатление, что партия исполняется дуэтом, трио, квартетом и даже квинтетом.
Фактически эффект объединяет в себе 4 хорус-процессора, поэтому кроме исходного голоса можно
сформировать еще до 4 голосов. Параметры каждого из них вы можете устанавливать независимо.
Отмечу, что эффект поставляется с большим количеством довольно интересных готовых пресетов.
Как же создать свой собственный новый вариант эффекта?

Обратите внимание на четыре столбца, VOICE 1 - VOICE 4. В каждом из них (сверху вниз)
расположены следующие элементы:

• Индикатор и поле ввода уровня усиления сигнала данного голоса (изменяется в пределах от 0,00 до
1,00)
• Кнопка on включения данного голоса (голос включен, если она окрашена в зеленый цвет, и
выключен, если в серый)
• Кнопка Set включения режима редактирования параметров данного голоса ("нажатое" состояние
кнопки индицируется пунктирной рамкой и увеличением яркости)
• Слайдер gain, предназначенный для регулировки уровня усиления сигнала данного голоса (щелчок
на слайдере равноценен нажатию кнопки Set)

Столбец GLOBAL содержит:

• Индикатор-поле ввода уровня усиления сигнала смикшированных голосов (изменяется в пределах от


0,00 до 2,00)
• Кнопку G включения режима одновременной регулировки с помощью единственного слайдера уровня
усиления всех голосов
• Слайдер регулировки уровня усиления микса сигналов голосов
Как только вы тронете слайдер, расположенный в столбце GLOBAL, регуляторы уровней усиления
голосов окажутся сгруппированными. При изменении положения слайдера GLOBAL остальные
слайдеры будут отслеживать его перемещение. Если слайдер GLOBAL перемещать в небольших
пределах, то пропорция, в которой микшируются голоса, сохраняется. Однако как только из-за
значительного перемещения слайдера GLOBAL какой-нибудь из слайдеров голосов достигнет своего
нижнего или верхнего положения, характер связи данного слайдера со слайдером GLOBAL
изменится: они будут двигаться не только синхронно, но и в одинаковых пределах. Диапазон
изменения значений параметра GLOBAL в два раза превышает диапазон изменения уровня
усиления любого голоса. Поэтому после двух-трех перемещений слайдера GLOBAL от минимума до
максимума и обратно движение всех пяти слайдеров окажется жестко синхронизированным.
Подвигайте слайдер GLOBAL, и вы поймете логику взаимодействия данных регуляторов.

Итак, одновременно можно редактировать параметры только одного голоса, выбранного кнопкой Set.
Какие параметры доступны для редактирования? Ответ на вопрос дает анализ элементов (полей
ввода и маленьких слайдеров), входящих в группу VOICE SETTINGS:

• delay (ms) - запаздывание сигнала выбранного голоса относительно исходного


• mod depth - глубина модуляции времени запаздывания сигнала выбранного голоса относительно
исходного (при небольшом периодическом изменении рассогласования между голосами во
времени возникает ощущение переливчатости и живости звучания голосов)
• pan - панорама выбранного голоса (эффект особенно впечатляет, когда голоса виртуального хора
разнесены по стереопанораме)
• mod freq. - частота модуляции времени запаздывания сигнала выбранного голоса относительно
исходного

При небольших значениях параметров delay (ms), mod depth и mod freq. вы сможете получить
красиво звучащую имитацию хорового исполнения партии. Если значение delay (ms) велико, хор
распадется на отдельные голоса, исполняющие партию с заметной несогласованностью во времени.
Большие значения параметров mod depth и mod freq. следует выбирать только в том случае, когда
вы специально хотите внести в звучание исходного голоса существенные специфические искажения.

Слайдер и поле ввода группы MIX LEVEL предназначены для регулирования пропорции между
уровнями исходного и обработанного эффектом сигналов в выходном миксе. Причем, в левом
положении слайдера (dry) на выход проходит только необработанный сигнал, в правом (wet) - только
обработанный. Слайдер и поле ввода группы OUTPUT LEVEL служат для регулирования уровня
выходного сигнала.

Кнопка Bypass позволяет изменять маршрутизацию сигнала. Если она нажата, то сигнал
пропускается в обход эффекта, если отпущена - через эффект.

Найденные опытным путем удачные сочетания параметров голосов можно сохранить в пресете. Как
обычно, для этого в раскрывающемся списке Preset: нужно набрать имя пресета и нажать кнопку с
изображением дискеты.

Итак, вы познакомились с тремя реализациям хоруса. Теперь, задумав поразить воображение


слушателей музыкой, проникающей в душу, вы обойдетесь и без сирен, и без хора армейского
ансамбля. Много возможностей - труднее сделать выбор: глаза разбегаются. Поэтому
прислушайтесь к совету. Если работа ведется исключительно с оцифрованным звуком,
целесообразно воспользоваться эффектом, входящим в состав программы Cool Edit Pro 2. Если
часть композиции записана на аудиотреках, а часть на MIDI-треках, то лучшим решением будет
применение хоруса музыкального редактора SONR 2/SONAR 2.1. О подробностях работы с этими
мощнейшими и по-своему уникальными программами читайте в книгах "Cool Edit Pro 2. Секреты
мастерства" и "Виртуальная звуковая студия SONAR". Если же в ходе применения эффектов вы
столкнетесь с какими-то непонятными для вас явлениями, присылайте свои вопросы на форумы
нашего сайта.
Compression

Простые методы сжатия


Традиционные методы сжатия без потерь (Huffman, LZW, итд.) обычно плохо применимы для сжатия
аудио информации (по тем же причинам что и при сжатии визуальной информации).

Ниже перечислены некоторые методы сжатия с потерями:

• Сжатие тишины(пауз) - определяет периоды "тишины", работает аналогично run-length кодированию.


• ADPCM - Adaptive Differential Pulse Code Modulation (в русскоязычной литературе применяется
термин адаптивная дельта-импульсно-кодовая модуляция (АДИКМ).

Например, стандарт CCITT G.721 -- от 16 до 32 Kbits/sec:


Кодирование разницы между двумя или более последовательными отсчетами;
затем разница квантуется --> при квантовании часть информации теряется.
Квантование адаптивно (меняет параметры в зависимости от сигнала), в
результате меньшее количество бит необходимо для достижения лучшего SNR.
Необходимо предсказывать как звук изменится --> сложно

• Apple разработал собстенную систему названную ACE/MACE. Сжатие с потерями, пытается


предсказать, каково будет значение следующего отсчета. Сжатие порядка 2:1.
• Linear Predictive Coding (LPC) - пытается описать сигнал с помощью "речевой модели" и передает
параметры модели --> звучит как компьютерно синтезированная речь, 2.4 kbits/sec.
• Code Excited Linear Predictor (CELP) - тоже самое что и LPC, однако дополнительно передает ошибку
квантования (используя предопределенный набор "кодовых слов") --> телефонное качество при
4.8 kbits/sec.

Методы сжатия, основанные на психоакустике


Представители: MPEG layers 2, MPEG layer 3 (MP3), AAC (Advanced audio coding), TwinVQ, Ogg
Vorbis, и др.

Алгоритм кодека использующего психоакустику обычно состоит из следующих шагов:

• Обсчет психоакустической модели (маскирования).


• Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
• Квантование сигнала в подполосах в соответствии с результатами психоакустической модели.
Возможно использование одного квантового уровня. сразу для нескольких входных значений
(векторное квантование - Vector Quantization) - TwinVQ.

Некоторые факты о восприятии звука


• Частотный спектр воспринимаемый человеком (примерно) от 20 Hz до 20 kHz, наибольшая
чувствительность в диапазоне от 2 до 4 KHz.
• Динамический диапазон (от самых тихих воспринимаемых звуков до самых громких) около 96 dB
(более чем 1 к 30000 по линейной шкале).
• Общеизвестно, что человек в состоянии различить изменение частоты на 0.3% на частоте порядка
1kHz.
• Если два сигнала различаются менее чем на 1дб по амплитуде - они трудноразличимы. Разрешение
по амплитуде зависит от частоты и наибольшая чувствительность наблюдается в диапазоне от 2
до 4 KHz.
• Пространственное разрешение (способность к локализации источника звука) - до 1 градуса.
• Звуки различной частоты распространяются в воздухе с разной скоростью. В результате
высокочастотная часть спектра от источника находящегося на удалении от слушателя несколько
запаздывает.
• Человек не в состоянии
заметить внезапное
исчезновение высоких
частот, если оно не
превышает порядка 2ms.
• Некоторые исследования
показывают, что человек в
состоянии ощущать частоты
выше 20kHz. С возрастом
частотный диапазон
сужается.

Речь

• Частотный спектр, несущий


информацию в
человеческой речи: от 500
Hz до 2 kHz

Низкие частоты - басы и


гласные
Высокие частоты - согласные

• Лучшее сжатие речи


достигается с
использованием
параметрических кодеров
(LPC, CELP, и пр.),
пытающихся представить речь как набор параметров некоторой речевой модели. Кодеки общего
назначения (MPEG и др.), как правило, дают худшее сжатие.

Устройство уха

В общем случае ухо - нелинейная система и не может быть точно описано с помощью только
линейных элементов (таких как фильтры и линии задержки). Как побочный результат нелинейности
может проявляться, например, следующий эффект: при подаче двух тонов с частотой 1000 и 1200Hz
может также быть слышен третий тон с частотой 800Hz. Однако в интересующем нас диапазоне
амплитуд нелинейность достаточно слаба и ей обычно пренебрегают.

Строение

Ухо состоит из трех частей: ушной раковины (также называемой внешним ухом), среднего уха и
внутреннего уха - улитки. Проходя через различные части уха звук претерпевает изменения.

• Одна из функций внешнего уха (ушной раковины) - улучшение локализации источника звука в
пространстве. Благодаря ее несимметричной форме АЧХ сигналов приходящих из разных точек
пространства изменяется по разному. Ушная раковина может влиять лишь на сигналы с длинной
волны, сопоставимой с размерами уха (>3kHz). Внешний ушной канал резонирует на частоте
около 2kHz , что дает повышенную чувствительность в данном диапазоне.
• Среднее ухо выполняет роль гидравлического усилителя. Так как в улитке находится жидкость а
снаружи - воздух, то необходимо согласование сопротивления среды. Среднее ухо также
защищает от низкочастотных звуков чрезмерной амплитуды.
• Внутреннее ухо - улитка. В развернутом виде будет представлять из себя трубочку, с постепенно
уменьшающимся к одному из концов диаметром. Улитка выполняет роль частотного анализатора.
Внутри улитки находятся до 4000 нервных окончаний. Различные области улитки входят в
резонанс при подаче сигнала определенной частоты.

Восприятие в зависимости от частоты


• Так как нейрон может возбуждаться не чаще чем 500 раз в секунду, то для получения информации о
более высоких частотах слуховой аппарат человека прибегает к некоторым "ухищрениям":

На частотах до 500 Hz --> колебания непосредственно переходят в нервные


импульсы.
Примерно до 1.5кГц проблема решается подключением одновременно до 3
нейронов к одному нервному окончанию. Нейроны в данном случае
возбуждаются последовательно, один за другим и, соответственно, помогают
улучшить частотное разрешение в 3 раза.
На более высоких частотах регистрируется лишь амплитуда сигнала.

• Таким образом бинауральный слух, играющий большую роль в локализации источника звука, лучше
всего развит на частотах меньших 1.5кГц. Выше этой частоты источником информации о
местоположении служит лишь разница амплитуд сигнала для левого и правого уха. Это делает
возможным применение при кодировании режимов Joint Stereo - запоминается либо информация
для суммы правого и левого каналов и их разница, со значительно меньшей точностью (Mid/Side
coding), либо вообще запоминается лишь амплитуда сигнала (Intensity coding).

Психоакустика

Критические полосы (Critical Bands)

• Человеческая система восприятия звука имеет ограниченное, зависящее от частоты разрешение.


Равномерное, с точки зрения восприятия человеком измерение частоты может быть выражено в
единицах ширины Критических Полос.
Их ширина менее 100 Hz для нижних слышимых частот, и более 4 kHz для наиболее высоких.
Весь частотный диапазон может быть разделен на 25 критических полос.
• Новый отсчет частоты был назван барк (bark, after Barkhausen):

1 Барк = ширина одной критической полосы


Для частот < 500 Hz, может быть рассчитан по формуле: частота / 100 Барк,
Для частот > 500 Hz: 9 + 4log2(частота / 1000) Барк.

Чувствительность человеческого уха в зависимости от частоты

• Эксперимент: Слушатель в тихой комнате. Повышаем громкость тона частотой 1 kHz до уровня когда
он становится слышимым. Изменяя частоту тона получим:

Частотное(параллельное) маскирование

Вопрос: Взаимодействуют ли звуковые рецепторы друг с другом ?

• Эксперимент: Воспроизводим тон частотой 1 kHz (маскирующий сигнал), с фиксированной


громкостью (60 dB). Воспроизводим тестовый (маскируемый) тон с различной громкостью
(скажем с частотой 1.1 kHz), и повышаем его уровень до тех пор пока он не становится
слышимым.
• Изменяем частоту тестового тона и рисуем границу слышимости:
• Повторяем эксперимент для различных частот
маскирующего сигнала:

• Частотное маскирование с частотной шкалой


выраженной в Барках:

Временное(последовательное) маскирование

Если мы слышим громкий звук, который внезапно прекращается, требуется


некоторое время чтобы услышать более тихий тон.

Эксперимент: Воспроизводим 1 kHz маскирующий тон на уровне


60 dB, и тестовый тон с частотой 1.1 kHz на уровне 40 dB.
Тестовый тон не слышен (он замаскирован).

Отключаем маскирующий тон, затем, после небольшой задержки


отключаем тестовый тон.
Уменьшаем время задержки до тех пор пока тестовый тон еще
слышен (например 5 ms).

Повторяем используя различную громкость тестового тона и


получаем:

Общий эффект от частотного и временного маскирования:

Транзиентные сигналы
Представленная выше теория маскирования верна в случае рассмотрения квазистационарных,
медленно меняющихся по амплитуде и частотным характеристикам сигналов. В случае же
рассмотрения сигналов с резко меняющимися параметрами (транзиентные сигналы) она
неприменима.

Ухо в данном случае невозможно описать с помощью линейной системы. Теоретически


обоснованных подходов для описания восприятия в данном случае автору не известно. Можно
описать лишь несколько хорошо известных эффектов проявляющихся при кодировании данных
сигналов:

• Пре-эхо (pre-echo, ringing). Возникает перед резкими увеличениями амплитуды сигнала (атаками).
При кодировании с недостаточным временным разрешением (и выделением недостаточного
количества бит при квантовании) часть сигнала предшествующая атаке существенно искажается
шумом квантования. Так как существует эффект пре-маскирования, то некоторое искажение
допустимо, однако оно должно быть достаточно коротким по времени. Некоторые исследования
показывают, что время пре-маскирования уменьшается с увеличением частоты сигнала.
• Речевой сигнал. Голосовые участки речевого сигнала являются по своей природе часто идущими
атаками с быстрым затуханием (pitched signals):

Стандартная психоакустическая модель маскирования сигналов в данном случае выдает завышенные пороги слышимости
(из-за недостаточного временного разрешения) и, как результат, становится слышимым шум квантования.
Д ля начала - немного теории. Свертка - это последовательный процесс, заключающийся в

сложении N точек входной функции, умноженных на коэффициенты (таблицу свертки), для


получения одной точки результирующей функции. Данная операция проводится столько раз, сколько
точек будет содержать результирующая функция.

Проще всего этот процесс, наверное, будет понятен по иллюстрации: справа изображена свертка
некой функции (зеленые клетки) с помощью таблицы свертки {0, 1, 1} (желтые клетки), результат -
столбик значений (функция) в синих клетках. Получение первых трех значений результирующей
функции показано подробно - значения трех последовательных элементов исходной функции
умножаются на значения таблицы свертки, результат складывается и записывается в одну ячейку
результата.

• Видно, что количество точек результирующей функции всегда меньше, чем количество точек
исходной. Конкретно говоря, их меньше на N-1 штук, где N - размер таблицы свертки.
• Мы применяли симметричную свертку - т.е. свертку относительно середины отрезка. Если пометить
центральный элемент таблицы свертки <вот так>, то наша свертка записывалась бы в виде {0,
<1>, 1}. К примеру, одноточечная свертка {<1>} оставит функцию как есть - не отняв ни одного
отсчета и не изменив ни одного значения, а {<2>} - усилит функцию (увеличит каждый её элемент)
в два раза. Свертка {0, <0>, 1} просто сдвинет функцию на один отсчет. Собственно говоря, для
такой операции мы могли бы воспользоваться и просто несимметричной сверткой из двух точек -
{<0>, 1}.

Видно, что сама по себе свертка - простой и понятный процесс. Вся хитрость и мощь заключена в
том, как, с какими параметрами, этот процесс можно применить - то есть в таблице свертки. К
вопросу о том, что же такое таблица свертки (далее называемая просто сверткой) и мы сейчас и
перейдем.

Для наглядного представления процесса бывает очень удобно изображать таблицу свертки в виде
графика, аналогичного обрабатываемым функциям. Все дальнейшие иллюстрации будут проходить
с использованием картинок, подобной данной:
На картинке изображена исходная функция, построена таблица свертки ("холостая" - т.е. состоящая
из множества нулей и одной единички, просто сдвигающая функцию) и изображен сам результат
свертки этой функции этой таблицей. Применяемая во всех дальнейших примерах таблица свертки
прикладывается симметрично, т.е. центр процесса свертки находится в центре таблицы (и,
соответственно, посередине графика "таблица свертки"), сама таблица состоит из 41 точки (20 точек
в одну сторону, центральная точка и 20 точек в другую сторону). Оговорюсь сразу, что эффект
сдвига функции, который имеет место на предыдущей иллюстрации, нас нисколько не интересуют -
суть обработки заключается не в этом.

Пример N1 - Одиночное эхо.


Начнем с простого. Данная свертка иллюстрирует получение одиночного эха, равного по амплитуде
половине от исходного сигнала. Можно легко догадаться, что второй импульс (всплеск) свертки
просто дублирует сигнал еще один раз через определенное число отсчетов.

Отвлечемся еще немного и поговорим о концепции, которая неразрывно связана со сверткой -


импульсная функция (impulse response). Импульсная функция - характеристика процесса,
отвечающая на вопрос: что сделает процесс с одиночным импульсом? Попытаемся получить
импульсную функцию свертки, т.е. скормим нашему процессу одиночный импульс в качестве
входной функции и посмотрим, что он с ним сделает:
Можно заметить, что свертка послала в выходной результат... себя. Очень важный вывод: таблица
свертки - это импульсная функция производимого процесса. Перефразируемся: для создания
процесса, отвечающего данной импульсной функции, надо просто "сверстать" данные этой
импульсной функцией. Как получить импульсную функцию? Очень просто: нужно всего лишь
пропустить через искомую систему импульс...

Пример N2 - Реальное эхо.

Последовательность действий проста до гениальности: мы берем микрофон и идем в некую пещеру.


Устанавливаем аппаратуру, включаем запись и издаем "импульс" - вернее, максимально
приближенное к нему явление: например, какой-нибудь предельно резкий удар. Записываем эхо
нашего импульса. Что мы получили? Мы получили способ полностью воссоздать акустику
помещения - по крайней мере в той степени, в какой нам это гарантирует неизменность звука при
неизменности импульсной функции. Это важный момент, который следует понимать: не все
параметры процесса определяются импульсной функцией, но большинство важных для человека -
всё же определяется. Итак, мы записали затихающее реальное эхо импульса и теперь свертываем
им наш собственный звук:
Пожалуйста, эхо. Эхо именно того помещения, которое закодировано в таблице свертки (то есть в
импульсной функции реального эха) - со всеми тональными тонкостями, звуковой окраской и
параметрами затухания (при условии достаточной длинны свертки).

Пример N3 - Частотная фильтрация

Настала пора синтезировать собственную таблицу свертки. На этот раз мы будем делать
фильтрацию звука - да, обыкновенный частотный фильтр, причем частотный фильтр "высшего
класса", не вносящий фазовых искажений - FIR фильтр, вернее, его частный случай - windowed-sinc.
Я всё же не буду объяснять, как синтезируются подобные таблицы сверток - это не входит в тему
данной статьи, просто посмотрите на готовые результаты.

Фильтр, задерживающий низкие частоты и увеличивающий содержание высоких частот (таблица


свертки схематично нарисована пальцем, но и такая вполне работает):
Фильтр, задерживающий высокие частоты (таблица свертки схематично нарисована пальцем, но и
такая вполне работает):

[оговорюсь: если предыдущий фильтр еще как-то похож на windowed-sinc, то


последний - просто бред сивой кобылы :). На самом деле импульсная функция
(таблица свертки) должна иметь затухающие в обе стороны колебания, а не
одинокий горб, как у меня. Но тем не менее даже это грубое приближение, как
видно, вполне фильтрует, хотя и вносит существенные искажения, надо полагать...]

Пример N4 - Комбинированная свертка

Еще один простейший пример - однократное эхо, имеющее глухую окраску - т.е. эхо, сопряженное с
фильтром высоких частот:

Первый одиночный импульс таблицы свертки оставляет в неизменной форме исходный сигнал, а
второй - фильтрующий горбик - с некоторой задержкой добавляет отфильтрованный вариант
сигнала, содержащий только низкие частоты.

Это - лишь малая часть всего того, что можно сделать с помощью свертки. Комбинируя различные
приемы построения таблиц можно добиваться очень разнообразных эффектов - как я уже говорил,
90% всех функций типичного музыкального редактора можно реализовать с помощью сверток.
Сверткой запросто делаются следующие эффекты (в любой комбинации):

• накладываемые задержки
• любая частотная фильтрация
• вариации фаз сигналов

Поверьте, это не так уж мало - с помощью этого набора процессов легко делается хорус, вокодеры,
фланжеры, любая реверберация (даже самая естественная) и эхо, любые эквалайзеры и
фильтрация, а также великое множество других эффектов. Стоит один раз тщательно рассчитать
таблицу свертки, и любой из этих эффектов можно запросто выполнять чуть ли не в реальном
времени - так, например, реализовано большое число сложных эффектов в популярном редакторе
CoolEdit.

Подводя итог: Свертка - процесс, который реализует некое преобразование, заданное через
импульсную функцию этого преобразования. Свертка позволяет в точности воспроизвести
множество процессов, имея их импульсную функцию, а также легко осуществить самую
разнообразную обработку, синтезируя импульсную функцию по неким известным заранее законам.

"Что мы измеряем?"
Михаил Чернецкий

К сожалению, многие из работающих в сфере профессионального звука не имеют


фундаментального академического образования звукорежиссера или звукоинженера.
Поэтому в их подготовке порой встречаются досадные пробелы вследствие
отсутствия системных теоретических знаний, что здорово мешает в работе. Будем
эти пробелы ликвидировать!
И начнем с одного из двух главных понятий акустики - децибела.
Поможет нам в этом инженер-разработчик приборов обработки звука Михаил
Чернецкий. Имя его хорошо известно профессионалам со стажем -
разработанные им и его фирмой "Long" приборы обработки звука очень
популярны в наших студиях. Пожалуй, нет такого вопроса в аудиотехнологиях,
на который он не знал бы ответа. В написанном им для нашего журнала цикле
статей о теории звука он делится своими обширными знаниями. В этом номере -
первая статья, сочетающая теорию с полезными практическими сведениями.
Уже много тысячелетий человечество живёт в мире цифр. Мы измеряем в цифрах всё -
один килограмм конфет, две шоколадки, пол-литра "жидкости" и др. При этом мы
применяем так называемые "вещественные" единицы измерения - граммы, метры, ниты,
атмосферы, литры и т.д.
Однако существуют и весьма широко используются также и нематериальные единицы
измерения, причём не только в ядерной физике, где их огромное количество, но и в
обычной повседневной практике. Здесь мы расскажем об одной из таких единиц, причём
"дважды экзотической" - децибеле.
Почему же экзотической, да ещё дважды? Во-первых, не существует воплощённого "в
металле" эталона децибела, его нельзя "повертеть в руках", пощупать. Платино-
иридиевые эталоны метра, килограмма - существуют, а децибела - нет. Во-вторых,
децибел - это не целая, а дольная единица. Мы часто пользуемся единицами целыми
(грамм, метр) и кратными (килограмм, километр), но практически никогда - дольными. В
самом деле - часто ли вы используете дециметр или дециграмм? Никому же не придёт в
голову сказать: "у меня дома потолки 27 дециметров"! Так откуда же взялась и для чего
нужна эта малопонятная единица? Казалось бы: есть вольты, герцы, амперы... Чего ещё
желать? Однако не всё так просто! Посмотрите на два следующих рисунка.
На рис. 1 изображены две частотные характеристики. (На этом рисунке по вертикали
отложено реальное выходное напряжение исследуемого устройства в вольтах). Как видим,
эти две АЧХ не очень-то похожи.
На рис. 2 по вертикали отложены не вольты, а децибелы. Сразу стало видно, что эти
характеристики идентичны, только одна находится чуть выше, а другая - ниже. На самом
деле все четыре характеристики принадлежат одному и тому же регулятору тембра,
просто характеристики 1 и 3 снимались при подаче на его вход сигнала в 1 вольт, а 2 и 4 -
100 милливольт. Очевидно, что сравнение характеристик устройств по рис 2. более
удобно.
Характеристики "в децибелах" не зависят от реальных физических величин сигналов,
применяемых в процессе измерений. Это - одна из главных причин того, почему
логарифмический способ отображения АЧХ получил наибольшее распространение. Хотя
на самом деле, помимо удобства чтения графиков, существует и другая, гораздо более
существенная и глубокая причина: по закону Вебера-Фихнера между воспринимаемым
ощущением и вызывающим его внешним воздействием имеется логарифмическая
зависимость, т.е. чтобы ощущение изменилось "на" какую-то величину, вызвавшее его
воздействие должно измениться "в" раз.
Пояснить это можно на следующем примере: от 20 до 40 Герц - одна октава, и от 10000 до
20000 Герц - тоже одна октава. Только в первом случае частота изменилась на 20Гц, во
втором - на 10000Гц, а результат - одинаков: и в том, и в другом случае частота
изменилась "в" два раза и мы слышим повышение высоты звукового тона "на" одну октаву.
Таким образом, отображение данных в логарифмическом масштабе нам просто по-
человечески "ближе".
Ранее в технике связи широкое применение получила единица НЕПЕР, основанная на
натуральных логарифмах и названная в честь их изобретателя Дж. Непера (1550-1617г). 1
непер соответствует изменению уровня сигналов в =2,718 раз (в "е" раз). Интересно, что
непер существует давным-давно - а на практике пользуются децибелом. Но почему
именно децибелом, если уже существуют натуральные логарифмы, а есть ещё двоичные и
т.д.?
Применяемое для вычисления Неперовых логарифмов число "е" - число трансцендентное,
и для расчётов крайне неудобное. Поэтому по свойственной всем нам любви к круглым
числам логарифмы, имеющие в своём основании число 10, и получили более широкое
распространение. На десятичных логарифмах основан бел - единица, названная в честь
изобретателя телефона А.Г. Бела. Однако, при ближайшем рассмотрении, он оказался
"слишком крупным", а вот одна десятая его - "децибел" - оказался в самый раз. Почему
же?
Дело в том, что децибел нам ближе по психофизиологическому восприятию. Один децибел
(1 дБ) - это величина, максимально близкая к субъективному порогу восприятия - порогу
различения громкости двух сигналов нашим ухом, и именно поэтому децибел занял
ведущее место в звукотехнике. Так как децибел - величина относительная, то с его
помощью можно измерять все, что
угодно - хоть музыкальные интервалы. Действительно, в одной октаве содержится шесть
нотных интервалов, а изменению напряжений в два раза (как бы "на октаву") соответствует
изменение уровня на 6 дБ, т.е. музыкальный звуковысотный интервал в один тон
соответствует одному децибелу. Причём значения совпадают с точностью 0,0004.
Что это - глубинная, скрытая взаимосвязь? Как знать...
Однако, как уже упоминалось, децибел - величина относительная. А как быть, если надо
измерять реальные физические величины - вольты, ватты и др.? Да очень просто: надо
выбрать опорный (эталонный) уровень, от которого и отталкиваться при измерениях.
Давным-давно (так уж исторически сложилось) за опорный уровень была принята
величина мощности в 1 милливатт на нагрузке 600 Ом. При этом величина напряжения
составляет:
U= 0,001*600 = 0,6 = 0,775 В, где
P=1 мВт - мощность;
R=600 Ом - сопротивление.
До настоящего времени эта величина напряжения является опорной для подавляющего
большинства измерений.
Встречаются и некоторые другие величины. Опорная величина должна указываться после
букв дБ. В английском языке приняты две основные величины: обозначению dBu (русское
дБ) - соответствует опорное напряжение 0,775 В; обозначению dBV (русское дБв) -
соответствует опорное напряжение 1В; встречается и обозначение dBm (дБм), для него
опорный уровень - также 0,775В. Как же пользоваться децибелами, как их вычислять?
Очень просто. Для расчёта существует всего одна формула:
N=20*lg(U2/U1)
где U1 - опорное напряжение; U2 - измеряемое напряжение; N - их соотношение в
децибелах.
При измерении мощности в этой формуле изменяется только одна цифра: первый
множитель заменяется числом 10, а напряжения заменяются мощностью. Если после
расчёта результат "N" получается со знаком "минус" - то это значит, что измеряемая
величина меньше опорной (эталонной). Всё. На этом вся математика, связанная с
понятием "децибел", закончена.
Теперь немного о практическом значении некоторых параметров, выраженных
(измеренных) в децибелах.
• 1dB-минимальное различие в громкости сигналов, уверенно замечаемое большинством
слушателей;
- 3dB-увеличение мощности сигнала (не громкости!) в два раза;
- 6dB-возрастание напряжения в два раза;
- 10dB-увеличение мощности сигнала в 10 раз, а громкости звука - в два (!) раза;
- 20dB-возрастание напряжения в 10 раз, мощности - в 100, громкости - в четыре.
- Если о каком-то устройстве известно, что его коэффициент передачи равен 0dB, то это
значит, что выходной сигнал в точности равен входному. И ничего более!
Некоторые наиболее распространённые уровни электрических сигналов:
- Стандартный "нулевой" уровень 0dB=0,775V;
- часто встречающийся уровень +4dB=1,23V;
- уровень, используемый в профессиональной аппаратуре +6dB=1,55V;
- уровень, используемый в бытовой аппаратуре -10dB=0,25V (250 милливольт)
Измерение уровней в звукотехнике
Казалось бы, что здесь сложного - измерить напряжение? Подключи вольтметр - и измеряй
себе на здоровье! Если бы всё было так просто... Так легко бывает, наверно, только у
электриков. В звуке всё гораздо сложнее. Реальные звуковые сигналы похожи на всё что
угодно, кроме известной всем синусоиды. При измерении уровней звуковых сигналов
результат будет зависеть как от характера анализируемой фонограммы, так и от типа
применяемого вольтметра. "Секрет" здесь заключается в том, что звуковой сигнал имеет
ярко выраженный импульсный характер, со значительным пик-фактором. (Пик-фактором
называется отношение мгновенной, "пиковой" амплитуды сигнала к его эффективному,
действующему значению).
Пик-фактор очень сильно отличается у различных звуковых источников. Для нормально
сведённой фонограммы поп-музыки (не "пережатой") он составляет величину порядка 12
дБ, для речи 18-20 дБ, а уж для необработанной фонограммы, да ещё отдельных треков, а
если там записаны ударные... Даже подумать страшно!
Соответственно и разные типы вольтметров на одном и том же сигнале будут давать
различные показания.
Существуют три основных типа вольтметров - вольтметр "средних значений", "пиковый"
вольтметр и вольтметр "действующих значений", иначе называемый
"среднеквадратичный" (RMS).
- Вольтметр средних значений (VU-meter, или "волюметр") исторически появился самым
первым, и является самым простым по устройству - показывающий прибор просто включён
в диагональ диодного моста. Динамические характеристики измерителя полностью
определяются инерционными параметрами стрелочного индикатора, а все механические
измерители имеют весьма значительный разброс по этим параметрам, соответственно и
показывает он по преимуществу "цену на дрова на северном полюсе во время засухи".
Однако - благодаря его длительному применению - звукорежиссёры накопили богатый
опыт работы, позволяющий (при соответствующей практике) правильно оценивать
показания измерителя и вносить необходимые поправки "на слух", с учётом характера
звукового материала. Только этим - и ничем иным - и объясняется такая феноменальная
"живучесть" этого типа измерителей.
- Вольтметр действующих значений (среднеквадратичный) показывает величину
напряжения, пропорциональную реальной долговременной мощности сигнала, его
"тепловой эквивалент" И в самом деле, лучшие RMS-вольтметры построены именно с
использованием термопреобразователей - исследуемое напряжение нагревает
термоэлемент, по температуре которого и судят о величине напряжения.
Однако, как вы понимаете, нагрев термоэлемента - дело долгое, измеритель получается
излишне инерционным, и применять его для оценки звуковых сигналов - занятие
неблагодарное. Другое дело - измерение напряжения шумов.
Запомните! Измерять уровень шумов аппаратуры можно только среднеквадратичным
вольтметром! И никаким иным! При использовании любых других - ошибки в результатах
из-за стохастического характера шумов абсолютно непредсказуемы!
- Пиковый вольтметр в подавляющем большинстве случаев как раз и служит измерителем
уровней звуковых сигналов в профессиональной аппаратуре. Однако он "в чистом виде"
малопригоден для работы, так как, реагируя даже на самые короткие пики сигнала, будет
давать постоянно завышенные показания, а фонограмма при этом будет тихой. Как же
быть? Выход был найден в некотором (намеренном) "ухудшении" параметров измерителя -
таким образом, чтобы отдельные, "очень уж короткие" пики сигналов он как бы "перестал
видеть". Для этого в схему измерителя были введены специальные интегрирующие
зарядно-разрядные цепочки, определяющие динамические характеристики прибора. Такие
измерители получили название "квазипиковые", и вот они-то на самом деле и являются
теми измерителями, с которыми мы имеем дело в повседневной практике.
Запомните! ВСЕ измерители, на которых написано "Peak" - на самом деле являются
квазипиковыми! Единственные чисто пиковые измерители - это индикаторы "Over" на
некоторых цифровых рекордерах.
Самые первые квазипиковые измерители имели время интеграции 60 миллисекунд, что
примерно соответствует инерционности человеческого слуха. Время интеграции - это
величина, определяющая быстродействие измерителя - или, иначе говоря, - длительность
тех коротких пиков сигнала, на которые измеритель ещё реагирует. На более короткие
сигналы измеритель, конечно, тоже реагирует, но плохо, слабо. Постепенно, с ростом
технических требований к качеству записей, ужесточались и требования к измерителям
уровней. Требовалось всё большее отношение сигнал/шум, постоянно возрастал уровень
записи (намагниченность ленты), и всё меньшим становился запас по перегрузке. (А
"цифра", например, не терпит вообще никаких перегрузок, даже малейших)
Чтобы более-менее надёжно контролировать максимальные уровни сигналов, стали
увеличивать быстродействие измерителей. Сначала время интеграции было уменьшено
до 10 миллисекунд, а затем - и вовсе до 5 миллисекунд. Считается, что искажения
перегрузки с длительностью менее 5 мс ухо не замечает. Смотря какие искажения!
Цифровые - ещё как замечает...
Но... За всё приходится платить. В данном случае за увеличение быстродействия
измерителей пришлось расплачиваться значительным увеличением разрыва между
субъективно воспринимаемой громкостью звучания и показаниями индикаторов. Хотя в
случае современной поп-музыки, до предела "сжатой", закомпрессированной, этот разрыв
не очень уж и велик.
Итак - 60-мс измерители удовлетворительно соответствуют субъективному восприятию
громкости, но плохо показывают пики сигналов. 5-мс измерители хорошо индицируют пики,
но их показания плохо коррелируют с громкостью звука.
Как быть? Да очень просто. Решите - что вам, собственно, нужно контролировать? Если вы
радиоинженер и обслуживаете передатчик или другую линию связи, то для вас главное -
не допустить перегрузки. Смело выбирайте самый быстрый индикатор - и спокойно
работайте. Но если вы звукорежиссер, то перед вами встанет проблема "плотности"
звучания и других художественных особенностей. Тупик? Пока ещё нет. Есть два выхода.
Первый - это применение "двойных" индикаторов, которые показывают оба значения - и
пиковое, и действующее. Они уже существуют и довольно широко применяются, хотя в их
конструкции наличествует оттенок лёгкого и нестрашного вранья: индикатор "Peak"
реально квазипиковый (см. выше), а та часть индикатора, которая на самом деле
показывает истинный RMS-уровень (есть и такие, только цена "кусается"), стыдливо, по
инерции, именуется "VU".
Но возможен и второй выход. Как знать, может быть, со временем, когда звукорежиссёры
накопят достаточный опыт, снова повторится история с волюметром, только на этот раз "с
точностью до наоборот"? А как вы думаете?..

N,dB A N,dB A
0.1 1.012 -0.1 0.989
0.2 1.023 -0.2 0.977
0.3 1.035 -0.3 0.966
0.4 1.047 -0.4 0.955
0.5 1.059 -0.5 0.944
0.6 1.072 -0.6 0.933
0.7 1.084 -0.7 0.923
0.8 1.096 -0.8 0.912
0.9 1.109 -0.9 0.902
1.0 1.122 -1.0 0.892
2 1.259 -2 0.794
3 1.412 -3 0.707
4 1.585 -4 0.630
5 1.778 -5 0.562
6 1.996 -6 0.501
7 2.239 -7 0.447
8 2.512 -8 0.398
9 2.818 -9 0.355
10 3.162 -10 0.316
11 3.548 -11 0.282
12 3.981 -12 0.251
13 4.467 -13 0.224
14 5.012 -14 0.200
15 5.623 -15 0.178
16 6.310 -16 0.158
17 7.080 -17 0.141
18 7.943 -18 0.126
19 8.913 -19 0.112

20 10.0 -20 0.100

30 31.623 -30 0.031


40 100.0 -40 0.010
ПРИЛОЖЕНИЕ. ТАБЛИЦА ПЕРЕВОДА ДЕЦИБЕЛ В ОТНОСИТЕЛЬНЫЕ ЕДИНИЦЫ
Как пользоваться таблицей?
Cложите из составляющих в графе dB необходимую вам величину, а коэффиеценты из
графы А - перемножьте, это и будет искомый результат.
Что мы измеряем? Часть 2. Шумы и искажения
Михаил Чернецкий

Наверное, не будет большим преувеличением сказать, что главные параметры, на


которые мы обращаем внимание при выборе аппаратуры - это уровни шумов и искажений.
Почему? Возможно потому, что практически любые другие - динамические, частотные и
др., при наличии желания и некоторой
квалификации можно без особых
затруднений изменить в любую нужную
вам сторону, а эти практически
неизменяемы. То есть изменить-то можно,
но это потребует полной переделки всего
изделия, что в реальности маловероятно.
Таким образом, эти два параметра -
уровень шума и искажения - "объективная
реальность, данная нам в ощущениях", и с
ними - жить и работать. Как же их
измерить, и - что ещё важнее - правильно
истолковать результат?
Измерение шумов
Как я ранее уже писал (пилотный номер "Звукорежиссера"), для правильного измерения
шумов необходим прежде всего квадратичный вольтметр. Обычные вольтметры, тестеры
и т.д., в том числе и цифровые, для этих целей непригодны, потому, что все они измеряют
другие значения - пиковое, средневыпрямленное и т.д. При этом часто на шкале может
быть даже написано "RMS", но это не соответствует истине, т.к. шкала только
проградуирована в этих значениях, а реально измеряется то, что написано выше. Такими
приборами можно точно измерять только синусоидальный сигнал: для "синуса" между
различными его значениями (пиковым, эффективным) существуют строго определённые
соотношения, и в конструкции приборов это уже учтено. Благодаря этому, при измерении
синусоидального сигнала результаты получаются достоверными, но при измерении шумов
их показания, увы, весьма недостоверны...
Широкополосный шум в сигнале
Так что, если вы хотите получить при измерении шума достоверные результаты, то прежде
всего убедитесь, что применяемый Вами для этих целей вольтметр истинно квадратичный.
Итак, вы взяли подходящий прибор, подключили его к выходу исследуемого вами
устройства и можно уже измерять? Можно, но лучше не нужно. Не хватает осциллографа.
Казалось бы - зачем? Собрались шум померить, а не посмотреть? Но шумы в реальной
студийной аппаратуре весьма малы, и составляют (в худших случаях!) доли милливольт. В
силу их малости, даже самое незначительное присутствие других сигналов может
сильнейшим образом повлиять на результаты измерений, исказив их до полной
неузнаваемости. Поэтому, чтобы точно знать, что мы измеряем уровень именно шумов, а
не чего-то ещё неизвестного, желательно, даже необходимо, дополнительно осуществлять
визуальный контроль исследуемого сигнала. Кстати, это полезно всегда, чтобы знать, что
именно измеряется, а то - такого можно "намерить"! В сигнале теоретически всегда может
присутствовать "много чего", например, фон, ультразвуковые наводки от цифровых цепей
и т.д. И чтобы не ошибиться, лучше этот сигнал ещё и посмотреть.
Подключать осциллограф нужно не к выходу исследуемого прибора, а к специальному
выходу вольтметра. Практически в любом профессиональном вольтметре есть
специальное гнездо - "Выход". На него подаётся уже усиленный внутри вольтметра сигнал,
и, подавая на осциллограф сигнал именно оттуда, вы "убиваете двух зайцев". Так как
уровень напряжения шумов очень мал, то, подав его на осциллограф напрямую, можно,
скорее всего, вообще ничего не увидеть, т.к. чувствительность большинства
осциллографов недостаточна для анализа слабых сигналов. Кроме того, если вы
подключите осциллограф к входу вольтметра, то сам осциллограф, вполне вероятно,
сможет навести помехи на входные цепи вольтметра, и тогда - прощай объективность
измерений!
Теперь, когда к выходу исследуемого устройства подключен вольтметр, а к его выходу -
осциллограф, мы готовы к проведению измерений? Не совсем. Дело в том, что
современные устройства обработки звуковых сигналов собраны, как правило, на весьма
скоростных, высокочастотных элементах - транзисторах и микросхемах. Спектр их шумов
может простираться очень далеко за пределы звукового диапазона, а так как вольтметр
измеряет "всё", то его показания вследствие этого могут существенно отличаться от
воспринимаемых "на слух" в звуковом диапазоне величин. Как быть?
Очень просто - включить в цепь измерительный фильтр, ограничивающий полосу частот,
подаваемых на вольтметр, сигналами звукового диапазона, от 20 Гц до 20 кГц. В
некоторых моделях лабораторных вольтметров такие фильтры уже встроены в
конструкцию прибора, а если у вас такого фильтра нет - не беда, его несложно сделать и
самому.
Запомните - фильтр должен ограничивать только полосу частот, подаваемых на детектор
(выпрямитель) вольтметра! И ничего более!
Теперь, имея всё необходимое: вольтметр, фильтр звукового диапазона, осциллограф -
можно приступать к измерениям.
Рассмотрим для начала параметр, вызывающий наибольшие затруднения - входной шум
микрофонного усилителя. Если у вас в описании пульта указано, что эта величина
составляет, к примеру, -130 дБ, то означает ли это, что отношение сигнал/шум будет
составлять такую же точно величину? Конечно, нет.
В профессиональной аппаратуре вообще не очень часто указывается соотношение
сигнал/шум, т.к. эта величина неконкретна, и зависит от условий реальной работы. Это
можно пояснить следующим примером: представьте, что некоторое устройство имеет
выходной шум в 1 милливольт. Каково будет отношение сигнал/шум? Это будет зависеть
от величины полезного сигнала. Если сигнал будет 1 вольт, то отношение сигнал/шум = 60
дБ, а если 10 вольт, то отношение сигнал/шум составит 80дБ.
Так и в случае с пультом: можно снимать выходной сигнал величиной 10 вольт, а можно
250 милливольт. Естественно, что отношение сигнал/шум будет в этих случаях различным.
Вот как раз, чтобы избежать возможных разночтений, и указывается не отношение
сигнал/шум, а величина входных шумов, только выраженная не в вольтах, а в децибелах.
Посмотрите на спецификацию своего пульта. Там вы увидите множество значений уровней
шумов для многих случаев: когда мастер-фейдер закрыт или открыт, одна ячейка открыта
или несколько, и т.д. и т.п. Всё это именно абсолютные величины, а не отношения
сигнал/шум!
Однако вернёмся к микрофонному входу. В описании указано: "EIN= -130 dB". Как это
понимать и измерять? "EIN" - это Equivalent Input Noise ("эквивалентный входной шум"), то
есть уровень шума устройства, приведённый к его входу. Для измерения достаточно
узнать коэффициент усиления и величину шумов на выходе устройства, а затем - вторую
величину разделить на первую, и результат - выразить в децибелах.
Пример. Для измерения EIN необходимо сделать следующее: подключить (обязательно!)
на вход вместо микрофона его эквивалент, постоянный резистор номиналом 150 или 200
Ом (его величина обычно указывается в документации), и установить регулятор GAIN на
максимум. Измерить выходное напряжение шумов. Затем отключить эквивалент
микрофона и подать на вход небольшой сигнал (к примеру, 1 мВ). Измерить величину
выходного сигнала. Разделив её на величину входного, получим коэффициент усиления
устройства. Допустим: вход - 1 мВ, выход - 1 В, 1 В/1 мВ=1000. То есть в 1000 раз или 60
дБ.
Если при измерении шума ранее было получено, к примеру, 0,25 мВ (-70 дБ), то для
нашего устройства EIN = (-70 дБ) + (60 дБ)= -130 дБ.
Казалось бы, для чего такая громоздкая и малопонятная на первый взгляд величина? Вы
получили реальную величину шумов на входе вашего устройства. И теперь, при
необходимости, очень легко узнать величину отношения сигнал/шум для любого сигнала.
Для этого достаточно из полученной величины EIN вычесть уровень подаваемого на вход
сигнала - и готово!
Пример. Допустим, вы подаёте на вход сигнал величиной 0,775 мВ (-60 дБ). Сигнал/шум =
EIN(дБ)-Uвх (дБ)=(-130 дБ)-(-60 дБ)=-70 дБ.
Всё! Для данного входного сигнала, с этим предусилителем, отношения сигнал/шум
большего, чем -70 дБ, не получить!
Здесь необходимо сделать одно замечание. Дело в том, что не шумящих источников не
бывает! Шумит всё, в том числе и резисторы. Тепловые шумы резистора номиналом 150
Ом составляют величину 0,22 мкВ (или -131 дБ). Плюс собственные шумы входного
каскада... Поэтому, если у вас вдруг получится, к примеру, -135 дБ, то проверьте приборы
и всё, что можно. Аналогично, некоторые, не совсем добросовестные фирмы указывают
EIN=-132 дБ.
Не бывает! (Если, конечно, после букв "дБ" не стоит буква "А").
Так мы постепенно подошли к применению так называемого "псофометрического фильтра"
(мало было осциллографа и одного фильтра!). Что же это такое и для чего нужно?
Как известно, чувствительность слуха к разным частотам неодинакова, и поэтому два
шума с одинаковой "приборной" величиной, измеренной в широкой полосе, могут "на слух"
восприниматься совершенно по-разному. Чтобы учесть особенности именно слухового
восприятия, в цепь измерения, кроме уже описанных устройств, дополнительно
включается специальный фильтр, чья АЧХ соответствует чувствительности нашего уха к
слабым сигналам. В последнее время этот фильтр часто называют "взвешивающим".
Существует множество таких фильтров с
АЧХ, соответствующими свойствам слуха
при различных громкостях ,- A, B, C, D. Но
реально для измерения шума применяется
только один - А. Если измерения
проводились с использованием этого
фильтра, то в результате пишется не
просто "дБ", а "дБА", т.е. наличие
обозначения "дБА" означает, что в
результаты измерений внесена поправка,
учитывающая особенности слухового
восприятия. Эти данные более точно
соответствуют тому, что мы слышим.
Различие между просто "дБ" и "дБА" зависит от спектра шума, и в общем случае
непредсказуемо, однако "дБА" чаще всего меньше. Например, если у вас шум, измеренный
в широкой полосе будет -80 дБ, то при измерении с фильтром А это значение может быть
и -85 дБА…
Измерение шумов остальных звукотехнических устройств принципиальных отличий от
описанного выше не имеет, и, как правило, особых затруднений не вызывает. Да и чаще
всего это гораздо проще - например, для усилителей (и многого другого) вовсе не надо
результаты пересчитывать, "приводить к входу" и т.д.
Только надо не забывать о подключении к входу испытуемого устройства эквивалента
источника сигнала, так как на "висящий в воздухе" вход может навестись всё, что угодно.
Замыкать же вход "на землю" не следует - это и методологически неверно, да и в силу
возможных особенностей разводки "земельных" проводников в конкретном устройстве в
этом случае вполне возможно возрастание уровня шумов, да и фона - тоже (в практике
автора, во всяком случае, такое бывало неоднократно). И не забывайте об обязательном
контроле измеряемых величин визуально, по осциллографу!
Измерение искажений
В аудиоаппаратуре возникает множество искажений различных видов, однако наибольшее
распространение получила оценка одного их вида - гармонических искажений, или
попросту коэффициента гармоник Кг, ранее, а иногда ещё и сейчас, называемого
коэффициентом нелинейных искажений (синоним, пришедший из немецкого, "клир-
фактор").
Нелинейные искажения
Долгие годы этот показатель считался вполне достаточным для оценки качества
аппаратуры, и во многом это верно и сейчас. Конечно, существует много и других
параметров, характеризующих нелинейность систем - таких, например, как
интермодуляционные искажения(IMD), переходные интермодуляционные искажения
(TIMD), а также способов их измерений. Однако все они достаточно сложны в
аппаратурной реализации, и в силу этого не имеют широкого распространения в
повседневной практике. Для измерения этих величин необходим, прежде всего,
высококачественный узкополосный анализатор спектра, с большим динамическим
диапазоном. Плюс несколько (два-три) специальных генераторов, крайне редко
встречающихся. Ещё масса трудоёмких и кропотливых измерений, а потом расчёты...
А чем лучше Кг? Тем, что проще! Хотя, на самом деле, его измерение не имеет очень уж
больших отличий от вышеописанных, но благодаря некоторым, вполне допустимым
упрощениям, стало возможным создать приборы для автоматического измерения Кг, и
вследствие этого процедура измерений доступна практически всем.
Отечественная промышленность выпускала много приборов для этих целей, от совсем
ручных до полных автоматов с цифровым измерением (не ищите, вымерли как мамонты).
Вспомним об С6-11, одном из самых доступных. Это, конечно, не совсем полный автомат,
но вполне достаточен для практических целей.
Что это вообще такое Кг? В силу неидеальности элементов тракта, в выходном сигнале
любого устройства появляются какие-то элементы, которые отсутствовали во входном.
Именно эти лишние составляющие и являются собственно искажениями. Таким образом,
Кг - это отношение суммы всех гармоник сигнала к уровню его основного тона.
Часто приходится слышать про некие фазовые и частотные искажения. Всё это
околонаучные спекуляции. Искажениями, строго говоря, может быть названо только то, что
в дальнейшем не может быть исправлено.
Изменения в сигнале, вызванные неравномерностью АЧХ устройства (или его ФЧХ), могут
быть устранены с помощью эквалайзера или фазовращателя, а вот появившиеся новые
составляющие - не убрать ничем. Если перегруженный до уровня ограничения усилитель
обрезал верхушки синусоид входного сигнала - то попрощайтесь с ними навсегда! Что
упало - то пропало...
При определении коэффициента гармоник учитываются только те новые составляющие в
выходном сигнале, частота которых в целое число раз выше частоты входного сигнала.
Эти составляющие являются гармониками входного сигнала (для 1 кГц: 2 кГц - это вторая
гармоника, 3 кГц - третья, 4 кГц - четвёртая, и так далее...), поэтому и интегрированнный
показатель их уровней и называется именно так - коэффициент гармоник. Понятно, что при
подаче на вход широкополосного сигнала спектр возникающих гармоник будет также очень
широк, и будет невозможно определить, где - "вершки", а где - "корешки". Как быть? Вы
скажете: надо подать на вход всего один сигнал, тогда и разобраться будет проще. Для
этих целей подойдёт любой звуковой генератор, у которого Кг заведомо намного меньше,
чем у исследуемого устройства. Наверное Г3-118 лучший отечественный генератор для
этих целей, его собственный Кг=0,002%, что вполне достаточно для большинства
практических применений.
Сама процедура измерений очень проста - достаточно на вход испытуемого устройства
подать сигнал от генератора, а на выход подключить ИНИ (измеритель нелинейных
искажений) и готово, ИНИ сам покажет Кг. Но..., опять забыли осциллограф! На всех, без
исключения, ИНИ обязательно есть гнездо "Выход", чтобы видеть, что измеряем. Дело в
том, что в силу упомянутых ранее упрощений ИНИ измеряет не только гармоники, но все,
что есть в выходном сигнале, кроме, естественно, сигнала основной частоты. Таким
образом, на результатах измерений могут сказаться любые помехи, имеющиеся в сигнале:
фон, шум, и т.д.
В описаниях почти везде пишется "THD+Noise", это и есть результат измерения обычным
ИНИ, который реально измеряет отношение амплитуды сигнала основной частоты ко
всему остальному. Связано это с самим принципом его работы. ИНИ с помощью
имеющегося в нём фильтра полностью подавляет сигнал основной частоты, и измеряет
всё то, что осталось после фильтрации. На его выходное гнездо как раз и подаётся всё то,
что осталось, то есть - продукты искажений.
Благодаря именно такому построению ИНИ, мы и имеем гнездо "Выход", подключив к
которому осциллограф, можно посмотреть, а что наш "испытуемый" внёс в сигнал своего?
Какую именно "гадость" добавил?
Надо же знать, что именно измерил ИНИ. А что, если вдруг возник фон, и ИНИ именно его
принял за гармоники? Или шумы? Ведь слуховой контроль при этих измерениях, как
правило, отсутствует. Вот осциллограф и показывает, что именно измеряли. Кстати,
шумов, как правило, можно не бояться. Ведь никто, наверное, не купит усилитель с
отношением сигнал/шум 80 дБ? А уровень помех в -80 дБ соответствует Кг=0,01%.
Почему? Да потому, что 1% - это одна сотая часть, или -40 дБ. 0,1% - это -60 дБ, 0,01% -
это -80 дБ. Кстати, иногда Кг именно так и указывается, в децибелах. Не смущайтесь,
встретив такую запись, - это то же самое, только иначе записанное.
А что ещё полезного можно узнать, визуально изучая выходной сигнал ИНИ? Оказывается,
многое. Не секрет, что ламповая и транзисторно-микросхемная аппаратура звучат во
многом по-разному при прочих равных условиях. Это в значительной степени объясняется
именно различным спектром гармоник.
В то время, как в лампах создаваемые ими гармоники имеют сравнительно большую
величину, но узкий спектр - как правило, 2-я и 3-я гармоники, а остальные пренебрежимо
малы. в транзисторах наоборот: спектр их гармоник может быть очень широк - до 20-й и
даже более. И хотя все они имеют малую величину, - слышимость их гораздо больше.
Суммарный же Кг вполне может и там и там быть одинаковтак как сумма "немногих, но
больших" в первом случае, будет равна сумме "многих, но малых" - во втором. Выходной
сигнал ИНИ, поданный на осциллограф, как раз и поможет оценить спектр гармоник.
Если на экране картинка, более-менее похожа на синусоиду, то, значит, спектр гармоник
достаточно узкий, и, скорее всего, ваш аппарат будет звучать достаточно чисто. Если же
картинка имеет множество изломов, острых углов, и больше напоминает старую, ржавую
пилу, то спектр гармоник очень широк, и, скорее всего, хорошего звука ждать не
приходится.
Кстати, часто приходится сталкиваться с неизвестно откуда взявшимся мнением, якобы
измерение Кг на высоких частотах не имеет смысла, т.к. гармоники, мол, всё равно за
пределами звукового диапазона, и поэтому на качество звука не влияют.
Глубочайшее заблуждение! Да, гармоники - за диапазоном слышимости. Да, на качество
звука синусоидального сигнала не влияют. Но слушают ведь не синус!
А раз не синус - приходится считаться с объективной реальностью того факта, что сигнал
широкополосный! А, значит, и спектр гармоник реального сигнала - тоже не линейчатый, а
широкополосный. А поэтому там, где гармоники синуса чувствовали себя привольно,
далеко отстояли друг от друга и не взаимодействовали, высшие гармоники настоящего
звукового сигнала будут влиять друг на друга. Это приводит к омерзительнейшему
результату - появлению комбинационных частот, биений. А уж как они портят звук -
никаким гармоникам и не сравниться! Поэтому, если хотите полностью оценить
исследуемый прибор, то необходимо измерить Кг во всём звуковом диапазоне, или хотя
бы в нескольких точках - в его середине и на краях диапазона. Подробное описание
методик измерения "всего и вся" - к сожалению, выходит далеко за пределы этой статьи.
В большинстве моделей ИНИ имеются различные дополнительные устройства,
помогающие в работе. В упомянутом ранее С6-11, к примеру, есть возможность по
желанию пользователя производить измерения как в вольтах и процентах, так и в
децибелах. Есть также очень полезная функция - встроенный обрезной фильтр,
подавляющий все частоты, лежащие ниже 1 кГц. Зачем? Если придётся измерять Кг
мощных усилителей, то вполне возможна такая ситуация: с увеличением выходной
мощности усилителя будет расти и уровень фона.
Дело в том, что во многих моделях усилителей ёмкость фильтрующих конденсаторов
невелика, и при росте мощности питание "проседает", увеличиваются пульсации
питающего напряжения, что сопровождается ростом сетевого фона. Конечно, это
происходит только при работе усилителя на нагрузку. Не забудьте её подключить!
Измерять параметры усилителей мощности без нагрузки, на холостом ходу,
бессмысленно. Все усилители покажут такие Кг, что хоть на Золотую медаль выдвигай!
Конечно, это не относится к измерению шумов, там наличие или отсутствие нагрузки
принципиальной роли не играет. Включив этот фильтр, можно убрать фон из измерений и
получить более достоверные результаты.
К сожалению, ограниченный объём статьи не позволяет охватить подробно весь круг
вопросов измерений в звукотехнической практике. Если у вас возникнут какие либо
вопросы - пишите в редакцию. Ваши письма помогут полнее узнать круг необходимых тем.

К омпьютеры находят все более широкое применение во всех областях человеческой

деятельности. В настоящее время сдерживающим фактором к увеличению количества компьютеров


в мире является неприятие их неподготовленным пользователем, его страх перед компьютерами. В
определенной степени это неприятие связано с традиционными для вычислительной техники
способами ввода информации, в первую очередь, ввода с клавиатуры.

В настоящее время во всем мире ведутся работы по созданию более естественных для человека
средств общения с компьютером, среди которых первое место занимает речевой ввод информации в
компьютер. Проблема речевого ввода информации осложняется рядом факторов: различием языков,
спецификой произношения, шумами, акцентами, ударениями и т.п. Данная работа посвящена
разработке приемов и алгоритмов распознавания речи на русском языке.

В любом языке существует некий набор звуков, который участвует при формировании звукового
облика слов. Как правило, звук вне речи не имеет значения, он приобретает его лишь как составная
часть слова, помогая отличить одно слово от другого. Элементы этого набора звуков называются
фонемами.

Процесс произнесения звуков речи имеет несколько основных стадий.

Легкими создается поток воздуха, который проходя через гортань, ротовую и носовую полость
получает полезную информацию, которая распространяется в пространстве в виде звуковых волн.
Звуки могут формироваться при участии истинных голосовых связок и без их участия и от этого
коренным образом меняется их образ. Звуковые колебания воспринимаются микрофоном, и как
результат преобразования имеется аналоговый сигнал, что дает возможность применить
аналоговые методы анализа сигнала. Как правило, на этой стадии могут применяться системы
фильтров. Однако, если рассматривать распознавание речи в приложении к компьютерным
технологиям на уровне программного обеспечения, то необходимо провести следующий этап
преобразования информационного образа речи - из аналогового сигнала в непрерывно-дискретный.

Преобразование реализуемо с применением различных видов аналого-цифровых


преобразователей. Главным требованием к ним является достаточность качественных
характеристик преобразования. Такими качественными характеристиками являются частота
дискретизации и разрядность представления каждой дискреты.

Частота дискретизации определяет ту предельную частоту аналогового сигнала, которая может быть
информативна в дискретном представлении. Из исследований в технической фонетике, в частности,
в телефонии известно, что приемлемый диапазон частот, при котором человек может распознавать
речь и определить говорящего является 4. Именно это значение легло в основу частотного
уплотнения каналов в телефонии и определении пропускной способности цифровых каналов связи.

Анализ аналоговых характеристик речи показывает, что реально частота дискретизации должна
быть не менее 8 - 12 Khz. При дальнейшем понижении частоты начинает теряться информация,
которая активно используется при распознавании (особенно это важно при распознавании звуков,
содержащих шум). Нет смысла поднимать частоту дискретизации выше 25 Khz, так как при
незначительном увеличении полезной информации, начинает увеличиваться количество
бесполезной информации - шумов.

По диапазону количества разрядов, передающих дискретный сигнал, достаточно 8 разрядов, но при


условии хорошего качества сигналов и его высокого уровня. Человек способен воспринимать речь в
более худших условиях, чем описанные выше, например, телефонные разговоры. Однако, при
восприятии речи человек использует механизмы ассоциативного анализа, не просто разбирая и
сравнивая услышанные звуки, но собирая фонемы в словесные образы, подбирая наиболее
подходящие не только по звуковому подобию, но и по интонации, эмоциональной окраске, контексту
слова, фразы, предложения и всего текста. Поэтому, человек способен распознавать речь даже при
большой нехватке несущей информации. Например: человек намного требовательней к качеству
звука при прослушивании речи на чужом языке, при слабом его знании, чем при восприятии родной
речи.

Обратимся к полученной после дискретизации осциллограмме речи. В общем случае информация в


виде образа речи может быть представлена последовательностью участков. На одних
прослеживаются некие периодические процессы различной амплитуды (см. рисунок), другие
представляют из себя различные виды шумов, третьи - участки с сигналом, близким к нулевому
значению, четвертые могут быть описаны как скачки.

Над полученным образом речи можно производить работу по распознаванию. Рассмотрим иерархию
построения системы распознавания речи. В качестве простого примера рассмотрим схему
распознавания, когда сигнал делится на два слова (для уверенного деления в простейших случаях
достаточно полуторносекундной задержки между словами при произношении). Слова, в свою
очередь, распознаются как единое целое. При этом используются различные методы сравнения с
эталонами, вид которых зависит от методики распознавания: при использовании методов
динамического программирования эталоны представляются в том же виде, что и поступающий
сигнал (с учетом деления на слова), при применении методов разложения в ряды, эталоны
представляют из себя наборы параметров этого ряда.

Результатом работы этой схемы является слово из списка присутствующих в множестве эталонов
или сообщение об ошибке, если полученный образ не соответствует в достаточной мере ни одному
эталону.

К недостаткам такой системы можно отнести: необходимость создания совокупности эталонов


фактически для каждого человека (так называемый процесс обучения системы распознавания),
невозможность создания автоматической системы коррекции эталонов, пропорциональность
времени, затрачиваемого на распознание слова, количеству эталонов, и необходимость конечного
выбора из нескольких возможных вариантов.
Из-за перечисленных недостатков описанная схема может применяться только при необходимости
распознавания ограниченного списка слов одного или нескольких операторов. Например, в
различных системах управления с небольшим количеством команд.

Улучшить качество работы рассмотренной выше одноуровневой системы распознавания возможно


за счет увеличения количества уровней. Пусть рассмотренная нами система распознавания слова из
совокупностей шаблонов занимает средний уровень нашей иерархии.

Добавим к распознаванию среднего уровня еще один, верхний, уровень. На этом уровне
предполагаемое слово анализируется с точки зрения фразы в целом. В результате, за счет
синтаксических и семантических свойств языка приобретается дополнительная информация,
повышающая качество распознавания.

Однако, идея увеличения количества информации о слове необязательно должна быть связана с
верхним уровнем. Рассмотрим более нижний уровень иерархии, где производится фонемный разбор
речевого образа, то есть деления выделенных слов на фонемы с последующим их распознаванием.
Это позволило производительно использовать распознавание по иерархической схеме: из списка
фонем, распознанных с определенной точностью, составляется шаблон, который передается на
следующий уровень, где по нему происходит подбор наиболее подходящего слова, передача
информации о выборе на более высокий уровень, для дальнейшего анализа, и на нижний, для
подстройки системы на конкретного пользователя. Достоинством это схемы является высокая
адаптивность, дающая возможность динамической самоподстройки системы на оператора, и
многоуровневая система проверок, повышающая точность работы.

Сравнивая распознавание речевого потока методом распознавания целых слов и распознавание


фонем, можно сделать вывод: при небольшом количестве слов, используемых оператором, более
высокую надежность и скорость можно ожидать от распознавания целых слов, Но при увеличении
словаря скорость резко падает. Предположительно, размер словаря системы распознавания уже в
сотню слов делает переход на уровень более низкий, чем распознавание слов в целом актуальным.

Звуки, участвующие в формировании речи, имеют две основные классификации: по


артикуляционным признакам и по акустическим признакам.

Классификация звуков по артикуляционным признакам является крайне важной при использовании


методов генерации и распознавания речи с помощью моделирования носоглотки, но для решения
задач деления на фонемы более интересно рассмотрение акустических различий звуков. По
акустическим признакам звуки подразделяются:

Тональные звуки - образуются голосом при полном отсутствии шумов, что обеспечивает хорошую
слышимость звука:

гласные: а, э, и, о, у, ы.

Сонарные (звучные) - чье качество определяется характером звучания голоса, который играет
главную роль в их образовании, а шум участвует в минимальной степени:

согласные: м, м’, н, н’, л, л’, р, р’, j.

Шумные - их качество определяется характером шума - акустического эффекта от трения воздуха


при сближенных или взрыве при сомкнутых органах речи:
• звонкие шумные длительные: в, в’, з, з’, ж;
• звонкие шумные мгновенные: б, б’, д, д’, г, г’;
• глухие шумные длительные: ф, ф’, с, с’, ш, х, х’;
• глухие шумные мгновенные: п, п’, т, т’, к, к’.

По производимыми звуками акустическому впечатлению выделяют следующие группы звуков:

• свистящие: с, с’, з, з’, ц;


• шипящие: ш, ж, ч, щ;
• твердые: п, в, ш, ж, ц и др.;
• мягкие: п’, в’, ч, щ и др.

Для дальнейшего анализа проведем информационные образы звуков различных групп (см. рисунки).

Разница образов и звуков различных видов велика, что значительно облегчила бы задачу
разделения звуков, если бы не присутствие нескольких затрудняющих работу факторов.

Во-первых, переход между различными звуками, как правило, осуществляется крайне плавно даже
между звуками различных групп (исключение составляют некоторые взрывные согласные). Если же
говорить о звуках одной группы, то становится проблематичным разделять переходные процессы от
произнесения того или иного звука, например, в последовательности, воспринимаемой человеком
как “иау”, звук “а” фактически полностью теряет свой обычный образ в переходе от “и” к “у”. Под
влиянием “и” и “у” несколько уменьшилась частота в “а”, да и сама форма звука несколько
трансформировалась.

Во-вторых, затруднительно назвать какие-либо постоянные критерии для успешного деления на


звуки в связи со сложностью процесса их образования.

Вернемся к отображениям звуков и проанализируем общий вид гласных и сонарных звуков. Легко
выявить некую общую закономерность, которая обусловлена происхождением звуков - звуки этих
видов отдаленно напоминают реакцию некоторой системы на последовательность равноудаленных
импульсов. Действительно, импульсами гласных и сонарных звуков являются колебания истинных и
звуковых связок. Окончательный вид звуковые волны приобретают после прохождения через
носоглотку, которая по своей сути является системой фильтров. Необходимо отметить, что
изменения в напряжении истинных голосовых связок и артикуляции происходят значительно
медленнее, чем колебания голосовых связок.

Заметим, что гласные и сонарные звуки состоят из участков затухания импульсов от основных
(необертонных) колебаний истинных голосовых связок. Для упрощения, будем называть эти участки
доменами.

Использование домен при распознавании речи вполне очевидно. По сути, домен (вспомним, что пока
домен рассматривается в приложении только к сонарным и гласным звукам) содержит в себе
информацию, достаточную для распознавания звука. Если взглянуть на образ протяженно
произнесенной гласной (или сонарного звука), то за исключением небольших по длине участков в
начале и конце образа звук состоит из домен с высокой степенью идентичности, даже для различных
людей многие характеристики, а соответственно, и общий вид домен во многом схожи, что придает
особую универсальность методам распознавания при выделении и распознавании фонем через
домены. Еще одним достоинством домен является относительная простота их выделения. По
определению, домен начинается с максимального значения в определенном диапазоне, после
которого идет затухающий по некоторому закону колебательный процесс. Как дополнительное
условие, которое можно использовать при расчленении речи на домены, можно перечислить:

стабильную (в диапазоне) длину домен;

постоянную, с некоторой точностью, величину максимумов, по которой происходило вычленение


домен.

Доопределим понятие домена для остальных групп звуков.

Структура звонких шумных длительных звуков крайне сходно со структурой сонарных и гласных.
Основным различием является наличие шума. Появление шума строго закономерно для каждого
отдельно взятого звонкого шумного длительного звука, так что принцип деления на домены остается
прежним.

Будем рассматривать шумные длительные звуки как один домен. Это позволит легко выделять
корень этих звуков из общего потока и облегчит их анализ.

Анализ образов шумных мгновенных (взрывных) звуков показывает наличие участков по структуре
схожих с определенным для гласных и сонарных звуков понятием домена. Но наряду с
совокупностью общих признаков прослеживается различие: для вышесказанных участков в шумных
мгновенных звуках отсутствует та строгая идентичность домен между собой. Во всех мгновенных
звуках присутствует момент, сильно облегчающих их выделение из речи - перед произнесением
таких звуков наблюдается непродолжительная по меркам восприятия, но весьма значительная, в
масштабах длительностей домен, пауза. Это помогает выделению домен. Поэтому в зависимости от
различных алгоритмов выделения может быть удобно разбивать такого рода звуки на несколько
домен или же воспринимать их целиком, как один.

При разбиении потока речи на домены мы получаем еще один уровень в распознавании. В общей
иерархии он находится еще ниже, чем уровень распознавания домен. Рассмотрим
функционирование такой системы.

Процесс распознавания начинается с поступления системы данных об образе речи. В зависимости


от того как поступает информация в систему, непрерывно поступающий поток или же уже отдельные
пакеты (например, слова), построен алгоритм деления. Если в распоряжении данного уровня
распознавания имеется слово целиком, то работу можно описать следующим образом.

Сначала производится предварительный анализ полученного блока данных, результатом которого


должно являться выделение участков шумов для распознавания глухих шумных длительных звуков и
выделения домена взрывных звуков. Выделенные участки помечаются. Далее производится поиск
максимумов среди нулей первых производных. Определяется список экстремумов в диапазонах.
Далее проводятся проверки на плавное изменение длительности домен и значение экстремумов, что
служит критерием отбора домен.

Полученный список уже готов для передачи на уровень распознавания фонем по информационному
потоку, деленному на домены, однако возможно и желательно введение дополнительных проверок и
формирование вспомогательной информации для упрощения распознавания фонем. На уровне
распознавания фонем происходит конкретизация взрывных и глухих шумных длительных звуков.
Далее производится работа по селекции переходных домен и домен, по которым будет
производиться основная работа по распознаванию фонем.

Обобщенно говоря, уровень деления на домены было бы точнее назвать некоторым подуровнем в
распознавании фонем, так как здесь не происходит преобразование вида информационного. Однако,
по своей сути процесс выделения домен сложен и многопланен, поэтому он может рассматриваться
отдельно, со своими внутренними подсистемами и совокупностью данных.

Некоторые части рассмотренных алгоритмов и способов распознавания удобнее реализовать на


аппаратном уровне. Вполне достаточно системы на основе процессора 486 DX4-100/8Мб ОЗУ. При
использовании аппаратных средств реализации , например, процессора ASP, входящего в комплект
поставки некоторых плат, требования к основному процессору могут быть существенно уменьшены.
По нашему мнению использование домен позволит создавать универсальные системы
распознавания речи, работающие в фоновом режиме.

В последнее время возможности мультимедийного оборудования претерпели значительный

рост, однако этой области почему-то не уделяется достаточно внимания. Рядовой пользователь
страдает от нехватки информации и вынужден учиться лишь на собственном опыте и ошибках. Этой
статьей мы постараемся устранить это досадное недоразумение. Данная статья ориентирована на
рядового пользователя и ставит своей целью помочь ему разобраться в теоретических и
практических основах цифрового звука, выявить возможности и основные приемы его
использования.

Что именно мы знаем о звуковых возможностях компьютера, кроме того, что в нашем домашнем
компьютере установлена звуковая плата и две колонки? К сожалению, вероятно из-за
недостаточности литературы или по каким-либо другим причинам, но пользователь, чаще всего, не
знаком ни с чем, кроме встроенного в Windows микшера аудио входов/выходов и Recorder’а.
Единственное использование звуковой карты, которое находит простой пользователь – это вывод
звука в играх, да прослушивание коллекции аудио. А, ведь, даже самая простая на сегодняшний
день звуковая плата, установленная почти в каждом компьютере, умеет намного больше - она
открывает широчайшие возможности для всех, кто любит и интересуется музыкой и звуком, а для
тех, кто хочет создавать свою музыку, звуковая карта может стать всемогущим инструментом. Для
того чтобы узнать что же умеет компьютер в области звука нужно только поинтересоваться и перед
вами откроются возможности, о которых вы, может быть, даже не догадывались. И все это не так
сложно, как может показаться на первый взгляд.

Некоторые факты и понятия, без которых тяжело обойтись.

В соответствии с теорией математика Фурье, звуковую волну можно представить в виде спектра
входящих в нее частот (рис. 1).
Рис 1.

Частотные составляющие спектра - это синусоидальные колебания (так называемые чистые тона),
каждое из которых имеет свою собственную амплитуду и частоту. Таким образом, любое, даже
самое сложное по форме колебание (например, человеческий голос), можно представить суммой
простейших синусоидальных колебании определенных частот и амплитуд. И наоборот, сгенерировав
различные колебания и наложив их друг на друга (смикшировав, смешав), можно получить
различные звуки.

Справка: человеческий слуховой аппарат/мозг способен различать частотные составляющие звука в


пределах от 20 Гц до ~20 КГц (верхняя граница может колебаться в зависимости от возраста и
других факторов). Кроме того, нижняя граница сильно колеблется в зависимости от интенсивности
звучания.

1. Оцифровка звука и его хранение на цифровом носителе


«Обычный» аналоговый звук представляется в аналоговой аппаратуре непрерывным электрическим
сигналом. Компьютер оперирует с данными в цифровом виде. Это означает, что и звук в компьютере
представляется в цифровом виде. Как же происходит преобразование аналогового сигнала в
цифровой?

Цифровой звук – это способ представления электрического сигнала посредством дискретных


численных значений его амплитуды. Допустим, мы имеем аналоговую звуковую дорожку хорошего
качества (говоря «хорошее качество» будем предполагать нешумную запись, содержащую
спектральные составляющие из всего слышимого диапазона частот – приблизительно от 20 Гц до 20
КГц) и хотим «ввести» ее в компьютер (то есть оцифровать) без потери качества. Как этого добиться
и как происходит оцифровка? Звуковая волна – это некая сложная функция, зависимость амплитуды
звуковой волны от времени. Казалось бы, что раз это функция, то можно записать ее в компьютер
«как есть», то есть описать математический вид функции и сохранить в памяти компьютера. Однако
практически это невозможно, поскольку звуковые колебания нельзя представить аналитической
формулой (как y=x2, например). Остается один путь – описать функцию путем хранения ее
дискретных значений в определенных точках. Иными словами, в каждой точке времени можно
измерить значение амплитуды сигнала и записать в виде чисел. Однако и в этом методе есть свои
недостатки, так как значения амплитуды сигнала мы не можем записывать с бесконечной точностью,
и вынуждены их округлять. Говоря иначе, мы будем приближать эту функцию по двум координатным
осям – амплитудной и временной (приближать в точках – значит, говоря простым языком, брать
значения функции в точках и записывать их с конечной точностью). Таким образом, оцифровка
сигнала включает в себя два процесса - процесс дискретизации (осуществление выборки) и процесс
квантования. Процесс дискретизации - это процесс получения значений величин преобразуемого
сигнала в определенные промежутки времени (рис. 2).
Рис. 2

Квантование - процесс замены реальных значений сигнала приближенными с определенной


точностью (рис. 3). Таким образом, оцифровка – это фиксация амплитуды сигнала через
определенные промежутки времени и регистрация полученных значений амплитуды в виде
округленных цифровых значений (так как значения амплитуды являются величиной непрерывной,
нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому
прибегают к округлению). Записанные значения амплитуды сигнала называются отсчетами.
Очевидно, что чем чаще мы будем делать замеры амплитуды (чем выше частота дискретизации) и
чем меньше мы будем округлять полученные значения (чем больше уровней квантования), тем
более точное представление сигнала в цифровой форме мы получим. Оцифрованный сигнал в виде
набора последовательных значений амплитуды можно сохранить.

Рис. 3

Теперь о практических проблемах. Во-первых, надо иметь в виду, что память компьютера не
бесконечна, так что каждый раз при оцифровке необходимо находить какой-то компромисс между
качеством (напрямую зависящим от использованных при оцифровке параметров) и занимаемым
оцифрованным сигналом объемом.

Во-вторых, согласно теореме Котельникова частота дискретизации устанавливает верхнюю границу


частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна
половине частоты дискретизации сигнала. Попросту говоря, чтобы получить полную информацию о
звуке в частотной полосе до 22050 Гц, необходима дискретизация с частотой не менее 44.1 КГц.

Существуют и другие проблемы и нюансы, связанные с оцифровкой звука. Не сильно углубляясь в


подробности отметим, что в «цифровом звуке» из-за дискретности информации об амплитуде
оригинального сигнала появляются различные шумы и искажения (под фразой «в цифровом звуке
есть такие-то частоты и шумы» подразумевается, что когда этот звук будет преобразован обратно из
цифрового вида в аналоговый, то в его звучании будут присутствовать упомянутые частоты и шумы).
Так, например, джиттер (jitter) – шум, появляющийся в результате того, что осуществление выборки
сигнала при дискретизации происходит не через абсолютно равные промежутки времени, а с какими-
то отклонениями. То есть, если, скажем, дискретизация проводится с частотой 44.1 КГц, то отсчеты
берутся не точно каждые 1/44100 секунды, а то немного раньше, то немного позднее. А так как
входной сигнал постоянно меняется, то такая ошибка приводит к «захвату» не совсем верного
уровня сигнала. В результате во время проигрывания оцифрованного сигнала может ощущаться
некоторое дрожание и искажения. Появление джиттера является результатом не абсолютной
стабильности аналогово-цифровых преобразователей. Для борьбы с этим явлением применяют
высокостабильные тактовые генераторы. Еще одной неприятностью является шум дробления. Как
мы говорили, при квантовании амплитуды сигнала происходит ее округление до ближайшего уровня.
Такая погрешность вызывает ощущение «грязного» звучания.

Небольшая справка: стандартные параметры записи аудио компакт-дисков следующие: частота


дискретизации - 44.1 КГц, уровень квантования – 16 бит. Такие параметры соответствуют 65536 (216)
уровням квантования амплитуды при взятии ее значений 44100 раз в секунду.

На практике, процесс оцифровки (дискретизация и квантование сигнала) остается невидимым для


пользователя - всю черновую работу делают разнообразные программы, которые дают
соответствующие команды драйверу (управляющая подпрограмма операционной системы) звуковой
карты. Любая программа (будь то встроенный в Windows Recorder или мощный звуковой редактор),
способная осуществлять запись аналогового сигнала в компьютер, так или иначе оцифровывает
сигнал с определенными параметрами, которые могут оказаться важными в последующей работе с
записанным звуком, и именно по этой причине важно понять как происходит процесс оцифровки и
какие факторы влияют на ее результаты.

2. Преобразование звука из цифрового вида в аналоговый


Как после оцифровки прослушивать звук? То есть, как преобразовывать его обратно из цифрового
вида в аналоговый?

Для преобразования дискретизованного сигнала в аналоговый вид, пригодный для обработки


аналоговыми устройствами (усилителями и фильтрами) и последующего воспроизведения через
акустические системы, служит цифроаналоговый преобразователь (ЦАП). Процесс преобразования
представляет собой обратный процесс дискретизации: имея информацию о величине отсчетов
(амплитуды сигнала) и беря определенное количество отсчетов в единицу времени, путем
интерполирования происходит восстановление исходного сигнала (рис. 4).

Рис. 4
Еще совсем недавно воспроизведение звука в домашних компьютерах было проблемой, так как
компьютеры не оснащались специальными ЦАП. Сначала в качестве простейшего звукового
устройства в компьютере использовался встроенный динамик (PC speaker). Вообще говоря, этот
динамик до сих пор имеется почти во всех PC, но никто уже не помнит как его «раскачать», чтобы он
заиграл. Если вкратце, то этот динамик присоединен к порту на материнской плате, у которого есть
два положения – 1 и 0. Так вот, если этот порт быстро-быстро включать и выключать, то из динамика
можно извлечь более-менее правдоподобные звуки. Воспроизведение различных частот
достигается за счет того, что диффузор динамика обладает конечной реакцией и не способен
мгновенно перескакивать с места на место, таким образом он «плавно раскачивается» вследствие
скачкообразного изменения напряжения на нем. И если колебать его с разной скоростью, то можно
получить колебания воздуха на разных частотах. Естественной альтернативой динамику стал так
называемый Covox – это простейший ЦАП, выполненный на нескольких подобранных
сопротивлениях (или готовой микросхеме), которые обеспечивают перевод цифрового
представления сигнала в аналоговый – то есть в реальные значения амплитуды. Covox прост в
изготовлении и поэтому он пользовался успехом у любителей вплоть до того времени, когда
звуковая карта стала доступной всем.

В современном компьютере звук воспроизводится и записывается с помощью звуковой карты,


подключаемой либо встроенной в материнскую плату компьютера. Задача звуковой карты в
компьютере – ввод и вывод аудио. Практически это означает, что звуковая карта является тем
преобразователем, который переводит аналоговый звук в цифровой и обратно. Если описывать
упрощенно, то работа звуковой карты может быть пояснена следующим образом. Предположим, что
на вход звуковой карты подан аналоговый сигнал и карта включена (программно) в режимРис.
Сначала входной аналоговый сигнал попадает в аналоговый микшер, который занимается
смешением сигналов и регулировкой громкости и баланса. Микшер необходим, в частности, для
предоставления возможности пользователю управлять уровнямиРис. Затем отрегулированный и
сбалансированный сигнал попадает в аналогово-цифровой преобразователь, где сигнал
дискретизуется и квантуется, в результате чего в компьютер по шине данных направляется бит-
поток, который и представляет собой оцифрованный аудио сигнал. Вывод аудио информации почти
аналогичен вводу, только происходит в обратную сторону. Поток данных, направленный в звуковую
карту, преодолевает цифро-аналоговый преобразователь, который образует из чисел, описывающих
амплитуду сигнала, электрический сигнал; полученный аналоговый сигнал может быть пропущен
через любые аналоговые тракты для дальнейших преобразований, в том числе и для
воспроизведения. Надо отметить, что если звуковая карта оборудована интерфейсом для обмена
цифровыми данными, то при работе с цифровым аудио никакие аналоговые блоки карты не
задействуются.

3. Способы хранения цифрового звука


Для хранения цифрового звука существует много различных способов. Как мы говорили,
оцифрованный звук являет собой набор значений амплитуды сигнала, взятых через определенные
промежутки времени. Таким образом, во-первых, блок оцифрованной аудио информации можно
записать в файл «как есть», то есть последовательностью чисел (значений амплитуды). В этом
случае существуют два способа хранения информации.
Рис. 5

Первый (рис. 5) - PCM (Pulse Code Modulation - импульсно-кодовая модуляция) - способ цифрового
кодирования сигнала при помощи записи абсолютных значений амплитуд (бывают знаковое или
беззнаковое представления). Именно в таком виде записаны данные на всех аудио CD. Второй
способ (рис. 6) - ADPCM (Adaptive Delta PCM - адаптивная относительная импульсно-кодовая
модуляция) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд
(приращениях).

Рис. 6

Во-вторых, можно сжать или упростить данные так, чтобы они занимали меньший объем памяти,
нежели будучи записанными «как есть». Тут тоже имеются два пути.

Кодирование данных без потерь (lossless coding) - это способ кодирования аудио, который позволяет
осуществлять стопроцентное восстановление данных из сжатого потока. К такому способу
уплотнения данных прибегают в тех случаях, когда сохранение оригинального качества данных
критично. Например, после сведения звука в студии звукозаписи, данные необходимо сохранить в
архиве в оригинальном качестве для возможного последующего использования. Существующие
сегодня алгоритмы кодирования без потерь (например, Monkeys Audio) позволяют сократить
занимаемый данными объем на 20-50%, но при этом обеспечить стопроцентное восстановление
оригинальных данных из полученных после сжатия. Подобные кодеры – это своего рода архиваторы
данных (как ZIP, RAR и другие), только предназначенные для сжатия именно аудио.

Имеется и второй путь кодирования, на котором мы остановимся чуть подробнее, – кодирование


данных с потерями (lossy coding). Цель такого кодирования - любыми способами добиться схожести
звучания восстановленного сигнала с оригиналом при как можно меньшем объеме упакованных
данных. Это достигается путем использования различных алгоритмов «упрощающих» оригинальный
сигнал (выкидывая из него «ненужные» слабослышимые детали), что приводит к тому, что
декодированный сигнал фактически перестает быть идентичным оригиналу, а лишь похоже звучит.
Методов сжатия, а также программ, реализующих эти методы, существует много. Наиболее
известными являются MPEG-1 Layer I,II,III (последним является всем известный MP3), MPEG-2 AAC
(advanced audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC, и
прочие. В среднем, коэффициент сжатия, обеспечиваемый такими кодерами, находится в пределах
10-14 (раз). Надо особо подчеркнуть, что в основе всех lossy-кодеров лежит использование так
называемой психоакустической модели, которая как раз и занимается «упрощением» оригинального
сигнала. Говоря точнее, механизм подобных кодеров выполняет анализ кодируемого сигнала, в
процессе которого определяются участки сигнала, в определенных частотных областях которых
имеются неслышные человеческому уху нюансы (замаскированные или неслышимые частоты),
после чего происходит их удаление из оригинального сигнала. Таким образом, степень сжатия
оригинального сигнала зависит от степени его «упрощения»; сильное сжатие достигается путем
«агрессивного упрощения» (когда кодер «считает» ненужными множественные нюансы), такое
сжатие, естественно, приводит к сильной деградации качества, поскольку удалению могут подлежать
не только незаметные, но и значимые детали звучания.

Как мы сказали, современных lossy-кодеров существует достаточно много. Наиболее


распространенный формат – MPEG-1 Layer III (всем известный MP3). Формат завоевал свою
популярность совершенно заслуженно – это был первый распространенный кодек подобного рода,
который достиг столь высокого уровня компрессии при отличном качестве звучания. Сегодня этому
кодеку имеется множество альтернатив, выбор остается за пользователем. К сожалению, рамки
статьи не позволяют привести здесь тестирования и сравнения существующих кодеков, однако
авторы статьи позволят себе привести некоторую информацию, полезную при выборе кодека. Итак,
преимущества MP3 – широкая распространенность и достаточно высокое качество кодирования,
которое объективно улучшается благодаря разработкам различных кодеров MP3 энтузиастами
(например, кодер Lame). Мощная альтернатива MP3 – кодек Microsoft Windows Media Audio (Файлы
.WMA и .ASF). По различным тестам этот кодек показывает себя от «как MP3» до «заметно хуже
MP3» на средних битрейтах, и, чаще, «лучше MP3» на низких битрейтах. Ogg Vorbis (файлы .OGG) –
совершенно свободный от лицензирования кодек, создаваемый независимыми разработчиками.
Чаще всего ведет себя лучше MP3, недостатком является лишь малая распространенность, что
может стать критическим аргументом при выборе кодека для длительного хранения аудио. Вспомним
и еще молодой кодек MP3 Pro, анонсированный в июле 2001 года компанией Coding Technologies
совместно с Thomson Multimedia. Кодек является продолжением, или, точнее, развитием старого
MP3 – он совместим с MP3 назад (полностью) и вперед (частично). За счет использования новой
технологии SBR (Spectral Band Replication), кодек ведет себя заметно лучше других форматов на
низких битрейтах, однако качество кодирования на средних и высоких битрейтах чаще уступает
качеству почти всех описанных кодеков. Таким образом, MP3 Pro пригоден больше для ведения
аудио трансляций в Internet, а также для создания превью песен и музыки.

Говоря о способах хранения звука в цифровом виде нельзя не вспомнить и о носителях данных.
Всем привычный аудио компакт-диск, появившийся в начале 80-х годов, широкое распространение
получил именно в последние годы (что связано с сильным удешевлением носителя и приводов). А
до этого носителями цифровых данных являлись кассеты с магнитной лентой, но не обычные, а
специально предназначенные для так называемых DAT-магнитофонов. Ничего примечательного –
магнитофоны как магнитофоны, однако цена на них всегда была высокой, и такое удовольствие
было не всем «по зубам». Эти магнитофоны использовались, в основном, в студиях звукозаписи.
Преимущество таких магнитофонов было в том, что, не смотря на использование привычных
носителей, данные на них хранились в цифровом виде и практически никаких потерь при
чтении/записи на них не было (что очень важно при студийной обработке и хранении звука). Сегодня
появилось большое количество различных носителей данных, кроме привычных всем компакт
дисков. Носители совершенствуются и с каждым годом становятся более доступными и
компактными. Это открывает большие возможности в области создания мобильных аудио
проигрывателей. Уже сегодня продается огромное количество различных моделей переносных
цифровых плееров. И, можно предположить, что это еще далеко не пик развития такого рода
техники.
4. Преимущества и недостатки цифрового звука
С точки зрения обычного пользователя выгоды много - компактность современных носителей
информации позволяет ему, например, перевести все диски и пластинки из своей коллекции в
цифровое представление и сохранить на долгие годы на небольшом трехдюймовом винчестере или
на десятке-другом компакт дисков; можно воспользоваться специальным программным
обеспечением и хорошенько «почистить» старые записи с бобин и пластинок, удалив из их звучания
шумы и треск; можно также не просто скорректировать звучание, но и приукрасить его, добавить
сочности, объемности, восстановить частоты. Помимо перечисленных манипуляций со звуком в
домашних условиях, Интернет тоже приходит на помощь аудио-любителю. Например, сеть
позволяет людям обмениваться музыкой, прослушивать сотни тысяч различных Интернет-радио
станций, а также демонстрировать свое звуковое творчество публике, и для этого нужен всего лишь
компьютер и Интернет. И, наконец, в последнее время появилась огромная масса различной
портативной цифровой аудио аппаратуры, возможности даже самого среднего представителя
которой зачастую позволяют с легкостью взять с собой в дорогу коллекцию музыки, равную по
длительности звучания десяткам часов.

С точки зрения профессионала цифровой звук открывает поистине необъятные возможности. Если
раньше звуковые и радио студии размещались на нескольких десятках квадратных метров, то теперь
их может заменить хороший компьютер, который по возможностям превосходит десять таких студий
вместе взятых, а по стоимости оказывается многократно дешевле одной. Это снимает многие
финансовые барьеры и делает звукозапись более доступной и профессионалу и простому
любителю. Современное программное обеспечение позволяет делать со звуком все что угодно.
Раньше различные эффекты звучания достигались с помощью хитроумных приспособлений, которые
не всегда являли собой верх технической мысли или же были просто устройствами кустарного
изготовления. Сегодня, самые сложные и просто невообразимые раньше эффекты достигаются
путем нажатия пары кнопок. Конечно, вышесказанное несколько утрировано и компьютер не
заменяет человека – звукооператора, режиссера или монтажера, однако с уверенностью можно
сказать, что компактность, мобильность, колоссальная мощность и обеспечиваемое качество
современной цифровой техники, предназначенной для обработки звука, уже сегодня почти
полностью вытеснило из студий старую аналоговую аппаратуру.

Конечно, цифровая техника тоже имеет свои недостатки. Многие (профессионалы и любители)
отмечают, что аналоговый звук слушался живее. И это не просто дань прошлому. Как мы сказали
выше, процесс оцифровки вносит определенную погрешность в звучание, кроме того, различная
усиливающая цифровая аппаратура привносит так называемые «транзисторные шумы» и другие
специфические искажения. Термину «транзисторный шум», пожалуй, нет точного определения, но
можно сказать, что это хаотичные колебания в области высоких частот. Не смотря на то, что
слуховой аппарат человека способен воспринимать частоты до 20 кГц, похоже, все-таки,
человеческий мозг улавливает и более высокие частоты. И именно на подсознательном уровне
человек все же ощущает аналоговое звучание чище, чем цифровое.

Впрочем, у цифрового представления данных есть одно неоспоримое и очень важное преимущество
– при сохранном носителе данные на нем не искажаются с течением времени. Если магнитная лента
со временем размагничивается и качество записи теряется, если пластинка царапается и к звучанию
прибавляются щелчки и треск, то компакт-диск / винчестер / электронная память либо читается (в
случае сохранности), либо нет, а эффект старения отсутствует. Важно отметить, мы не говорим
здесь об Audio CD (CD-DA – стандарт, устанавливающий параметры и формат записи на аудио
компакт диски) так как не смотря на то, что это носитель цифровой информации, эффект старения
его, все же, не минует. Это связано с особенностями хранения и считывания аудио данных с Audio
CD. Информация на всех типах компакт-дисков хранится покадрово и каждый кадр имеет заголовок,
по которому его возможно идентифицировать. Однако различные типы CD имеют различную
структуру и используют различные методы маркировки кадров. Поскольку компьютерные приводы
CD-ROM рассчитаны на чтение в основном Data-CD (надо сказать, что существуют различные
разновидности стандарта Data-CD, каждый из которых дополняет основной стандарт CD-DA), они
часто не способны правильно «ориентироваться» на Audio CD, где способ маркировки кадров
отличен от Data-CD (на аудио CD кадры не имеют специального заголовка и для определения
смещения каждого кадра необходимо следить за информацией в кадре). Это означает, что если при
чтении Data-CD привод легко «ориентируется» на диске и никогда не перепутает кадры, то при
чтении с аудио компакт диска привод не может ориентироваться четко, что при появлении, скажем,
царапины или пыли может привести к чтению неправильного кадра и, как следствие, скачку или
треску звучания. Эта же проблема (неспособность большинства приводов правильно
позиционироваться на CD-DA) является причиной еще одного неприятного эффекта: копирование
информации с Audio CD вызывает проблемы даже при работе с полностью сохранными дисками
вследствие того, что правильное «ориентирование на диске» полностью зависит от считывающего
привода и не может быть четко проконтролировано программным путем.

Повсеместное распространение и дальнейшее развитие уже упомянутых lossy-кодеров аудио (MP3,


AAC и других) открыло широчайшие возможности распространения и хранения аудио. Современные
каналы связи уже давно позволяют пересылать большие массивы данных за сравнительно
небольшое время, однако самой медленной остается передача данных между конечным
пользователем и поставщиком услуг связи. Телефонные линии, по которым пользователи в
большинстве своем связываются с Интернетом, не позволяют осуществлять быструю передачу
данных. Нечего и говорить, что такие объемы данных, какие занимает несжатая аудио и видео
информация, передавать по привычным каналам связи придется очень долго. Однако появление
lossy-кодеров, обеспечивающих десяти-пятнадцати кратное сжатие, превратило передачу и обмен
аудио данными в повседневное занятие каждого пользователя Интернета и сняло все преграды,
образованные слабыми каналами связи. Касательно этого нужно сказать, что развивающаяся
сегодня семимильными шагами цифровая мобильная связь во многом обязана именно lossy-
кодированию. Дело в том, что протоколы передачи аудио по каналам мобильной связи работают на
приблизительно тех же принципах, что и известные всем музыкальные кодеры. Поэтому дальнейшее
развитие в области кодирования аудио неизменно ведет к уменьшению стоимости передачи данных
в мобильных системах, от чего конечный пользователь только выигрывает: дешевеет связь,
появляются новые возможности, продлевается время работы батарей мобильных устройств и т.д. Не
в меньшей степени lossy-кодирование помогает экономить деньги на покупке дисков с любимыми
песнями – сегодня стоит только зайти в Интернет и там можно найти почти любую интересующую
песню. Безусловно, такое положение вещей давно «мозолит глаза» звукозаписывающим компаниям
– у них под носом люди вместо покупки дисков обмениваются песнями прямо через Интернет, что
превращает некогда золотое дно в малоприбыльный бизнес, но это уже вопрос этики и финансов.
Одно можно сказать с уверенностью: с таким положением вещей уже ничего нельзя поделать и бум
обмена музыкой через Интернет, порожденный именно появлением lossy-кодеров, уже ничем не
остановить. А это только на руку рядовому пользователю.

5. К вопросу об обработке звука


Под обработкой звука следует понимать различные преобразования звуковой информации с целью
изменения каких-то характеристик звучания. К обработке звука относятся способы создания
различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных
шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном
счете, к следующим основным типам:

1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее


усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.

2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал


представляется в виде спектра частот через определенные промежутки времени, производится
обработка необходимых частотных составляющих, например, фильтрация, и обратное
«сворачивание» сигнала из спектра в волну.

3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие
преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.

4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов;


позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные
характеристики звука.
Обсуждение каждого из названных типов преобразований может стать целым научным трудом.
Стоит привести несколько практических примеров использования указанных видов преобразований
при создании реальных звуковых эффектов:

• Echo (эхо) Реализуется с помощью временных преобразований. Фактически для получения эха
необходимо на оригинальный входной сигнал наложить его задержанную во времени копию. Для
того, чтобы человеческое ухо воспринимало вторую копию сигнала как повторение, а не как отзвук
основного сигнала, необходимо время задержки установить равным примерно 50 мс. На основной
сигнал можно наложить не одну его копию, а несколько, что позволит на выходе получить эффект
многократного повторения звука (многоголосного эха). Чтобы эхо казалось затухающим,
необходимо на исходный сигнал накладывать не просто задержанные копии сигнала, а
приглушенные по амплитуде.
• Reverberation (повторение, отражение). Эффект заключается в придании звучанию объемности,
характерной для большого зала, где каждый звук порождает соответствующий, медленно
угасающий отзвук. Практически, с помощью реверберации можно «оживить», например,
фонограмму, сделанную в заглушенном помещении. От эффекта «эхо» реверберация отличается
тем, что на входной сигнал накладывается задержанный во времени выходной сигнал, а не
задержанная копия входного. Иными словами, блок реверберации упрощенно представляет собой
петлю, где выход блока подключен к его входу, таким образом уже обработанный сигнал каждый
цикл снова подается на вход смешиваясь с оригинальным сигналом.
• Chorus (хор). В результате его применения звучание сигнала превращается как бы в звучание хора
или в одновременное звучание нескольких инструментов. Схема получения такого эффекта
аналогична схеме создания эффекта эха с той лишь разницей, что задержанные копии входного
сигнала подвергаются слабой частотной модуляции (в среднем от 0.1 до 5 Гц) перед
смешиванием со входным сигналом. Увеличение количества голосов в хоре достигается путем
добавления копий сигнала с различными временами задержки.

Безусловно, как и во всех других областях, в обработке сигналов также имеются проблемы, которые
являются своего рода камнем преткновения. Так, например, при разложении сигналов в спектр
частот существует принцип неопределенности, который невозможно преодолеть. Принцип гласит,
что нельзя получить точную спектральную картину сигнала в конкретный момент времени: либо для
получения более точной спектральной картины нужно проанализировать больший временной
участок сигнала, либо, если нас интересует больше время, когда происходило то или иное
изменение спектра, нужно пожертвовать точностью самого спектра. Иными словами нельзя получить
точный спектр сигнала в точке - точный спектр для большого участка сигнала, либо очень
приблизительный спектр, но для короткого участка.

Механизмы для обработки сигналов существуют как в программном, так и в аппаратном исполнениях
(так называемые эффект-процессоры). Например, вокодеры и гитарные процессоры, хорусы и
ревербераторы существуют в виде аппаратуры, а также в виде программ.

Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-
обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с
возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом).
Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене.
Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-
процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-
обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно
ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку
определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга
или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и
скрупулезная проработка всех нюансов звучания. Существует множество различных операций над
звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя
реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме.

Обработка сигнала – это сложная и, главное, ресурсоемкая процедура. Она сравнительно недавно
стала проводиться в цифровых устройствах – раньше различные эффекты звучания и другие
достигались путем обработки звука в аналоговых приборах. В аналоговой аппаратуре звук в виде
электрических колебаний проходит через различные тракты (блоки электрических элементов), чем
достигается изменение фазы, спектра и амплитуды сигнала. Однако такой способ обработки имеет
массу недостатков. Во-первых, страдает качество обработки, ведь каждый аналоговый элемент
имеет свою погрешность, а несколько десятков элементов могут критически повлиять на точность и
качество желаемого результата. А во-вторых, и это, пожалуй, самое главное, почти каждый
отдельный эффект достигается путем использования отдельного устройства, когда каждое такое
устройство может стоить очень дорого. Возможность же использования цифровых устройств имеет
неоспоримые преимущества. Качество обработки сигналов в них намного меньше зависит от
качества аппаратуры, главное – это качественно оцифровать звук и иметь возможность качественно
его воспроизводить, и тогда качество обработки ложится уже только на программный механизм.
Кроме того, для различных манипуляций со звуком не требуется постоянная смена оборудования. И,
самое главное, поскольку обработка ведется программным путем, для нее открываются просто
невероятные возможности, которые ограничены лишь мощностью компьютеров (а она
увеличивается с каждым днем) и фантазией человека. Однако, (по крайней мере сегодня) здесь
имеются и свои неприятности. Так, например, часто, даже для осуществления несложной обработки
сигнала необходимо осуществить его разложение в спектр частот. В этом случае обработка сигнала
на лету может быть затруднена именно из-за ресурсоемкости этапа разложения. Поэтому
преобразования, требующие спектрального разложения, выполняют чаще в пост-режиме.

6. Аппаратура
Немаловажная часть разговора о звуке связана с аппаратурой. Существует много различных
устройств для обработки и ввода/вывода звука. Касательно обычного персонального компьютера
следует подробнее остановиться на звуковых картах. Звуковые карты принято делить на звуковые,
музыкальные и звукомузыкальные. По конструкции же все звуковые платы можно разделить на две
группы: основные (устанавливаемые на материнской плате компьютера и обеспечивающие ввод и
вывод аудио данных) и дочерние (имеют принципиальное конструктивное отличие от основных плат
- они чаще всего подключаются к специальному разъему, расположенному на основной плате).
Дочерние платы служат чаще всего для обеспечения или расширения возможностей MIDI-
синтезатора.

Звукомузыкальные и звуковые платы выполняются в виде устройств, вставляемых в слот


материнской платы (либо уже встроены в нее изначально). Визуально они имеют обычно два
аналоговых входа - линейный и микрофонный, и несколько аналоговых выходов: линейные выходы и
выход для наушников. В последнее время карты стали оснащаться также и цифровым входом и
выходом, обеспечивающим передачу аудио между цифровыми устройствами. Аналоговые входы и
выходы обычно имеют разъемы, аналогичные разъемам головных наушников (1/8”). Вообще, входов
у звуковой платы немного больше, чем два: аналоговые CD, MIDI и другие входы. Они, в отличие от
микрофонного и линейного входов, расположены не на задней панели звуковой платы, а на самой
плате; могут иметься и другие входы, например, для подключения голосового модема. Цифровые
входы и выходы обычно выполнены в виде интерфейса S/PDIF (интерфейс цифровой передачи
сигналов) с соответствующим разъемом (S/PDIF – сокращение от Sony/Panasonic Digital Interface -
цифровой интерфейс Sony/Panasonic). S/PDIF - это «бытовой» вариант более сложного
профессионального стандарта AES/EBU (Audio Engineering Society / European Broadcast Union).
Сигнал S/PDIF используется для цифровой передачи (кодирования) 16-разрядных стерео данных с
любой частотой дискретизации. Помимо перечисленного, на звукомузыкальных платах имеется MIDI-
интерфейс с разъемами для подключения MIDI-устройств и джойстиков, а также для подсоединения
дочерней музыкальной карты (хотя в последнее время возможность подключения последней
становится редкостью). Некоторые модели звуковых карт для удобства пользователя оснащаются
фронтальной панелью, устанавливаемой на лицевой стороне системного блока компьютера, на
которой размещаются разъемы, соединенные с различными входами и выходами звуковой карты.

Определим несколько основных блоков, из которых состоят звуковые и звукомузыкальные платы.

1. Блок цифровой обработки сигналов (кодек). В этом блоке осуществляются аналого-цифровые и


цифро-аналоговые преобразования (АЦП и ЦАП). От этого блока зависят такие характеристики
карты, как максимальная частота дискретизации при записи и воспроизведении сигнала,
максимальный уровень квантования и максимальное количество обрабатываемых каналов (моно
или стерео). В немалой степени от качества и сложности составляющих этого блока зависят и
шумовые характеристики.

2. Блок синтезатора. Присутствует в музыкальных картах. Выполняется на основе либо FM-, либо
WT-синтеза, либо на обоих сразу. Может работать как под управлением собственного процессора,
так и под управлением специального драйвера.

3. Интерфейсный блок. Обеспечивает передачу данных по различным интерфейсам (например,


S/PDIF). У чисто звуковой карты этот блок чаще отсутствует.

4. Микшерный блок. В звуковых платах микшерный блок обеспечивает регулировку:

• уровней сигналов с линейных входов;


• уровней с MIDI входа и входа цифрового звука;
• уровня общего сигнала;
• панорамирования;
• тембра.

Рассмотрим важнейшие параметры, характеризующие звуковые и звукомузыкальные платы.


Наиболее важными характеристиками являются: максимальная частота дискретизации (sampling
rate) в режиме записи и в режиме воспроизведения, максимальный уровень квантования или
разрядность (max. quantization level) в режиме записи и воспроизведения. Кроме того, так как
звукомузыкальные платы имеют еще и синтезатор, то к их характеристикам относят и параметры
установленного синтезатора. Естественно, чем с большим уровнем квантования карта способна
кодировать сигналы, тем большее качество сигнала при этом достигается. Все современные модели
звуковых карт способны кодировать сигнал с уровнем 16 бит. Одной из важных характеристик
является возможность одновременного воспроизведения и записи звуковых потоков. Особенность
карты одновременно воспроизводить и записывать называют полнодуплексной (full duplex). Есть
еще одна характеристика, которая зачастую играет решающую роль при покупке звуковой карты -
отношение сигнал/шум (Signal/Noise Ratio, S/N). Этот показатель влияет на чистоту записи и
воспроизведения сигнала. Отношение сигнал/шум – это отношение мощности сигнала к мощности
шума на выходе устройства, этот показатель принято измерять в дБ. Хорошим можно считать
отношение 80-85 дБ; идеальным – 95-100 дБ. Однако нужно учитывать, что на качество
воспроизведения и записи сильно влияют наводки (помехи) со стороны других компонент
компьютера (блока питания и проч.). В результате этого отношение сигнал/шум может изменяться в
худшую сторону. На практике методов борьбы с этим существует достаточно много. Некоторые
предлагают заземлить компьютер. Другие, дабы как можно более тщательно уберечь звуковую карту
от наводок, «выносят» ее за пределы корпуса компьютера. Однако полностью уберечься от наводок
очень тяжело, так как даже элементы самой карты создают наводки друг на друга. С этим тоже
пытаются бороться и для этого экранируют каждый элемент на плате. Но сколько бы усилий не
прилагалось к решению этой проблемы, полностью исключить влияние внешних помех невозможно.

Еще одна не менее важная характеристика – коэффициент нелинейных искажений или Total
Harmonic Distortion, THD. Этот показатель также критическим образом влияет на чистоту звучания.
Коэффициент нелинейных искажений измеряется в процентах: 1% - «грязное» звучание; 0.1% -
нормальное звучание; 0.01% - чистое звучание класса Hi-Fi; 0.002% - звучание класса Hi-Fi – Hi End..
Нелинейные искажения – результат неточности в восстановлении сигнала из цифрового вида в
аналоговый. Упрощенно, процесс измерения этого коэффициента проводится следующим образом.
На вход звуковой карты подается чистый синусоидальный сигнал. На выходе устройства снимается
сигнал, спектр которого представляет собой сумму синусоидальных сигналов (сумма исходной
синусоиды и ее гармоник). Затем по специальной формуле рассчитывается количественное
соотношение исходного сигнала и его гармоник, полученных на выходе устройства. Это
количественное соотношение и есть коэффициент нелинейных искажений (THD).

Что такое MIDI-синтезатор? Термин «синтезатор» обычно используется применительно к


электронному музыкальному инструменту, в котором звук создается и обрабатывается, меняя свою
окраску и характеристики. Естественно, название этого устройства пошло от его основного
предназначения – синтеза звука. Основных методов синтеза звука существует всего два: FM
(Frequency modulation – частотная модуляция) и WT (Wave Table – таблично-волновой). Поскольку
мы не можем здесь подробно останавливаться на их рассмотрении, опишем лишь основную идею
методов. В основе FM-синтеза лежит идея, что любое даже самое сложное колебание является по
сути суммой простейших синусоидальных. Таким образом, можно наложить друг на друга сигналы от
конечного числа генераторов синусоид и путем изменения частот синусоид получать звуки, похожие
на настоящие. Таблично-волновой синтез основывается на другом принципе. Синтез звука при
использовании такого метода достигается за счет манипуляций над заранее записанными
(оцифрованными) звуками реальных музыкальных инструментов. Эти звуки (они называются
сэмплами) хранятся в постоянной памяти синтезатора.

MIDI-синтезатор – это синтезатор, отвечающий требованиям стандарта, о котором мы сейчас


поговорим. MIDI – это общепринятая спецификация, связанная с организацией цифрового
интерфейса для музыкальных устройств, включающая в себя стандарт на аппаратную и
программную части.

Рис. 7

Эта спецификация предназначена для организации локальной сети электронных инструментов (рис.
7). К MIDI-устройствам относятся различные аппаратные и музыкальные инструменты, отвечающие
требованиям MIDI. Таким образом, MIDI-синтезатор – это музыкальный инструмент,
предназначенный обычно для синтеза звука и музыки, а также удовлетворяющий спецификации
MIDI. Давайте разберемся кратко, почему выделен отдельный класс устройств, названный MIDI.

Дело в том, что осуществление программной обработки звука часто сопряжено с неудобствами,
обусловленными различными техническими особенностями этого процесса. Даже возложив
операции по обработке звука на звуковую карту или любую другую аппаратуру, остается множество
различных проблем. Во-первых, зачастую желательно пользоваться аппаратным синтезом звучания
музыкальных инструментов (как минимум потому, что компьютер – это слишком общий инструмент,
часто необходим просто аппаратный синтезатор звуков и музыки, не более). Во-вторых, программная
обработка звука часто сопровождается временными задержками, в то время как при концертной
работе необходимо мгновенное получение обработанного сигнала. По этим и другим причинам и
прибегают к использованию специальной аппаратуры для обработки, а не компьютеров со
специальными программами. Однако при использовании аппаратуры возникает необходимость в
едином стандарте, который позволил бы соединять устройства друг с другом и комбинировать их.
Эти предпосылки и заставили в 1982 году несколько ведущих в области музыкального оборудования
компаний утвердить первый MIDI-стандарт, который впоследствии получил продолжение и
развивается по сей день. Что же в конечном счете представляет собой MIDI-интерфейс и устройства
в него входящие с точки зрения персонального компьютера?
• Аппаратно - это установленные на звуковой карте: синтезатор различных звуков и музыкальных
инструментов, микропроцессор, контролирующий и управляющий работу MIDI-устройств, а также
различные стандартизованные разъемы и шнуры для подключения дополнительных устройств.
• Программно - это протокол MIDI, представляющий собой набор сообщений (команд), которые
описывают различные функции системы MIDI и с помощью которых осуществляется связь (обмен
информацией) между устройствами MIDI. Сообщения можно рассматривать как средство
удаленного управления.

Рамки данной статьи не позволяют нам углубляться в частности описания MIDI, следует отметить
однако, что в отношении синтезаторов звука MIDI устанавливает строгие требования к их
возможностям, примененным в них способам синтеза звука, а также к управляющим параметрам
синтеза. Кроме того, для того, чтобы музыка созданная на одном синтезаторе могла бы быть легко
перенесена и успешно воспроизведена на другом, были установлены несколько стандартов на
соответствие инструментов (голосов) и их параметров в различных синтезаторах: стандарт General
MIDI (GM), General Synth (GS) и eXtended General (XG). Базисным стандартом является GM,
остальные два являются его логическими продолжениями и расширениями.

В качестве практического примера устройства MIDI, можно рассмотреть обычную MIDI-клавиатуру.


Упрощенно, MIDI-клавиатура представляет собой укороченную клавиатуру рояля в корпусе с которой
находится MIDI-интерфейс, позволяющий подключать ее к другим MIDI-устройствам, например, к
MIDI-синтезатору, который установлен в звуковой карте компьютера. Используя специальное
программное обеспечение (например, MIDI-секвенсор) можно включить MIDI-синтезатор в режим
игры, например, на рояле, и нажимая на клавиши MIDI-клавиатуры слышать звуки рояля.
Естественно, что роялем дело не ограничивается – в стандарте GM имеются 128 мелодических
инструментов и 46 ударных. Кроме того, используя MIDI-секвенсор можно записывать исполняемые
на MIDI-клавиатуре ноты в компьютер, для последующего редактирования и аранжировки, либо
просто для элементарной распечатки нот.

Надо отметить, что поскольку MIDI-данные – это набор команд, то музыка, которая написана с
помощью MIDI, также записывается с помощью команд синтезатора. Иными словами, MIDI-партитура
– это последовательность команд: какую ноту играть, какой инструмент использовать, какова
продолжительность и тональность ее звучания и так далее. Знакомые многим MIDI-файлы (.MID)
есть нечто иное, как набор таких команд. Естественно, что поскольку имеется великое множество
производителей MIDI-синтезаторов, то и звучать один и тот же файл может на разных синтезаторах
по-разному (потому что в файле сами инструменты не хранятся, а есть лишь только указания
синтезатору какими инструментами играть, в то время как разные синтезаторы могут звучать по-
разному).

Вернемся к рассмотрению звукомузыкальных плат. Поскольку мы уже уточнили, что такое MIDI,
нельзя обойти стороной характеристики встроенного аппаратного синтезатора звуковой карты.
Современный синтезатор, чаще всего, основан на так называемой «волновой таблице» - WaveTable
(вкратце, принцип работы такого синтезатора состоит в том, что звук в нем синтезируется из набора
записанных звуков путем их динамического наложения и изменения параметров звучания), раньше
же основным типом синтеза являлся FM (Frequency Modulation – синтез звука посредством
генерирования простых синусоидальных колебаний и их смешения). Основными характеристиками
WT-синтезатора являются: количество инструментов в ПЗУ и его объем, наличие ОЗУ и его
максимальный объем, количество возможных эффектов обработки сигналов, а также возможность
поканальной эффект-обработки (конечно, в случае наличия эффект-процессора), количество
генераторов, определяющих максимальное число голосов в полифоническом (многоголосном)
режиме и, может быть самое главное, стандарт, в соответствии с которым выполнен синтезатор (GM,
GS или XG). Кстати, объем памяти синтезатора - не всегда величина фиксированная. Дело в том, что
в последнее время синтезаторы перестали иметь свое ПЗУ, а пользуются основным ОЗУ
компьютера: в этом случае все используемые синтезатором звуки хранятся в файле на диске и при
необходимости считываются в ОЗУ.

7. Программное обеспечение
Тема программного обеспечения очень широка, поэтому здесь мы только вкратце обсудим основные
представители программ для обработки звука.

Наиболее важный класс программ – редакторы цифрового аудио. Основные возможности таких
программ это, как минимум, обеспечение возможности записи (оцифровки) аудио и сохранение на
диск. Развитые представители такого рода программ позволяют намного больше: запись,
многоканальное сведение аудио на нескольких виртуальных дорожках, обработка специальными
эффектами (как встроенными, так и подключаемыми извне – об этом позже), очистка от шумов,
имеют развитую навигацию и инструментарий в виде спектроскопа и прочих виртуальных приборов,
управление/управляемость внешними устройствами, преобразование аудио из формата в формат,
генерация сигналов, запись на компакт диски и многое другое. Некоторые из таких программ: Cool
Edit Pro (Syntrillium), Sound Forge (Sonic Foundry), Nuendo (Steinberg), Samplitude Producer (Magix),
Wavelab (Steinberg).

Основные возможности редактора Cool Edit Pro 2.0 (см. Скриншот 1 - пример рабочего окна
программы в многодорожечном режиме): редактирование и сведение аудио на 128 дорожках, 45
встроенных DSP-эффектов, включая инструменты для мастеринга, анализа и реставрации аудио, 32-
битная обработка, поддержка аудио с параметрами 24 бит / 192 КГц, мощный инструментарии для
работы с петлями (loops), поддержка DirectX, а также управление SMPTE/MTC, поддержка работы с
видео и MIDI и прочее.

Скриншот 1

Основные возможности редактора Sound Forge 6.0a (см. Скриншот 2 - пример рабочего окна
программы): мощные возможности не деструктивного редактирования, многозадачная фоновая
обработка заданий, поддержка файлов с параметрами до 32 бит / 192 КГц, менеджер предустановок,
поддержка файлов более 4 Гб, работа с видео, большой набор эффектов обработки,
восстановление после зависаний, предпрослушивание примененных эффектов, спектральный
анализатор и прочее.
Скриншот 2

Не менее важная в функциональном смысле группа программ – секвенсоры (программы для


написания музыки). Чаще всего, такие программы используют MIDI-синтезатор (аппаратный внешний
или встроенный почти в любую звуковую карту, либо программный, организуемый специальным
программным обеспечением). Такие программы предоставляют пользователю либо привычный
нотный стан (как, например, программа Finale от CODA), либо более распространенный способ
редактирования аудио на компьютере, так называемый, piano-roll (это более понятное
представление музыки для людей, не знакомых с нотами; в таком представлении вертикально
имеется ось с изображением клавиш пианино, а горизонтально откладывается время, таким
образом, ставя на пересечении штрихи разной длинны, добиваются звучания определенной ноты с
определенной продолжительностью). Встречаются и программы, позволяющие просматривать и
редактировать аудио в обоих представлениях. Развитые секвенсоры помимо редактирования аудио
во многом могут дублировать возможности редакторов цифрового аудио – осуществлять запись на
CD, совмещать MIDI-дорожки с цифровыми сигналами и осуществлять мастеринг. Яркие
представители такого класса программ: Cubase (Steinberg), Logic Audio (Emagic), Cakewalk (Twelve
Tone Systems) и уже упомянутый Finale.

Основные возможности редактора Cubase 5.1 (см. Скриншот 3 – пример рабочего окна программы в
режиме просмотра MIDI дорожек): редактирование музыки в реальном времени используя
графическое представление информации, высокое разрешение редактора (15360 пульсов на
четверть), практически не лимитированное количество дорожек, 72 аудио канала, поддержка VST32,
4 эквалайзера на канал и другие поканальные эффекты, встроенные инструменты обработки с
использованием аналогового моделирования (виртуальные инструменты, эффект процессоры,
инструменты микширования и записи) и множество других возможностей.
Скриншот 3

Основные возможности редактора Logic Audio 5 (см. Скриншот 4 – пример рабочего окна
программы): работа со звука при точности в 32 бита, высокое временное разрешение событий,
самоадаптируемый микшер аудио и MIDI, оптимизируемый интерфейс пользователя, синхронизация
с видео, виртуально неограниченное число MIDI-дорожек, обработка звука в реальном времени,
полная синхронизация с MTC, MMC, SMPTE, встроенные модули обработки и автоинструменты,
поддержка большого количество аппаратного оборудования, а также множество других
возможностей.

Скриншот 4

В наборе программ пользователя, занимающегося обработкой звука, имеется множество разных


инструментов, так было раньше и так будет впредь – универсальных комбайнов для работы со
звуком не бывает. Однако, не смотря на все разнообразие ПО, в программах часто используются
схожие механизмы для обработки звука (например, процессоры эффектов и прочие). На каком-то
этапе разработки аудио ПО, производители поняли, что удобнее сделать в своих программах
возможность подключения внешних инструментов, чем каждый раз создавать заново инструменты
для каждой отдельной программы. Так что многие программы, относящиеся к той или иной группе
ПО, позволяют подключать так называемые «плаг-ины» - внешние подключаемые модули,
расширяющие возможности обработки звука. Это стало возможным в результате появления
нескольких стандартов на интерфейс между программой и подключаемым модулем. На сегодняшний
день существуют два основных стандарта на интерфейс: DX и VST. Существование стандартов
позволяет подключать один и тот же плаг-ин к совершенно разным программам, не заботясь о
возникновении конфликтов и неполадок. Говоря о самих плаг-инах, надо сказать, что это просто
огромное семейство программ. Обычно, один плаг-ин является механизмом, реализующим какой-то
конкретный эффект, например, реверберацию или низкочастотный фильтр. Из интересных плаг-инов
можно вспомнить, например iZotope Vinyl, - он позволяет придать звучанию эффект виниловой
пластинки (см. Скриншот 5 – пример рабочего окна плаг-ина в среде Cool Edit Pro), Antares AutoTune
позволяет в полуавтоматическом режиме корректировать звучание вокала, а Orange Vocoder являет
собой замечательный вокодер (механизм для придания звучанию различных инструментов схожести
со звучанием голоса человека).

Скриншот 5

Обработка звука и написание музыки – это не только творческий процесс. Иногда нужен
скрупулезный анализ данных, а также осуществление поиска огрехов их звучания. Кроме того, аудио
материал, с который приходится иметь дело, не всегда желаемого качества. В этой связи нельзя не
вспомнить о целом ряде программ-анализаторов аудио, специально предназначенных для
осуществления измерительных анализов аудио данных. Такие программы помогают представить
аудио данные удобнее, чем обычные редакторы, а также внимательно изучить их с помощью
различных инструментов, таких как FFT-анализаторы (построители динамических и статических
амплитудно-частотных характеристик), построители сонограмм, и прочих. Одна из наиболее
известных и развитых программ подобного плана – программа SpectraLAB (Sound Technology Inc.),
чуть более простые, но мощные – Analyzer2000 и Spectrogram.

Программа SpectraLAB – наиболее мощный продукт подобного рода, существующий на сегодня (см.
Скриншот 6 – пример рабочего окна программы, на экране: спектральная картина в трез
представлениях и фазовая картина). Возможности программы: 3 режима работы (пост режим, режим
реального времени, режим записи), основной инструментарий – осциллограф, спектрометр
(двухмерный, трехмерный, а также построитель сонограмм) и фазометр, возможность сравнения
амплитудно-частотных характеристик нескольких сигналов, широкие возможности масштабирования,
измерительные инструменты: нелинейных искажений, отношения сигнал/шум, искажений и прочие.
Скриншот 6

Специализированные реставраторы аудио играют также немаловажную роль в обработке звука.


Такие программы позволяют восстановить утерянное качество звучания аудио материала, удалить
нежелательные щелчки, шумы, треск, специфические помехи записей с аудио-кассет, и провести
другую корректировку аудио. Программы подобного рода: Dart, Clean (от Steinberg Inc.), Audio
Cleaning Lab. (от Magix Ent.), Wave Corrector.

Основные возможности реставратора Clean 3.0 (см. Скриншот 8 – рабочее окно программы):
устранение всевозможных потрескиваний и шумов, режим автокоррекции, набор эффектов для
обработки скорректированного звука, включая функцию «surround sound» с наглядным акустическим
моделированием эффекта, запись CD с подготовленными данными, «интеллигентная» система
подсказок, поддержка внешних VST плаг-инов и другие возможности.

Скриншот 8

Трекеры – это отдельная категория звуковых программ, предназначенных именно для создания
музыки. Ранее мы рассмотрели два принципиально отличных способа хранения звуковых данных
(музыки): первый - хранение звука в виде сжатого или несжатого потока аудио, второй - хранение
музыки в виде MIDI-файлов (в виде набора команд MIDI-синтезатору). Структура и концепция
построения трекерных файлов очень похожа на принцип хранения MIDI-информации. В трекерных
модулях (файлы, созданные в трекерах, принято называть модулями), также, как и в MIDI-файлах,
содержится партитура в соответствии с которой должны проигрываться инструменты. Кроме того, в
них содержится информация о том, какие эффекты и в какой момент времени должны быть
применены при проигрывании того или иного инструмента. Однако, принципиальное отличие
трекерных модулей от MIDI-файлов заключается в том, что проигрываемые в этих модулях
инструменты (или, точнее сказать, сэмплы) хранятся в самих модулях (то есть внутри файлов), а не
в синтезаторе (как это происходит в случае с MIDI). Такой способ хранения музыки имеет массу
преимуществ: размер файлов невелик по сравнению с непрерывной оцифрованной музыкой
(поскольку записываются только использованные инструменты и партитура в виде команд), нет
зависимости звучания от компьютера, на котором происходит воспроизведение (в MIDI, как мы
говорили, есть зависимость звучания от используемого синтезатора), имеется большая свобода
творчества, поскольку автор музыки не ограничен наборов инструментов (как в MIDI), а может
использовать в качестве инструмента любой оцифрованный звук. Основные программы-трекеры
Scream Tracker, Fast Tracker, Impulse Tracker, OctaMED SoundStudio, MAD Tracker, ModPlug Tracker.

Программа ModPlug Tracker является сегодня одним из тех трекеров, сумевших стать универсальной
рабочей средой для множества типов трекерных модулей (см. Скриншот 7 – пример рабочего окна
программы, на экране: содержание дорожек одного загруженного модуля и рабочее окно сэмплов
другого модуля). Основные возможности: поддержка до 64 физических каналов аудио, поддержка
почти всех существующих форматов трекерных модулей, импорт инструментов во множестве
форматов, 32-битное внутреннее микширование, высококачественный ресэплирующий фильтр,
поддержка MMX/3dNow!/SSE, автоматическое удаление потрескиваний, расширение басов,
ревербератор, расширение стерео, 6-полосный графический эквалайзер и другие возможности.

Скриншот 7

На последок следует упомянуть о существовании огромного количества другого аудио ПО:


проигрыватели аудио (наиболее выдающиеся: WinAMP, Sonique, Apollo, XMPlay, Cubic Player),
подключаемые модули для проигрывателей (из «улучшателей» звучания аудио - DFX, Enhancer,
iZotop Ozone), утилиты для копирования информации с аудио CD (ExactAudioCopy, CDex,
AudioGrabber), перехватчики аудио потоков (Total Recorder, AudioTools), кодеры аудио (кодеры MP3:
Lame encoder, Blade Encoderб Go-Go и другие; кодеры VQF: TwinVQ encoder, Yamaha SoundVQ, NTT
TwinVQ; кодеры AAC: FAAC, PsyTel AAC, Quartex AAC), конвертеры аудио (для перевода аудио
информации из одного формата в другой), генераторы речи и множество других специфических и
общих утилит. Безусловно, все перечисленное – только малая толика из того, что может пригодиться
при работе со звуком.
8. Перспективы и проблематика
Перспективы развития и использования цифрового аудио видятся авторам статьи очень широкими.
Казалось бы, все, что можно было сделать в этой области, уже сделано. Однако это не так. Остается
масса еще совсем незатронутых проблем.

Например, область распознавания речи еще очень не развита. Давно уже делались и делаются
попытки создать программное обеспечение, способное качественно распознавать речь человека,
однако все они пока не приводят к желаемому результату. А ведь долгожданный прорыв в этой
области мог бы неимоверно упростить ввод информации в компьютер. Только представьте себе, что
вместо набора текста его можно было бы просто надиктовывать, попивая кофе где-нибудь
неподалеку от компьютера. Имеется множество программ якобы способных предоставить такую
возможность, однако все они не универсальны и сбиваются при незначительном отклонении голоса
читающего от заданного тона. Такая работа приносит не столько удобств, сколько огорчений. Еще
куда более сложной задачей (вполне возможно, что и неразрешимой вовсе) является распознавание
общих звуков, например, звучания скрипки в звуках оркестра или выделение партии рояля. Можно
надеяться, что когда-нибудь такое станет возможным, ведь человеческий мозг легко справляется с
такими задачами, однако сегодня говорить о хотя бы малейших сдвигах в этой области рано.

В области синтеза звука также есть пространство для изучения. Способов синтеза звука сегодня
существует несколько, однако ни один из них не дает возможности синтезировать звук, который
нельзя было бы отличить от настоящего. Если, скажем, звуки рояля или тромбона еще более-менее
поддаются реализации, до правдоподобного звучания саксофона или электрогитары добиться еще
так и не смогли – существует масса нюансов звучания, которые почти невозможно воссоздать
искусственно.

Таким образом, можно смело сказать, что в области обработки, создания и синтеза звука и музыки
еще очень далеко до того решающего слова, которое поставит точку на развитии этой отрасли
человеческой деятельности.

Глоссарий терминов
1) DSP – Digital Signal Processor (цифровой сигнальный процессор). Устройство (или программный
механизм) предназначенное для цифровой обработки сигналов.

2) Битрейт – применительно к потокам данных - количество бит в секунду (bits per second).
Применительно в звуковым файлам (например, после lossy-кодирования) – каким количеством бит
описывается одна секунда аудио.

3) Звук - акустическая волна, распространяющаяся в пространстве; в каждой точке пространства


может быть представлена функцией амплитуды от времени.

4) Интерфейс - совокупность программных и аппаратных средств, предназначенных для


организации взаимодействия различных устройств.

5) Интерполяция - отыскание промежуточных значений величины по некоторым известным ее


значениям; отыскание значений функции f(x) в точках x, лежащих между точками xo<x1<... <xn, по
известным значениям yi = f(xi) (где i = 0,1, ..., n).

6) Кодек – программа либо устройство, предназначенное для кодирования и/или декодирования


данных.

7) Ресэмплинг (re-sampling) – изменение частоты дискретизации оцифрованных аудио данных.

8) Сонограмма – график, способ представления спектра сигнала, когда по оси абсцисс


откладывается время, по оси ординат частота, а амплитуды гармонических составляющих на
соответствующих частотах отражает насыщенность цвета на пересечении временной и частотной
координат.

9) Формат файла (звукового) - структура данных в файле.


В предыдущих выпусках журнала я немного рассказал о компьютерных звуковых картах и
программном обеспечении для работы со звуковым и музыкальным материалом. Однако это было
рассчитано на читателей, так или иначе знакомых с цифровым звуком вообще и его компьютерным
приложением в частности; у большинства потенциальных пользователей этих технологий возникли,
скорее всего, закономерные вопросы вроде: "Частота дискретизации 44 кГц - это много или мало?",
"Чем компьютерный WT-синтезатор отличается от обычного клавишного?", "Можно ли компьютерной
картой заменить профессиональную студию?" и т.п. Поэтому сейчас я решил сделать "шаг назад" и
поговорить о принципах и свойствах цифрового звука и об использовании его в компьютерных
системах.

Прежде всего, сам принцип представления звука в цифровой форме предполагает уничтожение
какой-то части информации в нем. Исходная, непрерывная кривая, описывающая амплитуду
звуковой волны, подвергается дискретизации - разбиению на отдельные интервалы (отсчеты),
внутри которых амплитуда считается постоянной; таким образом фиксируются временные
характеристики волны. Затем эти мгновенные значения амплитуды еще раз разбиваются на
конечное число значений - теперь уже по самой величине амплитуды - и выбирается наиболее
близкое из этих дискретных значений; так фиксируются амплитудные характеристики. Если говорить
по отношению к графику (осциллограмме) звуковой волны, то можно сказать, что на него
накладывается некая сетка - крупная или мелкая, которая определяет точность преобразования
волны в цифровую форму.

Мелкость временной сетки - частота дискретизации - определяет прежде всего частотный диапазон
преобразуемого звука. В идеальных условиях для передачи сигнала с верхней частотой F
достаточно частоты дискретизации 2F, в реальных же, приходится выбирать некоторый запас.
Точность же представления самих значений амплитуды - разрядность отсчетов - определяет в
первую очередь уровень шумов и искажений, вносимых при преобразовании. Естественно - снова
для идеального случая, поскольку шумы и искажения вносятся и другими участками схемы.

В начале 80-х, когда разрабатывалась система "компакт-диск", ориентированная для бытового


применения, по результатам экспертных оценок была выбрана частота дискретизации 44.1 кГц и
разрядность отсчета 16 бит (65536 фиксированных уровней амплитуды). Этих параметров
достаточно для точной передачи сигналов с частотой до 22 кГц, в которые вносится дополнительный
шум на уровне примерно -96 дБ. На уровне бытовой аппаратуры конца 70-х эти параметры
выглядели довольно заманчиво - тем более, что акустических систем, способных более-менее точно
передать звук с такими параметрами, тогда практически не существовало. В студийной работе
использовалась та же разрядность отсчета при частоте дискретизации 48 кГц, что в то время
считалось вполне достаточным.

За прошедшее время ситуация сильно изменилась - значительно возросло качество передачи звука
в студийных и бытовых системах, снова вошли в моду ламповые усилители и схемы, когда-то
признанные неэффективными, но вносящие в звук меньше искажений, чем новые, и многие стали
жаловаться на характерный "цифровой" призвук в музыке на компакт-дисках, причиной которого
явилась недостаточные разрядность отсчетов и прежде всего - частота дискретизации. Дело в том,
что при оцифровке сигнала с частотой дискретизации F необходимо полностью удалить все его
составляющие с частотами выше F/2. Обычные аналоговые проигрыватели и усилители, для
которых гарантировалась передача диапазона до 20 кГц, на самом деле не вырезали из сигнала
более высоких частотных составляющих - их амплитуда просто постепенно спадала, и у
качественных аппаратов этот спад был более пологим, а звук - более естественным и прозрачным.
Однако при глубоком подавлении высших частот - даже тех, что неслышимы сами по себе - общая
звуковая картина меняется достаточно заметно для хорошей аппаратуры и тренированного слуха.
Таким образом, весьма высокие еще для начала 90-х параметры цифрового звука "16 бит/44.1 кГц"
сейчас могут считаться лишь минимально допустимыми для понятий "качественный звук" и "Hi-Fi". В
студийной работе происходит переход на стандарт "24 бита/96 кГц", который по теоретически
достижимому качеству пока заметно перекрывает возможности существующих звуковых систем.
Внутри стандарта "компакт-диск", ограниченного своими 16 разрядами и 44.1 кГц частоты
дискретизации, используется преобразование цифрового звука под большую частоту дискретизации
и разрядность с последующей интерполяцией промежуточных значений. Само по себе это не
улучшает качества звука, однако позволяет заметно снизить погрешности, возникающие из-за
неидеальности ЦАП, фильтров и прочих элементов тракта.

В обычной же компьютерной звуковой карте уже при простых записи-воспроизведении трудно


достичь даже качества хорошего проигрывателя компакт-дисков, не говоря уже о том, чтобы
полностью "вычерпать" потенциальные характеристики внедряемых сейчас более высоких частот и
разрядностей. Происходит это потому, что компьютерная карта во многом является зависимым
устройством, получая питание от источника компьютера и находясь под влиянием разнообразных
помех и наводок от прочих компьютерных компонент. Подавляющее большинство карт имеют
совмещенные на одном кристалле ЦАП и АЦП, что снижает их помехозащищенность. Более
"грамотное" проектирование звуковой карты - введение корректирующих и помехоподавляющих
цепей, стабилизации питания, вынос чувствительных компонент за пределы компьютера - сразу же
резко увеличивает ее стоимость, что снижает объемы продаж и еще более поднимает продажную
цену, которая уже начинает приближаться к цене младших моделей студийных аппаратов. Покупка
"фирменных" компьютеров со сниженным уровнем помех также плачевно сказывается на общей
выгоде. Примерно такая же картина складывается с параметрами компьютерных WT-синтезаторов: к
недостаткам собственно в качестве звука добавляется ограниченность тех или иных возможностей,
которые в автономных профессиональных аппаратах представлены более полно. Нередко богатые
аппаратные возможности синтезатора не поддерживаются должным образом его программным
обеспечением, а для пользователя-музыканта это равнозначно их отсутствию. Чрезвычайно скудна
документация, часто не освещающая до конца всех возможностей - особенно в сравнении с пухлыми
томами описаний профессиональных инструментов.

Таким образом, возникает парадокс: главное преимущество компьютерных карт - их сравнительно


низкая стоимость по отношению к возможностям - с лихвой компенсируется явно недостаточными по
сегодняшним меркам качеством звука, аппаратных возможностей по его обработке, уровнем
программного обеспечения. К тому же многие серьезные производители - Roland, Ensoniq, Yamaha -
вполне умышленно ограничивают качество и возможности выпускаемых ими компьютерных карт по
сравнению с самостоятельными изделиями. Поэтому у пользователей - прежде всего музыкантов -
возникает справедливый вопрос: оправдывает ли себя идея использования компьютера, или же в
ней больше от рекламных трюков на популярном нынче направлении?

Ответ прост: в современном процессе работы со звуком и музыкой без компьютера не обойтись -
кроме известных направлений чисто акустической музыки, исполняемой "живьем". Другое дело -
нужно правильно определить место компьютера в этом процессе. Было бы неверно полагать, что
можно полностью заменить профессиональную студию с кучей серьезной и дорогой аппаратуры и
звукоинженеров одним недорогим бытовым компьютером с недорогой же звуковой картой. Однако с
их помощью можно начать делать то, что традиционно делалось только в "серьезных" студийных
условиях - у себя дома или в небольшой любительской студии. Можно изучить и освоить
возможности синтезатора, эффект-процессора, приемы воздействия на звук для получения
желаемой его динамики и окраски, научиться записывать, создавать и использовать собственные
звучания, подготавливать и сводить фонограммы. Для любителя и даже профессионала, не
требующего сверхвысокого качества звука, даже этого может оказаться вполне достаточно, а
остальные довольно скоро почувствуют ограниченность простой конфигурации - и весьма легко
смогут заменить ее на более сложную и качественную, причем чаще всего - с гораздо меньшими
потерями, чем при работе только с самостоятельными аппаратами. Вначале это может быть замена
на более серьезную и качественную звуковую карту, затем - на автономные устройства с
компьютерным управлением. Важно то, что при помощи компьютера нужным с программным
обеспечением можно "выжать досуха" практически любой аппарат, для управления которым с его
собственной панели просто-напросто не хватает рук.

Кроме этого, многие профессиональные музыканты пользуются компьютерными картами для


создания так называемых "домашних заготовок" - как и многие писатели, архитекторы или
модельеры. В условиях дороговизны аренды студийного времени нередко оказывается более
выгодным спокойно подготовить дома "черновик", не обращая особого внимания на несоответствие
уровня шумов, прозрачность звука и натуральности имитации традиционных инструментов
студийным канонам, а затем уже принести его в студию, где опытные специалисты быстро подберут
аналогичные режимы работы "серьезной" аппаратуры, которая исполнит то же самое с "настоящим
студийным качеством". Такой подход позволяет наиболее оптимально организовать разделение
труда, оставив музыканту работу собственно над музыкой, а звукоинженеру - над ее сведением и
записью.

Мне часто приходится консультировать музыкантов и звукорежиссеров - как любителей, так и


профессионалов - в вопросах применения компьютеров в их работе. И нередко приходится
сталкиваться и с непонятным желанием получить все "в одном флаконе", соединив принципиально
несовместимые требования, и с разочарованием от того, что не получится, купив недорогой
компьютер, сразу же приступить к выпуску у себя дома компакт-дисков мирового класса. Однако мне
еще не приходилось видеть человека, который, хотя бы наполовину разобравшись в звуковых
возможностях компьютера, после этого смог бы отказаться от его использования. В этом и состоит
правильный подход: не заменить одним инструментом все остальные, а применить его там, где ему
самое место - только в этом случае достигается наибольший эффект от вложения и средств, и
усилий, и времени.

Б иты, герцы... Что скрывается за этими понятиями? При разработке стандарта аудио компакт

дисков были приняты значения 44 кГц, 16 бит. Почему именно столько? В чем причина выбора, а
также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже
до 32х битов...

Разберемся сначала с разрешением сэмплирования - то есть с битностью. Так уж получается, что


выбирать приходится между числами 16, 24 и 32. Промежуточные значения были бы, конечно,
удобнее в смысле звука, но слишком неприятны для использования в цифровой технике.

За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно
воспроизводимых громкостей - от максимальной амплитуды (0 дБ) до той наименьшей, которую
позволяет передать разрешение, например - примерно -93 дБ для 16 битного аудио. Как не странно,
это сильно связано с уровнем шумов фонограммы. В принципе, для, к примеру, 16 битного аудио
вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет
затруднительно применять на практике из-за такого фундаментального понятия как шум
дискретизации. Дело в том, что при взятии цифровых значений мы все время ошибаемся, округляя
реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная
ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее
термин младший бит будет сокращаться до МБ). Эта ошибка дает нам так называемый шум
дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит
постоянный характер и имеет максимальную амплитуду равную 0.5МБ. Это можно рассматривать как
случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или
квантования.

Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах.
Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует
всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое
значение будет в два раза меньше, что соответствует потере уровня на 6 дБ. Никакими другими
битами кроме СБ нельзя добиться уровня выше -6 дБ. Соответственно - старший бит как бы
отвечает за наличие уровня сигнала от -6 до 0 дБ, поэтому СБ - это бит 0 дБ. Предыдущий бит
отвечает за уровень -6 дБ, ну а самый младший, таким образом - за уровень (число_бит-1) * 6 дБ. В
случае 16 битного звука, МБ соответствует уровень в -90 дБ. Когда мы говорим 0.5МБ, мы имеем в
виду не -90/2, а половину шага до следующего бита - то есть еще на 3 дБ ниже, -93 дБ.

Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на
уровне 0.5МБ, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на -93 дБ.
Она может передавать сигналы и тише, но шум все равно остается на уровне -93 дБ. По этому
признаку и определяется динамический диапазон цифрового звука - там, где соотношение
сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница
этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем
себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько
шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем
шумов -80 дБ - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной
стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80
дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и
оцифровывать и предавать такой сигнал просто не нужно.

Теоретически это единственный критерий выбора разрешения оцифровки. Больше мы не вносим


совершенно никаких искажений или неточностей. Практика, как не странно, почти полностью
повторяет теорию. Этим и руководствовались те люди, которые выбирали разрешение 16 бит для
аудио компакт дисков. Шум -93 дБ - довольно хорошее условие, которое почти точно соответствует
условиям нашего восприятия: разница между болевым порогом (140 дБ) и обычным шумовым фоном
в городе (30-50 дБ) составляет как раз около сотни дБ, и если учесть, что на уровне громкости,
приносящем боль, музыку не слушают - что еще несколько сужает диапазон - получается, что
реальные шумы помещения или даже аппаратуры получаются гораздо сильнее шумов
дискретизации. Если мы можем расслышать уровень под -90 дБ в цифровой записи - мы услышим и
воспримем шумы дискретизации, иначе - мы просто никогда не определим, оцифрованное это аудио
или живое. Никакой другой разницы в смысле динамического диапазона просто нет. Но в принципе,
человек может осмысленно слышать в диапазоне 120 дБ, и было бы неплохо сохранить весь этот
диапазон, с чем 16 бит, казалось бы, не справляются.

Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering,
можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область
более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих
высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В
сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких
частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно
бесшумную передачу полезных сигналов дополнительно еще на 10-20 дБ тише, чем -93 дБ - таким
образом, динамический диапазон 16 битного звука для человека составляет около 110 дБ. Да и
вообще - одновременно человек просто не может слышать звуки на 110 дБ тише чем только что
услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей
действительности, поэтому одновременный диапазон нашего слуха составляет и совсем
сравнительно мало - около 80 дБ. Поговорим о dithring-е подробнее после обсуждения частотных
аспектов.

Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение, что это означает, что
воспроизводятся все частоты до 22.05 кГц, однако это не совсем так. Однозначно можно сказать
лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина
воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не настолько
идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАПа.

Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой)
может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и
ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как
раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой
резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что
на этом основано действие охранных устройств - несколько минут очень громкого звука высокой
частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно
невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация,
исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек
акустически почти не определяет пространственное положение настолько низких звуков, поэтому в
ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.

Для передачи звука как он есть было бы неплохо сохранить весь хоть как либо воспринимаемый
диапазон от 10 Гц до 20 кГц. С низкими частотами в теории в цифровой записи проблем совершенно
никаких нет. На практике же - все ЦАПы, работающие по дельта-технологии, имеют потенциальный
источник проблем. Таких устройств сейчас 99%, поэтому проблема так или иначе имеет место быть,
хотя откровенно плохих устройств почти нет (лишь самые дешевые схемы). Можно считать, что с
низким частотами все обстоит благополучно - в конце концов, это лишь вполне решаемая проблема
воспроизведения, с которой успешно справляются хорошо сконструированные ЦАПы ценой более
$1.
С высокими частотами все немного хуже, по крайней мере точно сложнее. Почти вся суть
усовершенствований и усложнений ЦАПов и АЦП направлена как раз на более достоверную
передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой
дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше. Поясняющий рисунок:

На рисунке изображена частота 14 кГц, оцифрованная с частотой дискретизации 44.1 кГц. Точками
обозначены моменты взятия амплитуды сигнала. Видно, что на один период синусоиды приходится
около трех точек, и чтобы восстановить исходную частоту в виде синусоиды, надо проявить
некоторую фантазию. Саму синусоиду рисовала программа CoolEdit, она и проявляла фантазию -
восстанавливала данные. Аналогичный процесс происходит и в ЦАПе, этим занимается
восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти
готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит
целиком на совести восстанавливающей системы ЦАПа. В CoolEdit очень хороший
восстанавливающий фильтр, но и он не справляется в экстремальном случае - например, частота 21
кГц:
Видно, что форма колебаний (синие линии) далека от правильной, да и свойства появились, которых
ранее не было. Это и составляет основную проблему при воспроизведении высоких частот.
Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется
технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в
несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый
сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот
перекладывается на плечи цифровых фильтров, которые могут быть очень качественными.
Настолько качественными, что в случае дорогих устройств проблема полностью снимается -
обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование
применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать
решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600,
обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц,
сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных
музыкальных применений, а если кому-то нужно большее качество - он найдет его в
профессионального класса устройствах, которые не то чтобы сильно дороже - просто они сделаны с
умом.

Вернемся к dithering-у - посмотрим, как можно с пользой увеличить динамический диапазон за


пределы 16 бит.

Идея dithering-а заключается в том, чтобы подмешать в сигнал шум. Как не странно это звучит - для
того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум.
Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в
65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно
считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Изображение показывает 32х
битый звук - музыка, записанная на таком тихом уровне, что самые громкие моменты достигают
лишь -110 дБ:
Это с запасом гораздо тише динамического диапазона 16 битного звука (1МБ 16 битного
представления равняется единице по шкале справа), поэтому если просто округлить данные до 16
бит - мы получим полную цифровую тишину.

Добавим в сигнал белый шум с уровнем в 1МБ - это -90 дБ (примерно соответствующий по уровню
шумам квантования):

Преобразуем в 16 бит (возможны только целые значения - 0, 1, -1, ...):


(Не обращайте внимание на синюю линию, которая принимает и промежуточные значения - это
фильтр CoolEdit моделирует реальную амплитуду после восстанавливающего фильтра. Точки же
взятия амплитуд расположены только на значениях 0 и 1)

Как видно, какие-то данные остались. Там, где исходный сигнал имел больший уровень, больше
значений 1, где меньший - нулей. Чтобы услышать то, что мы получили, усилим сигнал на 14 бит (на
78 дБ). Результат можно скачать и послушать (dithwht.zip, 183 кб).

Мы слышим этот звук с огромными помехами в -90 дБ (до усиления для прослушивания), тогда как
полезный сигнал составляет всего -110 дБ. Мы уже имеем передачу звука с уровнем -110 дБ в 16
битах. В принципе, это и есть стандартный способ расширения динамического диапазона,
получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно
бессмысленно - уровень шумов дискретизации так и остается на прежнем уровне, а передавать
сигнал слабее шума - занятие не очень понятное с точки зрения логики...

Более сложный способ - shaped dithering. Идея в том, что раз мы все равно не слышим высоких
частот в очень тихих звуках, значит следует основную мощность шума направить в эти частоты, при
этом можно даже воспользоваться большим шумом - я воспользуюсь уровнем в 4МБ (это два бита
шума). Усиленный результат после фильтрации высоких частот (мы не услышали бы их в
нормальной громкости этого звука) - ditshpfl.zip, 1023 кб (к сожалению, звук перестал
архивироваться). Это уже вполне хорошая (для запредельно низкой громкости) передача звука,
шумы примерно равняются по мощности самому звуку с уровнем -110 дБ! Важное замечание: мы
повысили реальные шумы дискретизации с 0.5МБ (-93 дБ) до 4МБ (-84 дБ), понизив слышимые
шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось, но шум
ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение
реального (воспринимаемого человеком) отношения сигнал/шум. Практически это уже уровень
шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для
шума. 44.1 кГц звук дает возможность размещать шум в неслышимых на тихой громкости частотах
10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая
человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально
превращаются и во все 24.

[На заметку: PC Speaker - однобитное устройство, с однако довольно высокой


максимальной частотой дискретизации (включения/выключения этого
единственного бита). С помощью процесса, сходного по сути с dithering-ом,
называемым скорее широтно-импульсная модуляция, на нем игрался довольно
качественный цифровой звук - из одного бита и высокой частоты дискретизации
вытягивались 5-8 бит низкой частоты, а фильтром высокочастотного шума
выступала неспособность аппаратуры воспроизводить столь высокие частоты, как
впрочем и наша неспособность их слышать. Легкий высокочастотный свист, однако
- слышимая часть этого шума - был слышен.]

Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы
дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный)
динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при
переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering -
наши 16 бит совершенно достаточны для полной передачи звуковой картины.

Единственное что - эта технология действует только на последней стадии - подготовке материала к
воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х
битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты
обратно в 16 бит. Но если уровень шума фонограммы составляет более -60 дБ - можно без
малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит
отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и
поэтому совершенно безразличен.

Q: Почему говорят, что 32-х битный звук качественнее 16 битного?


A1: Ошибаются.
A2: [Имеют в виду немного другое: при обработке или записи звука нужно использовать большее
разрешение. Этим пользуются всегда. Но в звуке как в готовой продукции разрешение более 16
бит не требуется.]

Q: Имеет ли смысл увеличивать частоту дискретизации (например до 48 кГц или до 96)?


A1: Не имеет. При хоть сколь грамотном подходе в конструировании ЦАП 44 кГц передают весь
необходимый частотный диапазон.
A2: [Имеют в виду немного другое: это имеет смысл, но лишь при обработке или записи звука.]

Q: Почему всё же идет внедрение больших частот и битности?


A1: Прогрессу важно двигаться. Куда и зачем - уже не столь важно...
A2: Многие процессы в этом случае происходят легче. Если, например, устройство собирается
обработать звук - ему будет легче это сделать в 96 кГц / 32 бита. Почти все DSP используют 32
бита для обработки звука, и возможность забыть про преобразования - облегчение разработки и
всё же небольшое увеличение качества. Да и вообще - звук для дальнейшей обработки имеет
смысл хранить в большем разрешении, нежели 16 бит. Для hi-end устройств которые лишь
воспроизводят звук это абсолютно безразлично.

Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет. Качество преобразования нисколько не зависит от битности. В AC'97
кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500,
звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно
никакого значения для воспроизведения 16 битного звука.
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит,
чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ,
что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от
'лишних' 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме.
Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто
реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.

Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной
разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы,
или просто быть достаточной для достижения желаемо низкого уровня шума.
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный
динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны
всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти
полностью бессмысленнен, так как младший десяток бит будут просто непрерывно шуметь -
настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.
Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD,
лучшего качества - не стоит. 16 бит / 44 кГц, доведенные до предела с помощью shaped dithering,
вполне способны полностью передать интересующую нас информацию, если дело не идет о
процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как
не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном
подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто
не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных
данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их
использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и
других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким
будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько
раз больших аудио данных?...

В предыдущей статье я рассказал о программных средствах устранения шума и искажений

звука, в том числе перечислил те операции по "звукочистке", которые необходимо проделать с


записью песни, начиная с исправления ошибок в установке микрофона и завершая мастерингом,
выполненным так, чтобы группа композиций, записанная на диск, с эстетической точки зрения
представляла собой единое целое. Данная тема настолько серьезна, что ей стоит посвятить
несколько ближайших статей.

Начну, как и в прошлый раз, с основного тезиса: звук, записанный любителем в условиях домашней
компьютерной студии, хотя, конечно, и не сравнится по качеству с результатами работы
профессиональных студий, но может быть приближен к ним.

Пишу, а краем уха слушаю, что там бубнит телевизор. Вот фильм, отрекомендованный в анонсе, как
"суперпроект". Царь Петр при смерти, борьба за престол. Страсти бушуют... По другим каналам
следователь Турецкий отыскивает похищенные раритетные фолианты, знатоки тряхнули стариной и
снова ведут свое следствие, потому что, оказывается, все еще "кто-то кое-где у нас порой честно
жить не хочет"… Такие разные истории, но что-то общее в них есть. Это общее - звук. Плохой звук.
Ужасный звук, записанный профессионалами в профессиональных студиях. Особенно в
"суперпроекте": когда на мгновения стихают стоны умирающего царя и крики приближенных,
отчетливо проступают фоновые звуки, даже становится слышно, как работают лентопротяжные
механизмы камер.

Напрашиваются такие выводы:

1. Ясно, что в нашей стране фильмы давно уже не переозвучивают в звуковой студии. Наверное,
денег на это нет. Каким записан звук на съемочной площадке, таким и идет в смонтированную ленту.

2. Некоторые профессионалы не применяют средства компьютерного шумоподавления. Не очень


понятно, почему. Не знают о них? Некогда почитать специальную литературу? Но и элементарных
сведений, что содержатся на пяти страницах моей предыдущей статьи, для начала хватило бы.

3. Некоторые из тех людей, кто занимаются записью звука для телефильмов, не умеют применять
приборы динамической обработки.

Как раз о динамической обработке мы сейчас поговорим. Тема эта сложная, но если вы
сосредоточитесь, то обязательно все поймете, и звук в ваших проектах станет профессиональным.
Ну не профессиональным, а любительским, но таким, что все им заслушаются. Сомневающимся
предлагаю оценить работы читателей, записанные на диске, который сопровождает новую книгу
"Sonar. Секреты мастерства". Кстати, ничто не мешает вам попробовать свои силы. В музыкальном
сборнике на следующем подобном диске вполне может оказаться и ваша композиция.

Итак, динамическая обработка. Формально она заключается в изменении динамического диапазона


аудиосигналов. Но для применения ее во благо качеству звука этой фразы явно недостаточно.
Поэтому начнем с начала.
Уровень и динамический диапазон звукового сигнала
Источник звуковых колебаний излучает в окружающее пространство энергию. Количество звуковой
энергии, проходящей за секунду через площадь в 1 м2, расположенную перпендикулярно
направлению распространения звуковых колебаний, называют интенсивностью (силой) звука.

Когда мы ведем обычный разговор, мощность потока энергии приблизительно равен 10 мкВт.
Мощность самых громких звуков скрипки может составлять 60 мкВт, а мощность звуков органа - от
140 до 3200 мкВт.

Человек слышит звук в чрезвычайно широком диапазоне звуковых давлений (интенсивностей).


Одной из опорных величин этого диапазона является стандартный порог слышимости - эффективное
значение звукового давления, создаваемого гармоническим звуковым колебанием частоты 1000 Гц,
едва слышимым человеком со средней чувствительностью слуха.

Порогу слышимости соответствует интенсивность звука Iзв0 = 10-12 Вт/м2 или звуковое давление
pзв0 = 2Ч10-5 Па.

Верхний предел определяется значениями Iзв. макс. = 1 Вт/м2 или pзв. макс. = 20 Па. При
восприятии звука такой интенсивности у человека появляются болевые ощущения.

В области звуковых давлений, существенно превышающих стандартный порог слышимости,


величина ощущения пропорциональна не амплитуде звукового давления pзв, а логарифму
отношения pзв/pзв0. Поэтому звуковое давление и интенсивность звука часто оценивают в
логарифмических единицах децибелах (дБ) по отношению к стандартному порогу слышимости.

Диапазон изменения звуковых давлений от абсолютного порога слышимости до болевого порога


составляет для разных частот от 90 дБ до 130 дБ.

Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то
более громкий звук заглушает (поглощает) слабые звуки. Происходит так называемая маскировка
звуков, и ухо воспринимает только один, более громкий, звук. Сразу после воздействия на ухо
громкого звука снижается восприимчивость слуха к слабым звукам. Эта способность называется
адаптацией слуха.

Таким образом, порог слышимости в значительной степени зависит от условий прослушивания: в


тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог
слышимости повышается. Это свидетельствует о том, что помеха маскирует полезный сигнал.

Слуховой аппарат человека обладает определенной инерционностью: ощущение возникновения


звука, а также его прекращения появляется не сразу.

Аудиосигнал является случайным процессом. Его акустические или электрические характеристики


непрерывно изменяются во времени. Пытаться отследить случайные изменения реализаций этого
хаоса - занятие, имеющее не много смысла. Обуздать его величество случай, придать ему черты
детерминированности можно, используя усредненные параметры, такие, как уровень аудиосигнала.

Уровень аудиосигнала характеризует сигнал в определенный момент и представляет собой


выраженное в децибелах выпрямленное и усредненное за некоторый предшествующий промежуток
времени напряжение аудиосигнала.

Под динамическим диапазоном аудиосигнала понимают отношение максимального звукового


давления к минимальному или отношение соответствующих напряжений. В таком определении нет
сведений о том, какое давление и напряжение считается максимальным и минимальным. Наверное,
поэтому определенный таким образом динамический диапазон сигнала, называется теоретическим.
Наряду с этим динамический диапазон аудиосигнала можно определить и экспериментально как
разность максимального и минимального уровней для достаточно длительного периода. Это
значение существенно зависит от выбранного времени измерения и типа измерителя уровней.

Динамические диапазоны музыкальных и речевых акустических сигналов разных типов, измеренные


с помощью приборов, составляют в среднем:
- 80 дБ для симфонического оркестра

- 45 дБ для хора

- 35 дБ для эстрадной музыки и солистов-вокалистов

- 25 дБ для речи дикторов

При записи уровни необходимо регулировать. Объясняется это тем, что исходные (необработанные)
сигналы зачастую имеют большой динамический диапазон (например, до 80 дБ у симфонической
музыки), а в домашних условиях аудиопрограммы прослушиваются в диапазоне порядка 40 дБ.

Ручной регулировке уровней присущ недостаток. Время реакции звукорежиссера составляет около 2
с даже если партитура композиции ему заранее известна. Это приводит к погрешности в
поддержании максимальных уровней музыкальных программ до 4 дБ в обе стороны.

Усилители, акустические системы да и уши человека нужно защищать от перегрузок, вызванных


резкими скачкообразными изменениями амплитуды аудиосигнала - ограничивать сигнал по
амплитуде.

Динамический диапазон сигнала нужно согласовывать с динамическими диапазонами устройств


записи, усиления, передачи.

Для увеличения дальности действия FM радиостанций динамический диапазон аудиосигнала нужно


сжимать. Для снижения уровня шума в паузах динамический диапазон желательно увеличивать.

В конце концов, мода, диктующая свои условия во всех сферах человеческой деятельности, в том
числе и в звукозаписи, требует насыщенного, плотного звучания современной музыки, которое
достигается резким сужением ее динамического диапазона.

Звуковая волна (огибающая громкости) фрагмента оперы С. Рахманинова "Алеко",

и современной танцевальной музыки.


В классической музыке важны нюансы, танцевальная музыка должна быть "сильнодействующей".

Этим диктуется необходимость в применении устройств автоматической обработки уровней


сигналов.

Устройства динамической обработки


Устройства автоматической обработки уровней сигналов можно классифицировать по ряду
критериев, наиболее важные среди них: инерционность срабатывания и выполняемая функция.

По критерию инерционности срабатывания различают безинерционные (мгновенного действия) и


инерционные (с изменяющимся коэффициентом передачи) авторегуляторы уровня:

Когда на входе безинерционного авторегулятора уровень сигнала превышает номинальное


значение, на выходе вместо синусоидального сигнала получается трапецевидный. Хотя
безинерционные авторегуляторы просты, их применение приводит к сильным искажениям.

Инерционным называется такой авторегулятор уровня, у которого коэффициент передачи


автоматически изменяется в зависимости от уровня сигнала на входе. Эти авторегуляторы уровня
искажают форму сигналов только в течение незначительного интервала времени. Подбором
оптимального времени срабатывания такие искажения можно сделать малоощутимыми на слух.

В зависимости от выполняемых функций инерционные авторегуляторы уровня подразделяют на:

• Ограничители квазимаксимальнных уровней


• Автостабилизаторы уровня
• Компрессоры динамического диапазона
• Экспандеры динамического диапазона
• Компандерные шумоподавители
• Пороговые шумоподавители (гейты)
• Устройства со сложным преобразованием динамического диапазона

Основной характеристикой устройства динамической обработки служит амплитудная характеристика


- зависимость уровня выходного сигнала от уровня сигнала на входе.
Ограничитель уровня (лимитер) - это авторегулятор, у которого коэффициент передачи изменяется
так, что при превышении номинального уровня входным сигналом уровни сигналов на его выходе
остаются практически постоянными, близкими к номинальному значению. При входных сигналах, не
превышающих номинального значения, ограничитель уровня работает как обычный линейный
усилитель. Лимитер должен реагировать на изменение уровня мгновенно.

Амплитудная характеристика лимитера

Автостабилизатор уровня предназначен для стабилизации уровней сигналов. Это бывает


необходимо для выравнивания громкости звучания отдельных фрагментов фонограммы. Принцип
действия автостабилизатора аналогичен принципу действия ограничителя. Отличие заключается в
том, что номинальное выходное напряжения автостабилизатора приблизительно на 5 дБ меньше
номинального выходного уровня ограничителя.

Компрессор - такое устройство, коэффициент передачи которого возрастает по мере уменьшения


уровня входного сигнала. Действие компрессора приводит к повышению средней мощности и,
следовательно, громкости звучания обрабатываемого сигнала, а также к сжатию его динамического
диапазона.

Амплитудная характеристика компрессора


Экспандер имеет обратную по отношению к компрессору амплитудную характеристику. Применяют
его в том случае, когда необходимо восстановить динамический диапазон, преобразованный
компрессором.

Амплитудная характеристика экспандера

Компандер - система, состоящая из последовательно включенных компрессора и экспандера. Она


используется для снижения уровня шумов в трактах записи или передачи звуковых сигналов.

Пороговый шумоподавитель (гейт) - это авторегулятор, у которого коэффициент передачи


изменяется так, что при уровнях входного сигнала меньше порогового амплитуда сигнала на выходе
близка к нулю. При входных сигналах, уровень которых превышает пороговое значение, пороговый
шумоподавитель работает как обычный линейный усилитель.

Авторегуляторы для сложного преобразование динамического диапазона, имеют несколько каналов


управления. Например, сочетание ограничителя, автостабилзатора, экспандера и порогового
шумоподавителя позволяет стабилизировать громкость звучания различных фрагментов
композиции, выдерживать максимальные уровни сигнала и подавлять шумы в паузах.

Структура устройств динамической обработки


Инерционный регулятор уровня имеет основной канал и канал управления. Если сигнал подается в
канал управления со входа основного канала, мы имеем дело с прямой регулировкой, а если с
выхода - с обратной.

Основной канал в схеме с прямой регулировкой включает в себя усилители звуковых частот, линию
задержки и регулируемый элемент. Последний под воздействием управляющего напряжения
способен изменять свой коэффициент передачи. Основной канал в схеме с обратной регулировкой
содержит в себе все перечисленные элементы за исключением линии задержки.

Принципиально важные элементы канала управления - детектор и интегрирующая (сглаживающая)


цепь. До тех пор пока напряжение на входе схемы не превышает порогового (опорного), канал
управления не вырабатывает управляющего сигнала, и коэффициент передачи регулируемого
элемента не изменяется. При превышении порога детектор вырабатывает импульсное напряжение,
пропорциональное разности текущего значения сигнала и опорного напряжения. Интегрирующая
цепь усредняет разностное напряжение и вырабатывает управляющее напряжение,
пропорциональное уровню сигнала на входе канала управления.

Линия задержки, имеющаяся в основном канале схемы с прямой регулировкой, позволяет каналу
управления работать с некоторым упреждением. Всплеск уровня сигнала будет обнаружен им
раньше, чем сигнал достигнет регулируемого элемента. Поэтому существует принципиальная
возможность устранения нежелательных переходных процессов. Перепады уровня могут быть
обработаны практически идеально. Однако фазочастотная характеристика аналоговой линии
задержки отлична от линейной. Различие фазовых сдвигов для разных спектральных составляющих
сигнала приводит к искажению формы широкополосного сигнала при прохождении линии задержки.
Цифровые линии задержки лишены этого недостатка, но для их применения сигнал необходимо
сначала оцифровать. В виртуальных устройствах обработки сигнал обрабатывается в цифровой
форме, а проблемы с алгоритмической реализацией функциональных элементов отсутствуют.

Временные характеристики
Кроме величины опорного (порогового) напряжения, как правило, регулировать можно время
интегрирования сглаживающей цепи. При малом времени интегрирования канал управления
фактически является пиковым измерителем уровня, при большом - среднеквадратическим. В
высококачественных аппаратных устройствах динамической обработки (и во всех программных)
имеется возможность изменения времени реакции канала управления на события двух типов:

1. Превышение порогового значения при возрастании уровня сигнала (момент включения устройства
динамической обработки).

2. Спад уровня сигнала ниже порогового значения (момент выключения устройства динамической
обработки).

Итак, задача канала управления заключается в обнаружении момента пересечения аудиосигналом


порога, измерении уровня аудиосигнала относительно порога и выработке управляющего
напряжения.

Существо обработки зависит от вида характеристики регулируемого элемента основного канала.


Например, если с ростом управляющего напряжения, подаваемого на регулируемый элемент, его
коэффициент передачи уменьшается, то получается компрессор, если увеличивается, то экспандер.

В основном канале, как правило, можно также изменять коэффициенты передачи усилителей и
время срабатывания регулирующего элемента при его включении и выключении. Чтобы реализовать
сложные алгоритмы динамической обработки, нужно использовать не один, а несколько основных
каналов и каналов управления.

Для оценки инерционности устройств динамической обработки введены две временные


характеристики: время срабатывания и время восстановления.

Для регулируемых звеньев всех устройств динамической обработки, кроме шумоподавителя,


срабатыванием принято считать реакцию устройства на увеличение уровня сигнала, а
восстановлением - на его уменьшение. Для шумоподавителя это соответственно уменьшение
усиления при пропадании полезного сигнала и восстановление усиления при появлении полезного
сигнала.

На рисунке приведен пример резкого увеличения уровня сигнала (звуковая волна вверху) и
результата отработки скачка уровня компрессором. Заметна задержка в срабатывании компрессора
после появления скачка и запаздывание с выключением после завершения пика сигнала.
Проявление инерционности устройства динамической обработки

Выбор временных параметров устройств динамической обработки в основном определяется


назначением и типом устройства.

Инерционные ограничители уровня, предназначенные для защиты мощных усилительных и


акустических систем от перегрузок, должны иметь минимальное (стремящееся к нулю) время
срабатывания. Однако с учетом того, что аудиосигналы нарастают не мгновенно, это теоретически
обоснованное требование на практике смягчается. Для ограничителей уровня выбирают время
срабатывания в пределах 0,5 - 1,0 мс, а время восстановления 1,5 с. Для речевых компрессоров
время срабатывания должно составлять 1 - 2 мс, а время восстановления - 300 мс. У музыкальных
компрессоров эти параметры, как правило, выбирают оперативно в соответствии с динамическими
свойствами музыки. Особенно критично время восстановления.

Именно неправильный выбор временных параметров компрессора и является одной из причин


плохого звука в фильмах, о которых шла речь в начале статьи. Кроме этого: не те микрофоны, не
там расположены, не те устройства динамической обработки, шумящая аппаратура… Конечно,
звукооператоры могут ссылаться на сложные условия записи звука в неприспособленных
помещениях. Но все познается в сравнении. Если вы иногда смотрите сериал "Убойная сила 2", то
не могли не заметить, что в нем речь персонажей разборчива, музыка в звуковую ткань вплетена
очень естественно, а звук не замаскирован такими шумами, которые бы не соответствовали замыслу
режиссера, даже в том случае, когда съемки ведутся на самом настоящем рынке.
В предыдущей статье я рассказал о программных средствах устранения шума и искажений

звука, в том числе перечислил те операции по "звукочистке", которые необходимо проделать с


записью песни, начиная с исправления ошибок в установке микрофона и завершая мастерингом,
выполненным так, чтобы группа композиций, записанная на диск, с эстетической точки зрения
представляла собой единое целое. Данная тема настолько серьезна, что ей стоит посвятить
несколько ближайших статей.

Начну, как и в прошлый раз, с основного тезиса: звук, записанный любителем в условиях домашней
компьютерной студии, хотя, конечно, и не сравнится по качеству с результатами работы
профессиональных студий, но может быть приближен к ним.

Пишу, а краем уха слушаю, что там бубнит телевизор. Вот фильм, отрекомендованный в анонсе, как
"суперпроект". Царь Петр при смерти, борьба за престол. Страсти бушуют... По другим каналам
следователь Турецкий отыскивает похищенные раритетные фолианты, знатоки тряхнули стариной и
снова ведут свое следствие, потому что, оказывается, все еще "кто-то кое-где у нас порой честно
жить не хочет"… Такие разные истории, но что-то общее в них есть. Это общее - звук. Плохой звук.
Ужасный звук, записанный профессионалами в профессиональных студиях. Особенно в
"суперпроекте": когда на мгновения стихают стоны умирающего царя и крики приближенных,
отчетливо проступают фоновые звуки, даже становится слышно, как работают лентопротяжные
механизмы камер.

Напрашиваются такие выводы:

1. Ясно, что в нашей стране фильмы давно уже не переозвучивают в звуковой студии. Наверное,
денег на это нет. Каким записан звук на съемочной площадке, таким и идет в смонтированную ленту.

2. Некоторые профессионалы не применяют средства компьютерного шумоподавления. Не очень


понятно, почему. Не знают о них? Некогда почитать специальную литературу? Но и элементарных
сведений, что содержатся на пяти страницах моей предыдущей статьи, для начала хватило бы.

3. Некоторые из тех людей, кто занимаются записью звука для телефильмов, не умеют применять
приборы динамической обработки.

Как раз о динамической обработке мы сейчас поговорим. Тема эта сложная, но если вы
сосредоточитесь, то обязательно все поймете, и звук в ваших проектах станет профессиональным.
Ну не профессиональным, а любительским, но таким, что все им заслушаются. Сомневающимся
предлагаю оценить работы читателей, записанные на диске, который сопровождает новую книгу
"Sonar. Секреты мастерства". Кстати, ничто не мешает вам попробовать свои силы. В музыкальном
сборнике на следующем подобном диске вполне может оказаться и ваша композиция.

Итак, динамическая обработка. Формально она заключается в изменении динамического диапазона


аудиосигналов. Но для применения ее во благо качеству звука этой фразы явно недостаточно.
Поэтому начнем с начала.

Уровень и динамический диапазон звукового сигнала


Источник звуковых колебаний излучает в окружающее пространство энергию. Количество звуковой
энергии, проходящей за секунду через площадь в 1 м2, расположенную перпендикулярно
направлению распространения звуковых колебаний, называют интенсивностью (силой) звука.
Когда мы ведем обычный разговор, мощность потока энергии приблизительно равен 10 мкВт.
Мощность самых громких звуков скрипки может составлять 60 мкВт, а мощность звуков органа - от
140 до 3200 мкВт.

Человек слышит звук в чрезвычайно широком диапазоне звуковых давлений (интенсивностей).


Одной из опорных величин этого диапазона является стандартный порог слышимости - эффективное
значение звукового давления, создаваемого гармоническим звуковым колебанием частоты 1000 Гц,
едва слышимым человеком со средней чувствительностью слуха.

Порогу слышимости соответствует интенсивность звука Iзв0 = 10-12 Вт/м2 или звуковое давление
pзв0 = 2Ч10-5 Па.

Верхний предел определяется значениями Iзв. макс. = 1 Вт/м2 или pзв. макс. = 20 Па. При
восприятии звука такой интенсивности у человека появляются болевые ощущения.

В области звуковых давлений, существенно превышающих стандартный порог слышимости,


величина ощущения пропорциональна не амплитуде звукового давления pзв, а логарифму
отношения pзв/pзв0. Поэтому звуковое давление и интенсивность звука часто оценивают в
логарифмических единицах децибелах (дБ) по отношению к стандартному порогу слышимости.

Диапазон изменения звуковых давлений от абсолютного порога слышимости до болевого порога


составляет для разных частот от 90 дБ до 130 дБ.

Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то
более громкий звук заглушает (поглощает) слабые звуки. Происходит так называемая маскировка
звуков, и ухо воспринимает только один, более громкий, звук. Сразу после воздействия на ухо
громкого звука снижается восприимчивость слуха к слабым звукам. Эта способность называется
адаптацией слуха.

Таким образом, порог слышимости в значительной степени зависит от условий прослушивания: в


тишине или же на фоне шума (или другого мешающего звука). В последнем случае порог
слышимости повышается. Это свидетельствует о том, что помеха маскирует полезный сигнал.

Слуховой аппарат человека обладает определенной инерционностью: ощущение возникновения


звука, а также его прекращения появляется не сразу.

Аудиосигнал является случайным процессом. Его акустические или электрические характеристики


непрерывно изменяются во времени. Пытаться отследить случайные изменения реализаций этого
хаоса - занятие, имеющее не много смысла. Обуздать его величество случай, придать ему черты
детерминированности можно, используя усредненные параметры, такие, как уровень аудиосигнала.

Уровень аудиосигнала характеризует сигнал в определенный момент и представляет собой


выраженное в децибелах выпрямленное и усредненное за некоторый предшествующий промежуток
времени напряжение аудиосигнала.

Под динамическим диапазоном аудиосигнала понимают отношение максимального звукового


давления к минимальному или отношение соответствующих напряжений. В таком определении нет
сведений о том, какое давление и напряжение считается максимальным и минимальным. Наверное,
поэтому определенный таким образом динамический диапазон сигнала, называется теоретическим.
Наряду с этим динамический диапазон аудиосигнала можно определить и экспериментально как
разность максимального и минимального уровней для достаточно длительного периода. Это
значение существенно зависит от выбранного времени измерения и типа измерителя уровней.

Динамические диапазоны музыкальных и речевых акустических сигналов разных типов, измеренные


с помощью приборов, составляют в среднем:

- 80 дБ для симфонического оркестра

- 45 дБ для хора

- 35 дБ для эстрадной музыки и солистов-вокалистов

- 25 дБ для речи дикторов


При записи уровни необходимо регулировать. Объясняется это тем, что исходные (необработанные)
сигналы зачастую имеют большой динамический диапазон (например, до 80 дБ у симфонической
музыки), а в домашних условиях аудиопрограммы прослушиваются в диапазоне порядка 40 дБ.

Ручной регулировке уровней присущ недостаток. Время реакции звукорежиссера составляет около 2
с даже если партитура композиции ему заранее известна. Это приводит к погрешности в
поддержании максимальных уровней музыкальных программ до 4 дБ в обе стороны.

Усилители, акустические системы да и уши человека нужно защищать от перегрузок, вызванных


резкими скачкообразными изменениями амплитуды аудиосигнала - ограничивать сигнал по
амплитуде.

Динамический диапазон сигнала нужно согласовывать с динамическими диапазонами устройств


записи, усиления, передачи.

Для увеличения дальности действия FM радиостанций динамический диапазон аудиосигнала нужно


сжимать. Для снижения уровня шума в паузах динамический диапазон желательно увеличивать.

В конце концов, мода, диктующая свои условия во всех сферах человеческой деятельности, в том
числе и в звукозаписи, требует насыщенного, плотного звучания современной музыки, которое
достигается резким сужением ее динамического диапазона.

Звуковая волна (огибающая громкости) фрагмента оперы С. Рахманинова "Алеко",

и современной танцевальной музыки.


В классической музыке важны нюансы, танцевальная музыка должна быть "сильнодействующей".

Этим диктуется необходимость в применении устройств автоматической обработки уровней


сигналов.

Устройства динамической обработки


Устройства автоматической обработки уровней сигналов можно классифицировать по ряду
критериев, наиболее важные среди них: инерционность срабатывания и выполняемая функция.

По критерию инерционности срабатывания различают безинерционные (мгновенного действия) и


инерционные (с изменяющимся коэффициентом передачи) авторегуляторы уровня:

Когда на входе безинерционного авторегулятора уровень сигнала превышает номинальное


значение, на выходе вместо синусоидального сигнала получается трапецевидный. Хотя
безинерционные авторегуляторы просты, их применение приводит к сильным искажениям.

Инерционным называется такой авторегулятор уровня, у которого коэффициент передачи


автоматически изменяется в зависимости от уровня сигнала на входе. Эти авторегуляторы уровня
искажают форму сигналов только в течение незначительного интервала времени. Подбором
оптимального времени срабатывания такие искажения можно сделать малоощутимыми на слух.

В зависимости от выполняемых функций инерционные авторегуляторы уровня подразделяют на:

• Ограничители квазимаксимальнных уровней


• Автостабилизаторы уровня
• Компрессоры динамического диапазона
• Экспандеры динамического диапазона
• Компандерные шумоподавители
• Пороговые шумоподавители (гейты)
• Устройства со сложным преобразованием динамического диапазона

Основной характеристикой устройства динамической обработки служит амплитудная характеристика


- зависимость уровня выходного сигнала от уровня сигнала на входе.
Ограничитель уровня (лимитер) - это авторегулятор, у которого коэффициент передачи изменяется
так, что при превышении номинального уровня входным сигналом уровни сигналов на его выходе
остаются практически постоянными, близкими к номинальному значению. При входных сигналах, не
превышающих номинального значения, ограничитель уровня работает как обычный линейный
усилитель. Лимитер должен реагировать на изменение уровня мгновенно.

Амплитудная характеристика лимитера

Автостабилизатор уровня предназначен для стабилизации уровней сигналов. Это бывает


необходимо для выравнивания громкости звучания отдельных фрагментов фонограммы. Принцип
действия автостабилизатора аналогичен принципу действия ограничителя. Отличие заключается в
том, что номинальное выходное напряжения автостабилизатора приблизительно на 5 дБ меньше
номинального выходного уровня ограничителя.

Компрессор - такое устройство, коэффициент передачи которого возрастает по мере уменьшения


уровня входного сигнала. Действие компрессора приводит к повышению средней мощности и,
следовательно, громкости звучания обрабатываемого сигнала, а также к сжатию его динамического
диапазона.

Амплитудная характеристика компрессора


Экспандер имеет обратную по отношению к компрессору амплитудную характеристику. Применяют
его в том случае, когда необходимо восстановить динамический диапазон, преобразованный
компрессором.

Амплитудная характеристика экспандера

Компандер - система, состоящая из последовательно включенных компрессора и экспандера. Она


используется для снижения уровня шумов в трактах записи или передачи звуковых сигналов.

Пороговый шумоподавитель (гейт) - это авторегулятор, у которого коэффициент передачи


изменяется так, что при уровнях входного сигнала меньше порогового амплитуда сигнала на выходе
близка к нулю. При входных сигналах, уровень которых превышает пороговое значение, пороговый
шумоподавитель работает как обычный линейный усилитель.

Авторегуляторы для сложного преобразование динамического диапазона, имеют несколько каналов


управления. Например, сочетание ограничителя, автостабилзатора, экспандера и порогового
шумоподавителя позволяет стабилизировать громкость звучания различных фрагментов
композиции, выдерживать максимальные уровни сигнала и подавлять шумы в паузах.

Структура устройств динамической обработки


Инерционный регулятор уровня имеет основной канал и канал управления. Если сигнал подается в
канал управления со входа основного канала, мы имеем дело с прямой регулировкой, а если с
выхода - с обратной.

Основной канал в схеме с прямой регулировкой включает в себя усилители звуковых частот, линию
задержки и регулируемый элемент. Последний под воздействием управляющего напряжения
способен изменять свой коэффициент передачи. Основной канал в схеме с обратной регулировкой
содержит в себе все перечисленные элементы за исключением линии задержки.

Принципиально важные элементы канала управления - детектор и интегрирующая (сглаживающая)


цепь. До тех пор пока напряжение на входе схемы не превышает порогового (опорного), канал
управления не вырабатывает управляющего сигнала, и коэффициент передачи регулируемого
элемента не изменяется. При превышении порога детектор вырабатывает импульсное напряжение,
пропорциональное разности текущего значения сигнала и опорного напряжения. Интегрирующая
цепь усредняет разностное напряжение и вырабатывает управляющее напряжение,
пропорциональное уровню сигнала на входе канала управления.

Линия задержки, имеющаяся в основном канале схемы с прямой регулировкой, позволяет каналу
управления работать с некоторым упреждением. Всплеск уровня сигнала будет обнаружен им
раньше, чем сигнал достигнет регулируемого элемента. Поэтому существует принципиальная
возможность устранения нежелательных переходных процессов. Перепады уровня могут быть
обработаны практически идеально. Однако фазочастотная характеристика аналоговой линии
задержки отлична от линейной. Различие фазовых сдвигов для разных спектральных составляющих
сигнала приводит к искажению формы широкополосного сигнала при прохождении линии задержки.
Цифровые линии задержки лишены этого недостатка, но для их применения сигнал необходимо
сначала оцифровать. В виртуальных устройствах обработки сигнал обрабатывается в цифровой
форме, а проблемы с алгоритмической реализацией функциональных элементов отсутствуют.

Временные характеристики
Кроме величины опорного (порогового) напряжения, как правило, регулировать можно время
интегрирования сглаживающей цепи. При малом времени интегрирования канал управления
фактически является пиковым измерителем уровня, при большом - среднеквадратическим. В
высококачественных аппаратных устройствах динамической обработки (и во всех программных)
имеется возможность изменения времени реакции канала управления на события двух типов:

1. Превышение порогового значения при возрастании уровня сигнала (момент включения устройства
динамической обработки).

2. Спад уровня сигнала ниже порогового значения (момент выключения устройства динамической
обработки).

Итак, задача канала управления заключается в обнаружении момента пересечения аудиосигналом


порога, измерении уровня аудиосигнала относительно порога и выработке управляющего
напряжения.

Существо обработки зависит от вида характеристики регулируемого элемента основного канала.


Например, если с ростом управляющего напряжения, подаваемого на регулируемый элемент, его
коэффициент передачи уменьшается, то получается компрессор, если увеличивается, то экспандер.

В основном канале, как правило, можно также изменять коэффициенты передачи усилителей и
время срабатывания регулирующего элемента при его включении и выключении. Чтобы реализовать
сложные алгоритмы динамической обработки, нужно использовать не один, а несколько основных
каналов и каналов управления.

Для оценки инерционности устройств динамической обработки введены две временные


характеристики: время срабатывания и время восстановления.

Для регулируемых звеньев всех устройств динамической обработки, кроме шумоподавителя,


срабатыванием принято считать реакцию устройства на увеличение уровня сигнала, а
восстановлением - на его уменьшение. Для шумоподавителя это соответственно уменьшение
усиления при пропадании полезного сигнала и восстановление усиления при появлении полезного
сигнала.

На рисунке приведен пример резкого увеличения уровня сигнала (звуковая волна вверху) и
результата отработки скачка уровня компрессором. Заметна задержка в срабатывании компрессора
после появления скачка и запаздывание с выключением после завершения пика сигнала.
Проявление инерционности устройства динамической обработки

Выбор временных параметров устройств динамической обработки в основном определяется


назначением и типом устройства.

Инерционные ограничители уровня, предназначенные для защиты мощных усилительных и


акустических систем от перегрузок, должны иметь минимальное (стремящееся к нулю) время
срабатывания. Однако с учетом того, что аудиосигналы нарастают не мгновенно, это теоретически
обоснованное требование на практике смягчается. Для ограничителей уровня выбирают время
срабатывания в пределах 0,5 - 1,0 мс, а время восстановления 1,5 с. Для речевых компрессоров
время срабатывания должно составлять 1 - 2 мс, а время восстановления - 300 мс. У музыкальных
компрессоров эти параметры, как правило, выбирают оперативно в соответствии с динамическими
свойствами музыки. Особенно критично время восстановления.

Именно неправильный выбор временных параметров компрессора и является одной из причин


плохого звука в фильмах, о которых шла речь в начале статьи. Кроме этого: не те микрофоны, не
там расположены, не те устройства динамической обработки, шумящая аппаратура… Конечно,
звукооператоры могут ссылаться на сложные условия записи звука в неприспособленных
помещениях. Но все познается в сравнении. Если вы иногда смотрите сериал "Убойная сила 2", то
не могли не заметить, что в нем речь персонажей разборчива, музыка в звуковую ткань вплетена
очень естественно, а звук не замаскирован такими шумами, которые бы не соответствовали замыслу
режиссера, даже в том случае, когда съемки ведутся на самом настоящем рынке.
В одном из своих рассказов* Марк Твен поведал выдуманную историю о миллионере, увлекавшемся
коллекционированием необычных вещей: коровьих колокольчиков, обломков кирпичей, чучел китов.
К каждой очередной коллекции он, в конце концов, охладевал, потому что ни одна из них
принципиально не могла быть полной. Всегда находился хотя бы один недоступный для
приобретения предмет, которым владел другой коллекционер. И тогда он решил обратиться к таким
диковинкам, каких до него не додумался собирать ни один человек на свете. На сей раз он стал
коллекционировать… эхо.

Чудак неутомимо скупал все те участки земли, где воспроизводилось многократное или чем-либо
иным замечательное эхо. Первым его приобретением было четырехкратное эхо в Джорджии,
затем он купил шестикратное в Мэриленде, а вслед за этим тринадцатикратное в Мэне. И
пошло-поехало. Оказалось, что в торговле эхо цены нарастают как шкала каратов в торговле
бриллиантами. За однократное эхо нужно приплатить только 10 долларов к стоимости земли,
где оно обитает, за двукратное $30, за пятикратное $950, а за десятикратное $13 000…
Однажды более чем за $3000 000 он приобрел один из двух холмов, участвующих в формировании
шестидесятипятикратного эха, но к этому времени появился еще один коллекционер, который
купил второй холм. Началась судебная тяжба за право использовать эхо, живущее между
холмами. История кончилась разорением и смертью героя рассказа.

Дело было в середине девятнадцатого века. А в наши дни коллекционирование эхо - не столь
дорогостоящее и не столь недоступное занятие. Компьютер, звуковая карта да несколько
программ - вот и все, что для этого нужно.

П рочитав вступление, вы уже, наверное, догадались, что в нынешнем продолжении серии

статей, посвященных компьютерной реализации звуковых эффектов, речь пойдет об имитации эха.
Но сначала я хочу познакомить вас с еще одним из эффектов, основанных на задержке сигнала =
дилэем.

Дилэй и эхо - близнецы-братья


Острая необходимость в эффекте дилэй (Delay - задержка) возникла с началом применения
стереофонии. Суть эффекта состоит в том, что формируются несколько задержанных копий
звукового сигнала. Сама природа слухового аппарата человека предполагает в большинстве
ситуаций поступление в мозг двух звуковых сигналов, отличающихся временами прихода. Если
источник звука находится "перед глазами": на перпендикуляре, проведенном к линии, проходящей
через уши, то прямой звук от источника достигает обоих ушей в одно и то же время. Во всех
остальных случаях расстояния от источника до ушей различны, поэтому либо одно, либо другое ухо
воспринимает звук первым.

Дилэй применяется, прежде всего, в том случае, когда запись голоса или акустического
музыкального инструмента, выполненную с помощью единственного микрофона, "встраивают" в
стереофоническую композицию. Этот эффект служит основой технологии создания стереозаписей.
Но дилэй может применяться и для получения эффекта однократного повторения каких-либо звуков.

Какая именно задержка должна быть выбрана? Ответ на этот вопрос определяется несколькими
факторами. Прежде всего, следует руководствоваться эстетическими критериями, художественной
целью и здравым смыслом. Для коротких и резких звуков время задержки, при котором основной
сигнал и его копия различимы, меньше, чем для протяженных звуков. Для произведений,
исполняемых в медленном темпе, задержка может быть больше, чем для быстрых композиций.
При определенных соотношениях громкостей прямого и задержанного сигнала может иметь место
психоакустический эффект изменения кажущегося расположения источника звука на
стереопанораме. Согласитесь, что, например, "перескоки" рояля с места на место по ходу
прослушивания произведения очень трудно обосновать как с эстетических позиций, так и с точки
зрения верности воспроизведения реального звучания. Как и любой эффект, дилэй нужно применять
в разумных пределах и не обязательно на протяжении всей композиции.

Этот эффект реализуется с помощью устройств, способных осуществлять задержку акустического


или электрического сигналов. Таким устройством сейчас чаще всего служит цифровая линия
задержки, представляющая собой цепочку из элементарных ячеек - триггеров задержки. Для наших
целей достаточно знать, что принцип действия триггера задержки сводится к следующему: двоичный
сигнал, поступивший в некоторый тактовый момент времени на его вход, появится на его выходе не
мгновенно, а только в очередной тактовый момент. Общее время задержки в линии тем больше, чем
больше триггеров задержки включено в цепочку, и тем меньше, чем меньше тактовый интервал (чем
больше тактовая частота). В качестве цифровых линий задержки можно использовать
запоминающие устройства. Известны специальные алгоритмы адресации ячеек запоминающих
устройств, обеспечивающие "скольжение" информации "вдоль" адресного пространства.

Разумеется, для применения цифровой линии задержки сигнал должен быть сперва преобразован в
цифровую форму. А после прохождения копией сигнала линии задержки происходит цифро-
аналоговое преобразование. Исходный сигнал и его задержанная копия могут быть раздельно
направлены в различные стереоканалы, но могу быть и смешаны в различных пропорциях.
Суммарный сигнал может быть направлен либо в один из стереоканалов, либо в оба.

В звуковых редакторах дилэй реализуется программным (математическим) путем за счет изменения


относительной нумерации отсчетов исходного сигнала и его копии.

Возможны такие, например, разновидности задержки, при которых формируются несколько


задержанных на различное время копий сигнала.

В виртуальных дилэях, так же как и в их аппаратных прототипах обязательно имеются регуляторы


глубины и частоты модуляции времени задержки сигнала, а также регулятор коэффициента
обратной связи (Feedback). Сигнал с выхода подается опять в линию задержки. Время затухания
устанавливается регулятором обратной связи. Чтобы однократное повторение превратилось в
настоящее повторяющееся эхо, коэффициент обратной связи надо увеличить. Как правило, и в
реальных, и в виртуальных устройствах имеется регулятор, при помощи которого можно подобрать
такое время задержки, чтобы оно соответствовало темпу композиции.

Основное отличие эффекта эхо (Echo) от простой задержки состоит в том, что задержанные копии
сигнала подвергаются дополнительной обработке: изменяется их спектр. Звук, обработанный
эффектом Echo более натурален по сравнению с обработанным эффектом Delay. В природе эхо
образуется в результате переотражения звуковых волн от препятствий (например, от домов, стен
помещения, гор и т. п.). Различные спектральные составляющие звука (как и любого другого
волнового явления, например, света) различным образом отражаются от препятствий. Чем ниже
частота (больше длина волны), тем легче волна преодолевает препятствия, огибая его.
Высокочастотной волне, наоборот, очень сложно преодолеть любую, даже самую простую преграду.
Такая волна не проходит сквозь препятствие, а отражается от него и частично поглощается,
превращаясь, в конечном счете, в тепловую энергию. Но нельзя упускать из вида и тот факт, что
высокочастотные звуковые волны при распространении в воздухе затухают быстрее низкочастотных.
Подводя итог этим рассуждениям, можно предположить, что эхо содержит смещенный во времени
исходный сигнал, у которого будут ослаблены и низкие, и высокие частоты. Как именно они
изменятся, зависит уже от конкретных условий распространения звука (расстояние до препятствия,
его материал и т. п.).

Дилэй и эхо в Cool Edit Pro 2


В мощном звуковом редакторе, коим является программа Cool Edit Pro 2, есть несколько встроенных
эффектов, реализующих дилэй и эхо.
Для начала обратимся к команде Effects > Delay Effects > Delay…, которой открывается окно
эффекта Delay (рис. 1).

Рис. 1. Окно эффекта Delay программы Cool Edit Pro 2

В группах Left Channel и Right Channel находятся элементы настройки задержек для каждого из
стереоканалов.

С помощью регулятора Delay или непосредственно в поле ввода, расположенном справа от него, вы
можете задать время задержки в миллисекундах.

Аналогичные элементы интерфейса, но на этот раз под названием Mixing позволяют задавать в
процентах уровень задержанного сигнала, добавляемого в исходный. Состояние флажка Invert
определяет, будет ли инвертирована фаза подмешиваемого сигнала.

Традиционно для Cool Edit Pro в окне этого эффекта имеется список предварительных установок
Presets, однако я не стану его комментировать. Словами не описать все предусмотренные варианты
микширования в различных пропорциях исходных сигналов левого и правого каналов с
задержанными сигналами. Будет лучше, если вы сами опробуете и оцените пресеты этого и других
эффектов.

Командой Effects > Delay Effects > Dinamic Delay… программы Cool Edit Pro 2 открывается окно
эффекта Dinamic Delay (рис. 2).
Рис. 2. Окно эффекта Dinamic Delay программы Cool Edit Pro 2

По существу, в окне Dinamic Delay реализован дилэй, однако имеющиеся средства управления
позволяют динамически с помощью графиков изменять значения двух важнейших параметров
эффекта: задержку (координатное поле Delay) и коэффициент обратной связи (координатное поле
Feedback).

Следует обратить ваше внимание на особенности функционирования эффекта при различных


состояниях флажка Loop Graphs. Если флажок сброшен, то графики описывают изменение задержки
и коэффициента обратной связи на всем протяжении выделенной области композиции. При
установленном флажке Loop Graphs графики относятся к единственному циклу. И в таком случае вы
работаете с фрагментом, временные параметры которого задаются в полях ввода группы Loop
Graphs:

• Frequency - частота повторения циклов


• Period - период повторения циклов
• Total Cycles - общее число циклов в выделенной области волновой формы

Перечисленные три параметра жестко связаны друг с другом. У вас есть возможность независимо
задать только один из них (любой), два остальных рассчитываются программой.

В поле Stereo Curve Difference вводится величина временного сдвига между соответствующими
парами графиков в правом и левом каналах. Положительное число соответствует запаздыванию
пары "правых" графиков, отрицательное - пары "левых". Обращаем ваше внимание на то, что сами
сигналы правого и левого каналов при этом не претерпевают никаких дополнительных задержек.

С помощью окна эффекта Echo (рис. 3) программы Cool Edit Pro 2 можно смоделировать условия
возникновения и развития эха. Окно открывается командой Effects > Delay Effects > Echo….
Рис. 3. Окно эффекта Echo программы Cool Edit Pro 2

Регуляторами Decay в процентах относительно исходного сигнала задается уровень задержанного


сигнала - уровень эха, а значит, и время его существования. Delay - время в миллисекундах, на
которое будет задержан сигнал.

Initial Echo Volume - уровень, с которым эхо будет подмешиваться к исходному сигналу.

Группа Successive Echo Equalization - эквалайзер, с помощью которого можно изменять спектр
задержанного сигнала.

Флажок Continue echo beyond selection следует установить в том случае, если желательно оставить
постепенное затухание эха за пределом выделенного фрагмента композиции. При установленном
флажке Lock Left/Right соответствующие регуляторы левого и правого каналов объединяются. Если
установить флажок Echo Bounce, то звучание эха будет акцентировано.

Командой Effects > Delay Effects > Multitap Delay… программы Cool Edit Pro 2 открывается окно
эффекта Multitap Delay (рис. 4).
Рис. 4. Окно эффекта Multitap Delay программы Cool Edit Pro 2

Эффект Multitap Delay - комбинация дилэя, эха, фильтра и реверберации (о ней мы поговорим в
следующий раз).

На диаграмме в верхней части окна Multitap Delay наглядно отображается алгоритм обработки звука
эффектом. Алгоритм состоит из циклов. Каждому циклу на графике соответствует линия со стрелкой
на конце. Цифры, отображаемые у начала линии, означают смещение эха относительно исходного
звука. Цифры над линией означают задержку сигнала в цепи обратной связи.

Представленный на рис. 4 алгоритм эффекта, состоит из двух циклов. Например, в первом из них
однократный дилэй формируется задержкой сигнала на 214 мс, а эхо получается за счет подачи
задержанного сигнала в цепь обратной связи, время задержки которой, в свою очередь, составляет
170 мс.

Не очень понятно? Ничего удивительного, ведь и сам эффект комплексный, сложный. Разобраться в
нем поможет аналогия с классическим магнитофонным ревербератором. В нем задержка
осуществляется за счет того, что сигнал, записанный на ленту одной магнитной головкой,
воспроизводится второй не в то же мгновение, а спустя время, необходимое для протяжки ленты от
головки к головке. Если в ревербераторе есть две магнитные головки - записывающая и
воспроизводящая, - то можно реализовать и простейший дилэй, и эхо.

Пусть скорость движения ленты и расстояние между головками такие, что задержка сигнала
составляет 214 мс. Дилэй реализуется, если на выход устройства подавать необработанный
(входной) сигнал и сигнал, снятый с головки воспроизведения. Реверберация (или, в зависимости от
величины задержки, многократное эхо) получится, если задержанный сигнал (меньшего уровня)
возвращать на головку записи. При этом получится многократное эхо, но задержка между каждым
"отражением" звука будет составлять также 214 мс. Теперь представим себе, что в воображаемый
магнитофон добавлена еще одна записывающая головка. Причем от этой головки до
воспроизводящей головки лента перемещается за 170 мс и на нее подается не входной сигнал, а
сигнал с воспроизводящей головки (задержанный сигнал). Получится полный аналог той схемы,
которая представлена на рис. 4: однократная задержка на 214 мс и многократное эхо с повторением
через 170 мс.

Иначе говоря, один цикл эффекта как бы соответствует магнитофону, имеющему две записывающие
головки и одну воспроизводящую. На рис. 4 алгоритм состоит из двух циклов - это уже 5 головок
(общей является одна записывающая головка). Всего может быть создано до 10 циклов, каждый с
собственной задержкой, обратной связью, и установками параметров фильтрации. Чтобы
аппаратным путем с помощью магнитофона получить тот же результат, понадобилось бы 29
магнитных головок.

Если один цикл помещен внутри другого (это видно на диаграмме), будет реализована многократный
дилэй.

Выберите вариант схемы эффекта в списке Presets. После этого в списке Delay Units отобразятся
параметры каждого из циклов задержки. С помощью регуляторов группы Delay или соответствующих
им полей ввода можно подстроить следующие параметры каждого цикла:

• Offset - смещение относительно исходного звука


• Delay - задержка в цепи обратной связи
• Feedback - глубина обратной связи

Изменение положений двух первых регуляторов отображается на графиках циклов. Отмечу, что все
регуляторы поля ввода и опции управляют параметрами текущего цикла: того, который в данное
время выделен в списке Delay Units.

Очередную строчку в этот список добавляют путем нажатия кнопки Add New. Если уже существовал
хотя бы один цикл, то вновь созданный цикл будет иметь те же параметры. Если ни одного цикла не
существовало, то после нажатия кнопки Add New нужно еще щелкнуть на любом элементе группы
Delay, чтобы появился график цикла. Чтобы удалить цикл, необходимо выделить его в списке Delay
Units и нажать кнопку Remove.

Флажок Allpass Feedback следует устанавливать для предотвращения возникновения постоянной


составляющей в обработанном эффектом сигнале.

В группах Low-Cut Filters и High-Cut Filters содержатся поля, в которых вводят частоту среза (Cutoff) и
усиление (Boost) фильтра, вырезающего нижние частоты (Low-Cut Filter), и фильтра, вырезающего
верхние частоты (High-Cut Filter), соответственно. Правда, если в полях Boost ввести значения,
превышающие 0, то соответствующие частоты будут не вырезаться, а усиливаться. Но мы не
рекомендуем этого делать потому, что может возникнуть явление, аналогичное самовозбуждению
акустической системы: уровень каждого очередного задержанного сигнала будет выше, чем
предыдущего. Иногда для получения эффекта незатухающего и даже возрастающего эха со
специфическим тембром, возможно, вы и захотите ввести в полях Boost положительные числа.
Замечу, однако: чтобы смоделировать самовозбуждение акустической системы, можно установить
значение параметра Feedback, превышающим 100%.
Переключателями Left Channel, Right Channel и Both Channels выбираются обрабатываемые каналы
- левый, правый или оба.

Дилэй в SONAR 2
В программе SONAR 2 также имеется несколько встроенных аудиоэффектов, реализующих задержку
и эхо. Остановлюсь лишь на двух из них.С помощью эффекта Delay можно сымитировать задержку
звука и его переотражение при распространении в пространстве с препятствиями. Вы можете задать
задержку и/или число повторений и изменить время задержки и уровень сигнала, поступающего в
цепь обратной связи, а также выбрать параметры модуляции времени.

Команда Process > Audio Effects > Cakewalk > Delay… вызывает окно диалога Delay, вкладка Settings
которого изображена на рис. 5.
Рис. 5. Вкладка Settings окна диалога эффекта Delay программы SONAR 2

Регулятор Dry Mix (%) предназначен для управления уровнем громкости необработанного сигнала,
ретранслируемого на выход эффекта, а регулятор Wet Mix (%) - обработанного сигнала на выходе
эффекта. Если выключатель Link этой группы опций выключен, то регулировать эти параметры
можно независимо друг от друга, если же включен, - то увеличение значения одного параметра
приведет к уменьшению значения другого, и наоборот.

Left Delay (ms) и Right Delay (ms) - регуляторы интервала времени между повторениями сигналов
левого и правого каналов соответственно. При высоких значениях этих параметров реализуется
эффект задержки, а при малых и средних (приблизительно до 80 мс) - эффект эха. Максимальная
задержка составляет 5 с. Если выключатель Link не активен, то регулировку этих двух параметров
можно выполнить независимо друг от друга. В противном случае регуляторы Left Delay (ms) и Right
Delay (ms) будут объединены в группу, и задержка для обоих каналов будет одинаковой.

Cross Feedback Mix (%) - регулятор коэффициента перекрестной обратной связи. От ее величины
зависит кажущаяся ширина распределения эффекта по стереопанораме.

Left Feedback Mix (%) и Right Feedback Mix (%) - регуляторы уровня сигналов обратной связи левого
и правого каналов соответственно.

LFO Rate (Hz) - регулятор частоты модуляции времени задержки сигналов (в герцах). За счет
модуляции времени задержки имитируется отражение звуковых колебаний от движущихся (точнее,
колеблющихся) предметов. Максимальная частота модулирующего сигнала 20 Гц.

LFO Depth - регулятор глубины модуляции времени задержки (в миллисекундах); максимальное


значение параметра 20 мс.

Triangular и Sinusoidal - переключатели формы модулирующих сигналов (треугольная или


синусоидальная). С помощью выключателя Bypass можно сравнить звучание фрагмента композиции
до и после обработки.

Команда Process > Audio Effects > Cakewalk > FxDelay… вызывает окно диалога FxDelay, вкладка
Settings которого изображена на рис. 6.
Рис. 6. Вкладка Settings окна диалога эффекта FxDelay программы SONAR 2

Чем принципиально отличается эффект FxDelay от рассмотренных выше имитаторов цифровых


линий задержки? Эффект FxDelay позволяет создать не 1, а целых 4 цикла задержки, параметры
каждого из которых можно выбирать независимо. Это, конечно, не 10 циклов, как в эффекте Multitap
Delay программы Cool Edit Pro 2, но тоже вполне достаточно для моделирования в первом
приближении акустических свойств помещения с учетом наличия 4-х отражающих поверхностей. И
еще одно существенное отличие FxDelay: его параметрами можно управлять не только в реальном
времени, но и записывая изменения состояния элементов регулировки посредством данных
автоматизации.

Обратимся теперь к интерфейсу эффекта. В окне FxDelay вы видите много элементов, назначение
которых уже знакомо по эффекту FxChorus (см. статью "Сирены поют хором", Магия ПК №12/2002).

Здесь также имеются четыре столбца VOICE 1 - VOICE 4, и в каждом из них расположены знакомые
элементы:

• Поле ввода и индикации уровня усиления сигнала данного голоса


• Кнопка on включения данного голоса
• Кнопка set включения режима редактирования параметров голоса
• Слайдер gain регулировки уровня усиления сигнала голоса

Присутствует и столбец GLOBAL, содержащий:

• Поле ввода и индикации уровня усиления сигнала смикшированных голосов


• Кнопку G включения режима одновременной регулировки с помощью единственного слайдера уровня
усиления всех голосов
• Слайдер регулировки уровня усиления микса сигналов голосов
В правой части окна размещены:

• Слайдер и поле ввода группы MIX LEVEL, предназначенные для регулирования пропорции между
уровнями исходного и обработанного эффектом сигналов в выходном миксе
• Слайдер и поле ввода группы OUTPUT LEVEL, обеспечивающие регулирование уровня выходного
сигнала
• Кнопка BYPASS, направляющая сигнал в обход эффекта

А вот набор параметров, которые можно выбрать независимо для каждого из голосов в окне данного
эффекта, конечно же, не тот, что в окне FxChorus. Это и понятно. Хоть хорус с дилэем и основаны на
задержке сигнала, но имитируют они совсем разные реальные явления: хорус - биения,
возникающие в результате нелинейного взаимодействия близких по частоте колебаний, а дилэй -
многократное отражение звуковых волн от препятствий. Поэтому в эффекте FxDelay разработчики
программы предоставили вам возможность выбора следующих параметров каждого из голосов:

• DELAY (MS) - времени задержки сигнала данного голоса относительно исходного сигнала. С
помощью поля ввода и слайдера coarse задержка задается грубо, а с помощью аналогичных
элементов fine - уточнятся.
• FEEDBACK - величины коэффициента обратной связи, определяющая количество повторений
задержанного сигнала
• PAN - панорамы голосаЭффект также сопровождается большим количеством разнообразных по
назначению и звучанию "заводских" пресетов, к которым вы, без сомнения, скоро добавите и
немало пресетов собственных.

Кроме эффектов, встроенных в звуковые и музыкальные редакторы, существует еще бесчисленное


множество DirectX- и VST-плагинов. В них смоделированы все мыслимые алгоритмы
преобразования звука, имитирующие явления, происходящие в процессе его распространения,
отражения от препятствий и поглощения ими.

Дилэй в Cubase SX
В профессиональной виртуальной студии Cubase SX фирмы Stainberg эффектов, основанных на
задержке сигнала, не счесть. Среди них есть и два дилэя, отличающиеся оригинальным
интерфейсом. Помните, я рассказывал, как получить эффект многократного эха с помощью
многоголовочного магнитофона? А вот и он сам.
Рис. 7. Окно симулятора магнитофонного дилэя программы Cubase SX

Конечно, на рисунке вы видите не настоящий магнитофон с его постукивающим электродвигателем,


посвистывающим лентопротяжным механизмом и пощелкивающей в месте склейки лентой,
пущенной по кольцу. Это только похожая на настоящую и наглядно выполненная панель управления
эффектом, который называется Karlette, а реально является дилэем с четырьмя независимыми
каналами управления параметрами. Вверху панели показана записывающая головка, а внизу
выстроились вряд 4 воспроизводящих головки. Не могу удержаться от ехидного замечания в адрес
дизайнеров, разработавших облик панели. Всё они предусмотрели. Даже проводники, с помощью
которых головки соединяются со схемой прибора, покрыты разноцветной изоляцией, а головки
болтиков блестят, будто они и в самом деле никелированные. И все же один немаловажный элемент
- стирающую головку - они изобразить забыли. А ведь если бы перед тем, как подать к
записывающей головке ленту, ее не очищали от предыдущей записи, образовалась бы звуковая
каша. Но этот недостаток имеет исключительно декоративный характер. На самом деле алгоритм,
имитирующий магнитофонный дилэй, работает правильно, а вы можете подбирать параметры
эффекта на свой вкус.

Возле каждой из воспроизводящих головок расположен регулятор времени задержки (в реальном


магнитофоне для изменения задержки пришлось бы передвигать головки вдоль канала
транспортировки ленты). Если включить кнопку Sync, то задержка станет ритмизированной: кратной
некоторой заданной доле музыкального такта. Соотношение уровней исходного и обработанного
сигналов регулируется слайдером Wet - Dry. В каждом из каналов задержки доступны 4 параметра:

• Volume - уровень сигнала, обработанного в данном канале, поступающего на выход эффекта;


• Pan - панорама сигнала, обработанного эффектом;
• Damp - степень демпфирования (чем ближе значение параметра к 1, тем быстрее затихает эхо);
• Feedback - знакомый вам коэффициент обратной связи.

Еще один дилэй программы Cubase SX называется DoubleDelay. В нем, как и в предыдущем, можно
регулировать величину задержки, значение коэффициента обратной связи, произвольно
панорамировать обработанный сигнал, а также синхронизировать задержку с темпом музыкальной
композиции. Однако здесь предусмотрено только два канала задержки. Зато изменения положений
ручек регулировки наглядно отображаются на двух графиках.

Рис. 8. Окно эффекта DoubleDelay программы Cubase SX

В общем, если вы подобно герою рассказа Марка Твена решите в свое удовольствие или для
продажи, заняться коллекционированием эхо, проблем, подобных тем, что погубили его, у вас не
будет. Если же после прочтения статьи остались вопросы, обращайтесь к книгам "Cool Edit Pro 2.
Секреты мастерства" и "Виртуальная звуковая студия SONAR" либо на форумы нашего сайта.

* Марк Твен. Рассказ коммивояжера. Собрание сочинений в восьми томах. Том 1. - М.: Издательство
"Правда", 1980. - С. 230.

З адача фильтрации - изменить соотношение мощностей частот в звуке. Задача, с одной

стороны, не хитрая, но с другой стороны - сложно сделать так, чтобы результат был именно такой,
какой нам хотелось получить. Разные цифровые фильтры фильтруют сигналы совершенно по
разному, и надо хорошо понимать, какой фильтр где применять. Единственный неправильно
примененный (не по назначению) фильтр, как правило, наносит звуку непоправимый ущерб.
Малозаметный на глаз или при беглом прослушивании, но в дальнейшем - просто ощущаемый как
смазанный или звенящий звук, и устранить его затем невозможно.

Наш тестовый сигнал - тишина, резко переходящая в простой тон ноты ля основной октавы, 440 Гц.
Одно замечание. Резкое (неплавное) изменение характера колебаний - то место, где из тишины
появляется тон - содержит все возможные частоты сразу, то есть на сонограмме это выглядело бы
яркой вертикальной линией. Слышится это место как легкий звонкий щелчок.
Этот участок, содержащий все частоты, мы и будем пытаться фильтровать, для наглядности. Задача
будет такая: оставить все частоты до примерно 600 Гц, и убрать все более высокие. В идеале мы не
должны затронуть ни сам тон, ни тишину перед ним, вместе с тем сгладить переход, сделать рывок
не таким резким - то есть убрать из него все высокие частоты, которые дают резкие скачки
амплитуды. Пример очень искусственен, но хорошо показывает особенности разных фильтров.

Так получилось, что я буду в основном ругать фильтры. Будет гораздо лучше, если вы поймете, что
любой частотный фильтр, сильно изменяющий частотную картину - это прежде всего страшно, а уж
потом - полезно. В цифровой фильтрации очень важно знать меру - слишком сильна свобода выбора
как угодно жесткого фильтра, что не всегда полезно. Я даже несколько сгущаю краски - на самом
деле, всё не так плохо, как могло показаться, и если я говорю 'ужасные последствия' - это еще не
значит, что уши завянут сразу же, нет. Просто в обработке звука любая потеря - это всё же потеря,
которая когда-нибудь скажется, и поэтому - будем стараться терять как можно меньше.

И заодно - простая истина: цифровые фильтры всегда лучше аналоговых. В крайнем случае - они их
моделируют, в лучшем случае - предлагают такие возможности, которые просто нельзя получить в
аналоговой схеме.

• FFT фильтр
• IIR фильтры
• FIR фильтры

FFT фильтр
Самый простой в использовании, гибкий, понятный, наглядный, мощный... и опасный из всего
семейства, смертельный для звука инструмент в неумелых руках.

Идея фильтра проста. Разложить сигнал на частотные составляющие, умножить отдельные частоты
на требуемое изменение частотного распределения, синтезировать сигнал обратно. Чаще всего в
реализациях этого типа фильтра применяется сглаживающее окно и работа с перекрывающимися
FFT блоками.

Идея фильтра заманчива своей простотой. Но проблемы есть, и они огромны. Основная проблема -
блок FFT обработки представляет собой одно целое. Определенная частота - результат FFT - при
обратном синтезе пронизывает весь блок, и её нельзя просто так, без последствий, выкинуть или
усилить... От слов - к делу:
Исходный сигнал

Фильтрация с FFT = 8192

Фильтрация с FFT = 1024

Как видно, результат - как минимум странный. Обратите внимание на следующие искажения:

• Пре-эхо. В месте щелчка частоты больше 600 Гц в FFT разложении отвечали не за полезный сигнал,
а за то, чтобы синтезировать резкий переход. Этих частот не стало. Резкого перехода - тоже.
• Изменение амплитуды тона 440 Гц (с FFT = 1024). Причина - хоть и использовалась оконная
сглаживающая функция, частота 440 Гц не попала в FFT сетку с шагом ~43 Гц, которая
получилась от размера разложения 1024. Вывод - частоты выше 600 Гц тоже пошли на
представление частоты 440 Гц. Их не стало - амплитуда уменьшилась. На самом деле не только
амплитуда уменьшилась, а еще и форма колебаний изменилась - но этого на рисунке не
рассмотреть. Без наличия всех частот полноценный синтез исходной частоты, которая прошла
мимо FFT сетки, невозможен.
• В здоровом блоке (с FFT = 8192) очень сильно изменилась амплитуда колебаний рядом с переходом.
Обратите внимание на ошибочный рост амплитуды уже после установления тона. В большие FFT
блоки особенно нельзя сильно вмешиваться - размах блока таков, что что там характеризует одна
определенная частота - только богу известно. Вспомните так называемый спектральный шум...

В общем, в пределах одного FFT блока возможны серьезные искажения временных и амплитудных
параметров. Из этого вывод: нужно делать блок как можно меньше.
Минусы этого подхода: При уменьшении сетки частот ощутимо затрагиваются уже все частоты - и
фильтрованные, и нет. Это происходит из-за того, что частот, не попадающих в FFT сетку,
становится больше. Это плохо. При уменьшении FFT уменьшается разрешение по частотам - это
тоже плохо. Если мы, например, хотим работать с басом и нам есть разница между 100 и 110 Гц - мы
вынуждены использовать блоки с размером как минимум 4096, что уже достаточно для появления
неприятных эффектов.
Не рекомендуется делать блоки меньше 1024 - разрешение по частоте настолько падает, что смысл
применения именно этого фильтра вообще теряется. Зато из-за малого разрешения по частоте
появляется некая шершавость обработки, особенно на стыках блоков - будут появляться артефакты.

Для разнообразия - еще одна картинка. Убираем на этот раз все частоты меньше 600 Гц - то есть
наш основной тон должен уйти.

FFT = 1024

Мы выделили сам щелчок. Видно, что даже с таким маленьким размером FFT имеет место эхо с двух
сторон. Оно сильно возрастает при переходе на большие размеры FFT.

Уже вполне можно спросить - а зачем он вообще такой нужен? Дело в том, что и этот фильтр бывает
нужен, безопасен, более того - незаменим. Но вы должны абсолютно точно понимать, что вы
делаете. Например, вполне безопасны такие операции:

• Работа в области низких частот (ориентировочно - до 1 кГц). Даже сильные изменения АЧХ не
принесут очень плохих последствий.
• Фильтры для вырезания определенных частот (например, 50 Гц) в ноль. Узкие участки воздействия
почти не дают побочных эффектов, так как задевают лишь несколько частот разложения.
• Легкий эквалайзер. И вообще любая легкая обработка. Не забывайте только, что вы так или иначе
разглаживаете сигнал во времени в пределах FFT блока. Сильнее ли, слабее - но это происходит,
и тем сильнее, чем сильнее ваше вмешательство. Обширные по частоте уровни вмешательства с
более 3-5 дБ воздействием - опасны.

Чего ни в коем случае не нужно делать:

• Всегда ставить максимальный размер FFT. Нужный размер определяется интуитивно, в зависимости
от того, что вы делаете. :-)
• Использовать Triangluar или Hamming оконную функцию. Рекомендация - Blackman или Blackman-
Harris.
• Использовать FFT фильтр как эквалайзер. Для изменения тональной окраски всегда найдутся менее
вредные операции.
• Использовать этот фильтр на одних данных несколько раз, слегка изменяя время начала обработки.
Комбинируйте все операции в одну!
• Использовать его как жесткий обрезающий фильтр высоких частот. Почти всегда есть варианты
лучше (один хороший вариант - вообще этого не делать :).

Для чего он нужен:

• Для экстремальной фильтрации - когда результат обработки как факт более важен, чем возможные
неприятности.
• Для фильтрации определенных узких частот.
• Если важно сохранить фазовую информацию. FFT отличается большим уважением к фазе сигналов.
Помните, однако, что нам самим для восприятия фаза не очень важна.
• Для многого другого - если вы понимаете, что делаете.

В любом случае: проверяйте и тщательно анализируйте результат. На что обращать внимание - в


основном, смотрите на временные параметры - например, на фронты резких колебаний.

IIR фильтры
От Infinite Impulse Response - что-то вроде 'бесконечная отдача импульса'. В теории, влияние этих
фильтров не прекращается никогда, лишь затихая во времени. На практике оно, конечно,
прекращается, но всё равно - эти фильтры оставляют наибольший шлейф последствий. Не
обязательно плохих, просто - изменения сигнала идут всегда, вне зависимости от того, есть что
фильтровать или нечего в данный конкретный момент фильтрации. Это проще будет посмотреть на
примерах.

На IIR фильтрах в программах обычно построены такие функции, как:

• 'Научные' фильтры. Chebushev, Butterworth, Bessel, т.д. - это и есть собственно IIR фильтры. В таких
диалогах обычно имеется контроль над всеми параметрами.
• Параграфические фильтры - где задаются отдельные пики воздействия в виде {частота, ширина
воздействия, усиление/ослабление в дБ}, а также иногда фильтрация по краям диапазона (high-
shelf и low-shelf). Обычно здесь применяются фильтры второго порядка Butterworth или Bessel (см.
ниже).
• Параметрические фильтры типа low-pass, high-pass, band-pass - где указываются области частот и
ослабления нежелательных сигналов. Порядок фильтра обычно устанавливается автоматически -
и это может привести к очень неприятным последствиям.

А вообще - лучше посмотреть в справке к конкретной программе, какие именно фильтры


используются в той или иной обработке. Возможно, что программа, которую вы используете,
применяет другие фильтры для реализации диалогов фильтрации того типа, как я описал.
Прежде всего, хотелось бы вас послать к любой серьезной книжкой по цифровой обработке звука -
вопросы IIR фильтров там освещаются очень подробно. Я же предлагаю вам выжатое описание
эффектов фильтрации и советы в стиле кухонного рецепта по практическому использованию (или не
использованию) этих фильтров...

Начнем с того, что эти фильтры также опасны. Не так сильно, однако, как FFT, но всё же. Один IIR
фильтр - это фильтр, который воздействует на какой-то диапазон частот: или только частоты ниже
определенной границы, или только выше, либо между двумя заданными частотами. У IIR фильтра
есть такой параметр, как порядок. Чем он больше, тем сильнее граница по частоте между тем, на что
влияет фильтр, и тем, на что он не влияет. Иногда можно задавать параметр напрямую (CoolEdit -
научные фильтры), иногда он автоматическим образом зависит от желаемой резкости перехода
(SoundForge, parametric EQ). Вместе с тем, чем выше порядок фильтра, тем сильнее проявляются
искажения фазы, которые резко нарастают вблизи границ фильтрации. Разные типы фильтров
(Chebushev, Bessel, ...) обладают разными свойствами на границах перехода, но в этом обзоре -
только общие тенденции.
К примерам. Напоминаю - убираем все частоты выше 600 Гц.
Исходный сигнал

После фильтра порядка 2 (Butterworth)

После фильтра порядка 6 (Butterworth)

После фильтра порядка 12 (Butterworth)

Видно, что фильтр 2-го порядка справился так себе: во первых, относительно слабо убрал высокие
частоты - переход остался довольно резким, а во вторых затронул и 440 Гц. Его частотная
характеристика слишком плавная для точной фильтрации. Фильтры более высокого порядка
справились лучше, но сигнал заметно уплыл вправо, появилась задержка. Это - не что иное, как
фазовые искажения. Сигнал 440 Гц, хоть и не изменяя своей амплитуды, приобрел фазовый сдвиг,
да такой здоровый, что его уже можно называть задержкой. Проблема в том, что этот фазовый сдвиг
разный для разных частот - если бы в сигнале была частота 100 Гц, она бы почти не сдвинулась во
времени. Фазовые искажения - большой и почти единственный серьезный минус IIR фильтров.

Чего ни в коем случае не нужно делать:

• Без нужды использовать IIR фильтры высокого порядка. Фазовые искажения такого масштаба - очень
неприятная штука.
Во многих программах, например в SoundForge, надо быть особо осторожным - там не задается
порядок фильтра, а задается лишь желаемая резкость перехода. Если вы скажете ему в
параметрическом эквалайзере что-то вроде того, что хотите уменьшить частоты от 49 до 51 Гц на
60 дБ, при этом не трогая частоты уже 48 и 52 Гц - он вам вломит фильтр такого огромного
порядка, что вы потом свой звук вообще не узнаете.

[примечание: в версиях, начиная с 4.0, в SoundForge в этом месте (да и практически


везде) начали применяться другие фильтры - так называемые windowed-sinc
фильтры - частный случай FIR фильтров, которые уже не вносят фазовых
искажений (см. далее). Сейчас встретить IIR фильтры в чистом виде можно, в
основном, только в программах, ориентированных на обработку звука в реальном
времени - они очень быстры)]

Для чего они нужны:

• Слабые фильтры (с порядком 2 - 3) - хорошее средство для уменьшения высоких или низких частот с
определенной частоты. Что и применяется в параграфических эквалайзерах (high-shelf и low-
shelf).
• В принципе, с помощью этих фильтров не очень высокого порядка можно слегка (на пару дБ)
вырезать определенные частоты. Стоит разобраться, какие искажения вам более
предпочтительны - фазовые задержки (IIR) или временные (FFT фильтрация).
• Для фильтрации частот вне слышимой области (или в не очень важной области). Фазовые искажения
на далеком расстоянии от границы фильтрации минимальны, поэтому если вы работаете с
файлом в 192 кГц и хотите убрать все частоты выше 57 кГц (ну хочется вам.. :) - можете смело
использовать там IIR фильтр 30-го порядка.
• В виде слабых фильтров второго порядка (параграфические эквалайзеры) - изменять тональную
окраску звука там, где требуется точность по частоте (эти фильтры можно настроить очень точно
даже в области низких частот).
• Ими удобно, например, гасить резонансы чего-то с чем-то. Или убирать DTFM частоты (специальные
Notch фильтры) - обычно для этого используется фильтры с порядками 2 - 6.

В любом случае - фильтры порядка более 4 не следует использовать с большим энтузиазмом. Не


нужно без нужды вносить фазовые искажения. Фильтры малых порядков - довольно безобидная
штука, но они имеют плавные границы воздействий и сравнительно слабый эффект в несколько дБ
(этого, однако, почти всегда достаточно при правильной постановке задачи). IIR фильтры всегда так
или иначе вносят фазовые искажения, но при правильном применении эти искажения незаметны -
искажения фазы (задержки) до сотен градусов ухо не замечает.

FIR фильтры
От Finite Impulse Response - 'конечная отдача импульса'. Эти фильтры реализованы через процесс,
называемый сверткой (convolution): есть таблица размера n, которая комбинирует (складывает)
последние n точек функции в одну выходную точку, умножая каждую из них на определенное число -
весовой коэффициент. Таблица свертки строится один раз в начале по требуемому частотному
воздействию.
[На самом деле влоб делать свертку очень медленно. Применяется другой процесс, для больших
сверток в сотни раз более быстрый, но полностью аналогичный этому - FFT, умножение в частотном
пространстве, обратный синтез].

Эти фильтры обычно применяются в диалогах типа эквалайзера. Иногда каждому движку
(регулятору усиления определенной частоты) соответствует свой фильтр, воздействующий на
определенные частоты, иногда - синтезируется таблица свертки на основе всех движков сразу, то
есть применяется один сложный фильтр.

FIR фильтры - то, ради чего стоило вообще придумывать цифровую фильтрацию. Это наиболее
безопасный и надежный из всех процессов, имеющий лишь одно слабое место - трудно
управляемые параметры фильтрации. Сделать фильтр именно до мелочей такой, какой нам нужно,
особенно в области низких частот, может оказаться излишне трудоемким, что приведет к очень
медленной обработке. Для этого придется использовать слишком большие размеры свертки, а это
замедлит до трудно терпимой скорости даже в сотни раз ускоренный процесс. Однако сверхсильная
точность не всегда нужна, а очень хорошую точность обработки за приемлемое время он всё же
обеспечивает.
Кроме слабой управляемости к недостаткам можно отнести невысокую скорость работы фильтров с
большой сверткой (более точных фильтров). В принципе, сделав огромную свертку, мы получим
именно такой фильтр, как мы хотим, но фильтровать он будет почти вечно. В этом, а не в чем либо
другом, кроется причина того, что эти фильтры используются лишь в эквалайзерах - там не нужна
особая точность, важны лишь общие тенденции, которые неплохо соблюдаются и с маленькими
свертками.

Исходный сигнал

После FIR фильтра

Можно убедится в том, что фильтр совершенно не затронул те сигналы, которые не должен был
затрагивать. Правильно сконструированный FIR фильтр не влияет на фазу. В общем можно сказать
так: эти фильтры делают именно то, что должны делать, и ничего более.

О точности FIR фильтров:

Во многих программах есть параметр 'точность' (accuracy), иногда она даже напрямую измеряется в
точках (points) - числе элементов свертки, или convolution length (size). Этот параметр влияет только
на точность фильтра. Это не качество, это то, с какой точностью фильтр выполняет ваш заказ.
Если вы воздействуете на глубокий бас (около 40-50 Гц) - вам потребуются большие свертки (около
4000 точек) или самое качественное значение. Если вы работаете лишь с частотами выше 5 кГц -
вам хватит свертки в 500 точек, которая будет работать значительно быстрее. Если вы хотите влиять
на басы и поставите свертку 200 точек - единственное, что пойдет не так - фильтр просто не будет
воздействовать на басы должным образом, вот и всё. Потери качества обработки не будет, будет
лишь потеря смысла.

Для чего они нужны:

• Ответ очень простой. Если вы можете сделать то, что вам нужно, с помощью FIR фильтра - делайте
это. Более корректного отношения к необрабатываемым сигналам другими фильтрами не
добиться.

Целесообразно действовать так: сначала с помощью любых фильтров понять, что вам нужно, а
потом попытаться воплотить это с помощью FIR фильтров. Это наиболее качественная и корректная
настраиваемая фильтрация из всех возможных. Именно на таких фильтрах работают качественные
цифровые эквалайзеры, тогда как аналоговые - на IIR, единственных фильтрах, которые можно
реализовать в аналоговой схеме.

Единственное что - не пытайтесь применить FIR фильтры для точной фильтрации. Они могут это
делать, так же идеально как и обычную обработку, но слишком медленно. Для работы с конкретными
заданными частотами приходится использовать FFT или IIR фильтрацию.

Введение
Несмотря на то, что MP3 остается форматом de facto сжатия музыки на компьютере, существует
большое количество других, менее известных стандартов сжатия. Часть из них устарела и
практически не используется, некоторые появились недавно и еще не успели занять свою нишу.
Здесь я остановлюсь лишь на форматах, использующих сжатие с потерями (lossy compression), как
позволяющих добиться наибольшей степени компрессии аудиоданных.
Что значит "сжатие с потерями"? Лишь то, что файл, кодированный данным способом, а затем снова
декодированный в wave файл будет бинарно отличаться от первоначального файла (т.е.
содержимое файлов будет различным), хотя разница может быть малозаметна или совершенно
незаметна на слух. Каким же образом удается добиться подобного результата? На эти вопросы
отвечает психоакустика (см. например, подборку статей журнала «Звукорежиссер» за 1999-2000 г.г.),
относительно новая наука, занимающаяся изучением того, как человеческий мозг воспринимает звук.
Дело в том, что далеко не всякая звуковая информация воспринимается нами. Например, мы можем
достаточно отчетливо слышать шаги по асфальтовой дорожке в отсутствие посторонних звуков, но
те же самые шаги совершенно неслышны, если рядом проезжает легковой автомобиль. Это так
называемый эффект маскировки: тихий звук становится совершенно неслышим, если рядом
расположен источник громкого звука. Данный эффект, наряду с некоторыми другими используется в
психоакустических моделях современных кодеков. Сочетание обычных методов компрессии данных
и знания того, какая информация воспринимается нашим мозгом, а какая нет, позволяет добиться
степени сжатия музыки 1:10 при приемлемом качестве звучания.

Ниже я привел краткое описание наиболее распространенных и известных форматов сжатия


музыкальных файлов, которые могли бы быть использованы для создания домашней музыкальной
коллекции.

Wave файл с компрессией ADPCM


Кодек Microsoft ADPCM (Adaptive Differential Pulse Code Modulation, адаптивная дифференциальная
импульсно-кодовая модуляция), некогда популярный у пиратов, не желавших тратить время на
кодирование музыки в MP3 - далеко не образец качества. Для уменьшения объема файла
приходилось создавать восьми или даже четырехбитные wave файлы с частотой дискретизации
22Кгц, что давало весьма слабый результат. И если MP3 файл с фиксированным битрейтом 128Кб/с
звучит более-менее сносно (а для некоторых слушателей - идеально), то аналогичного размера wave
файл, сжатый кодеком ADPCM звучит просто ужасно.

ADPCM использует очень простой алгоритм сжатия, который обеспечивает высокую скорость
кодирования на слабых компьютерах, но абсолютно неприменим для хранения музыки. Крайне
низкое качество звучания при приемлемой степени сжатия привели к тому, что в данный момент для
сжатия музыки данный кодек почти не используется. Исключением являются компьютерные игры,
создатели которых нередко используют ADPCM WAV файлы для хранения саундтреков.

MP3
MPEG (от Motion Picture Expert Group – группа экспертов по движущимся изображениям) 1 Layer III
(реже MPEG 2 Layer III), также иногда именуемый людьми некомпетентными MPEG 3 (такого
формата не существует) уже долгие годы является для многих пользователей единственной
ассоциацией со словосочетанием "компьютерная музыка". Разработанный в конце 80х годов,
нетребовательный к ресурсам (воспроизведение MP3 файлов возможно даже на компьютерах с
процессорами 486) формат, позволявший сжимать музыку до 10 раз без катастрофических потерь
качества быстро прижился на домашних компьютерах. Хотя еще недавно большинство
кодировщиков были платными, сейчас несложно найти проигрыватели и кодировщики,
распространяемые по лицензии freeware. Через некоторое время стало ясно, что "CD качество" при
битрейте в 128 Кб/с невозможно, по крайней мере с данным стандартом, так
как с оснащением компьютеров более совершенными звуковыми картами и акустическими
системами позволяло выявить недостатки подобного кодирования. Вполне закономерным стало
повышение битрейта и совершенствование кодеков: технологии VBR и Joint Stereo
(комбинированное стерео) позволяли значительно сократить размер файла при повышении
качества. Современные кодировщики позволяют достичь качества звучания, на слух неотличимого
от компакт диска на битрейтах в диапазоне 192-256 Кб/с даже на высококачественной аппаратуре.
Тем не менее, в некоторых редких случаях (при наличии хорошего слуха и аппаратуры) даже
битрейта 320Кб/с бывает недостаточно. Трудность заключается в том, что сам по себе формат MP3
имеет недостатки, от которых практически невозможно избавиться. Одним из них является так
называемый эффект преэхо, из-за которого кодирование определенных сигналов сопряжено со
значительными трудностями. На практике же использование постоянного битрейта 320Кб/с зачастую
оказывается избыточным и чаще всего приводит к бессмысленной трате места.

Качество звучания MP3 файла может сильно зависеть от выбранных кодировщика и проигрывателя.
Для создания MP3 файлов идеально подходит бесплатный LAME (кодировщики Fraunhofer являются
платными и позволяют достичь сравнимого с LAME качества, а кодеры Xing, Blade и большинство
других не заслуживают внимания), а для воспроизведения – одна из последних версий Winamp 2.

MP3pro
Данный формат был создан вовсе не для того, чтобы "убить" или "заменить" MP3, позволяя лишь
добиться приемлемого качества звучания на низких битрейтах. Если "классический" битрейт в 128
Кб/с некоторыми слушателями и воспринимается, как дающий качество, близкое к идеальному, то
даже незначительное его понижение вызывает появление большого количества отчетливо
слышимых искажений. Для передачи музыки в интернет используются обычно именно низкие
битрейты, которые являются далеко не сильной стороной "обычного" MP3. Здесь MP3pro и
проявляет себя с лучшей стороны: частичная совместимость с MP3 (то есть MP3pro файлы, будут
проигрываться и обычными MP3 плеерами, не поддерживающими нового формата, но со
значительным ухудшением качества) и новая технология SBR, восстанавливающая высокие частоты
способны в немалой степени посодействовать продвижению нового формата на просторах
глобальной сети. Для хранения музыки высокого качества MP3pro совершенно не годится: даже при
использовании максимально доступного для большинства кодеков битрейта 96 Кб/с слышны
искажения, хотя по сравнению со многими другими форматами, поддерживающими низкие битрейты
результаты работы кодека MP3pro заметно лучше. При повышении битрейта качество файлов
падает по сравнению с остальными форматами и уже при битрейтах 128Кб/с разумнее использовать
MP3 или OGG Vorbis.
Не думаю, что у MP3pro есть большое будущее: слишком узкая сфера применения (в основном
Интернет и портативные MP3 проигрыватели) плюс лицензирование, требующее от разработчиков
вложения немалых средств наверняка будут иметь решающее значение в конкурентной борьбе.

«Ложкой дегтя» при использовании формата может стать отсутствие доступных бесплатных
кодировщиков: демонстрационный кодер/проигрыватель Thomson имеет очень ограниченные
возможности и очень неудобен в работе, Jet Audio и MusicMatch Jukebox имеют слишком большой
размер и также неудобны.
Небольшое замечание: плагин воспроизведения MP3pro/MP3 файлов для Winamp, даже в последней
версии содержит ошибки, что может изрядно испортить впечатление от его использования.

MPEGplus/Musepack (MP+/MPC/MPP)
Данный кодировщик похож по принципу действия на MPEG Layer II (MP2), но использует более
совершенный алгоритм. В отличие от большинства других современных кодеков целью создателей
Musepack было вовсе не стремление получить максимально возможное качество на низких
битрейтах: лучше всего формат показывает себя на средних и высоких битрейтах (типичный битрейт
файлов обычно находится в диапазоне 160-180Кб/с). Великолепная психоакустическая модель,
использующая VBR кодирование позволяет добиться прекрасного качества звучания. В результате
кодек показывает результаты более высокие, чем большинство его соперников на аналогичных
битрейтах. Скорость работы кодировщика достаточно высока: на создание MPC файла тратится
примерно в два раза меньше времени, чем на создание MP3 файла при помощи lame с
аналогичными настройками.
Качество файлов, получаемых при сжатии в MPC значительно превышает качество аналогичных
файлов MP3. При использовании настройки --normal кодировщика я ни разу не смог отличить
кодированный файл от оригинала в ABX тесте. Более того, MPC файлы, созданные таким образом
звучат лучше, чем высококачественные MP3 файлы с битрейтом 320Кб/с (разумеется, в тех редких
случаях, когда данное сравнение можно проводить). Следует сказать, что именно пресет normal
является "изюминкой" формата. Данный режим, вопреки названию, дает результат, абсолютно
неотличимый от оригинала на слух, причем разницу не ощущают даже люди, обладающие
прекрасным слухом и качественным оборудованием.

Одним из серьезных недостатков нынешней версии Musepack является ограничение на формат


файла: 44КГц, 16 бит, стерео, что делает его неприменимым для, например, сжатия звуковых
дорожек к фильмам на DVD. Отсутствие аппаратной поддержки также может стать препятствием при
выборе формата.

Если совместимость с MP3 для вас не слишком важна, а качество итогового файла желательно
получить максимально высоким, выбор Musepack может оказаться идеальным решением.
Использование этого формата является реальной альтернативой использованию сжатия без потерь
для кодирования музыки с компакт дисков тем, кто уже разочаровался в возможностях формата MP3.

AAC
Формат Advanced Audio Coding (расширенное аудио кодирование), также известный как MPEG2 nbc
(not backwards compatible, не обратно совместимый) является преемником формата MP3. Сочетая в
себе алгоритмы кодирования MPEG2/MPEG4 AAC имеет более широкие, чем MP3 возможности:
возможность кодирования нескольких звуковых каналов с частотой дискретизации до 96Кгц и более
высокое, чем у MP3 соотношение качество/размер делают его весьма привлекательным как для
создания музыкальной коллекции, так и для кодирования многоканальных звуковых дорожек.
Качество звучания файлов, сжатых при помощи AAC оценивается как отличное.
Если вы хотите получить относительно небольшого размера файлы с очень хорошим качеством,
следует обратить внимание на этот формат. Он прекрасно подойдет как для архивного хранения
музыки (без заметной потери качества), так и для создания небольшой высококачественной
музыкальной коллекции. На данный момент уже есть несколько моделей аппаратных
проигрывателей, имеющих поддержку формата AAC.
Тем не менее в использовании AAC есть свои трудности: алгоритмы кодирования, используемые в
данном формате достаточно сложны, поэтому для создания AAC файла требуется значительное
количество времени и системных ресурсов.

Следует отметить, что существует несколько кодеков AAC, различающихся по качеству/скорости и


не всегда совместимых друг с другом. Я бы порекомендовал в качестве кодировщика бесплатно
распространяемый psytel.

TwinVQ (VQF)
VQF (Vector Quantisation Format, формат с векторной квантизацией), является частью спецификации
MPEG4. Как формат сжатия музыки VQF ныне мертв. Любой посетитель сайта VQF.com будет
встречен следующей не слишком оптимистичной надписью: "VQF.com is now shut down. The VQF
format is now out-of-date. We feel it is negligent to continue representing the format as a "cutting edge" one
when it is no longer such. This site may reopen with the release of 192kbps VQF. Until that point, however,
it will remain closed." Так что же представляло собой данное детище Yamaha? VQF был форматом
сжатия музыки, изначально ориентированным на использование низких битрейтов. По заявлениям
разработчиков качество звучания VQF файла с битрейтом 80 Кб/с близко к 128Кб/с MP3 (по ряду
причин данный битрейт является "камнем преткновения" разработчиков алгоритмов кодирования
звука), а битрейт 96Кб/с дает более высокие результаты. Психоакустическая модель VQF
существенно отличалась от всех использовавшихся до этого, позволяя получать более высокое
качество, чем прежде. Несмотря на данные достоинства, практическое использование формата
было несколько затруднено по ряду причин: воспроизведение VQF файлов требовало большей
мощности процессора, чем MP3; поиск по файлу осуществлялся медленно, а кодирование одной
композиции проходило достаточно долго. Разница в размере файлов по сравнению с MP3 никак не
могла компенсировать все недостатки формата, а отсутствие поддержки высоких битрейтов лишь
усугубило положение. Еще в 2000 году разработчики заявляли о своих планах по разработке кодера,
способного создавать VQF файлы с вдвое большим битрейтом (соответственно, с более высоким
качеством), но с тех пор мало что изменилось: последняя версия программы Nero Burning ROM
содержит плагин, позволяющий создавать VQF файлы с битрейтом до 192Кб/с. О других
программах, поддерживающих VQF2 мне ничего не известно.

WMA
Формат Windows Media Audio был разработан всенародно любимой Microsoft в качестве очередного
"заместителя" MP3. Помимо обычных для разработчиков обещаний "качество звука, как у MP3, но
при вдвое меньшем размере файла" создатели позаботились о защите данных внутри музыкально
файла. На практике для рядового пользователя это оборачивалось невозможностью редактировать
теги уже готового WMA файла, а также множеством проблем, связанных с так называемыми
защищенными WMA файлами (например, записанный дома файл нельзя было воспроизвести на
рабочем компьютере). Для того чтобы проиграть защищенный файл часто требовалось загрузить из
интернет специальный сертификат, обычно позволявший прослушивать композицию в течение
ограниченного времени, по окончании которого вам нужно было либо заплатить за использование
файла и получить возможность слушать его в дальнейшем, либо купить компакт диск с
понравившейся композицией. Формат постоянно совершенствуется, постепенно появляется
поддержка более высоких битрейтов (до 160 Кб/с в новых версиях кодека).

Качество звучания WMA файла вполне сравнимо с качеством MP3 файла с тем же битрейтом,
иногда превышая MP3 на низких битрейтах. Немалым плюсом можно считать то, что кодировщики
WMA уже встроены в Windows, а последние версии Windows Media Player позволяют кодировать
компакт диски сразу же в новый формат. На некоторых интернет сайтах, посвященных сжатию
музыки можно встретить призывы не использовать WMA из-за его относительно низкого качества
звучания. Лично я через некоторое время отказался от использования данного формата, т.к. на
битрейтах 64 и 96Кб/с искажения и артефакты отчетливо слышны даже на не слишком качественной
аппаратуре, а повышения качества по сравнению с аналогичными файлами MP3 на более высоких
битрейтах я не заметил. Так что заявления Microsoft о том, что WMA 64Кб/с это «CD качество»
советую рассматривать не более, чем глупую шутку. На своем сайте Microsoft регулярно проводит
тестирование новых версий кодека (преимущественно на битрейтах до 128 Кб/с), противопоставляя
им устаревшие или низкокачественные кодировщики MP3. Неудивительно, что WMA выходит в
подобных тестах победителем.

В данное время формат WMA наряду с MP3 поддерживается большим числом производителей
портативных аппаратных проигрывателей, что является несомненным плюсом.

Вряд ли файлы, сжатые по технологии WMA удовлетворят качеством звука любителей


высококачественной музыки, но менее привередливых пользователей данный кодек вполне может
устроить.

Недавно появившийся формат WMA9, поддерживает кодирование с переменным битрейтом, а также


сжатие без потерь (loseless) . Несмотря на это никаких принципиальных улучшений качества новая
версия кодировщика не принесла: сжатие с потерями все еще недостаточно качественна, а
результаты loseless компрессии хуже, чем у современных свободно распространяемых
кодировщиков.

Liquid Audio
Еще один закрытый коммерческий формат. Используя современные высококачественные алгоритмы
AAC и ATRAC он позволяет получить результат по качеству звучания превосходящий аналогичный
MP3 файл. Кроме самого аудиотрека внутри LQT файла может храниться дополнительная
информация: сведения об исполнителе и альбоме, тексты песен, графика и т.д. Содержимое файла
шифруется во избежание нелегального копирования.
Недостатком для домашнего использования может являться сложность декодирования файлов LQT
в wave (для последующей записи на CD-R/RW) и отсутствие бесплатных кодировщиков. Для
кодирования музыки дома лучше подойдет "обычный" AAC.

OGG Vorbis
Еще до выхода финальной версии кодировщика не утихал шум вокруг этого нового формата сжатия
музыки. Заявления разработчиков выглядят заманчивыми: полная открытость формата и его
свобода от различных патентов (в отличие от MP3 и многих других форматов), поддержка широкого
диапазона частот дискретизации (8-48 Кгц) и битрейтов (от 16 до 256 Кб/с на канал), возможность
кодирования не только стерео сигнала, но и нескольких каналов аудио данных, высокое качество
звучания и многое другое. Считается, что битрейта 160-190 Кб/с достаточно для обеспечения
звучания, на слух неотличимого от компакт диска. Лично у меня никаких нареканий по поводу
качества не возникало за все время использования формата. По умолчанию многие кодировщики
(например, oggdrop) используют специальный режим настройка качества, регулируемый
безразмерной шкалой от 0.1 до 10. Обычно 4-5 дает очень хороший результат на большинстве
звуковых файлов, а a файл, созданный с параметром –q6 практически неотличим от оригинала.
Использование данной шкалы намного удобнее ручной настройки множества параметров
кодировщика, так как определенным диапазонам шкалы уже соответствуют оптимальные настройки
кодера.

По умолчанию для создания Ogg Vorbis файлов используется кодирование в режиме VBR,
позволяющем достичь более высокого соотношения качество/размер за счет оптимального выбора
битрейта в зависимости от характера музыки, хотя возможно использование постоянного битрейта.
Информация об исполнителе, названии композиции и т.д. хранится в Unicode, что позволяет
избежать в тэгах проблем с символами, отличными от латиницы, да и сама по себе организация
тэгов реализована более грамотно, чем в ID3V2 (достаточно новый формат тэгов MP3/AAC файлов).
У разработчиков поистине наполеоновские планы: сделать OGG единственным форматом для
хранения музыки и передачи ее через Интернет, вытеснив все остальные "коммерческие" форматы.

Не знаю, сумеет ли Vorbis потеснить позиции MP3, но то, что у него есть для этого весьма веские
основания - несомненно. По качеству звучания OGG файлы превосходят MP3 на аналогичных
битрейтах, а на низких битрейтах (до 64Kb/s) способны соревноваться с MP3pro.
Качество Звучания
Качество звучания - параметр исключительно субъективный и может варьироваться в широких
пределах для различных людей. Если речь идет о так называемом архивном кодировании музыки,
когда нежелательны слышимые различия между оригинальным файлом и файлом полученным
путем декодирования сжатого звукового файла, то подразумевается, что музыка будет
воспроизводиться на высококачественной Hi-Fi (или даже Hi-End) аппаратуре, а вовсе не на
компьютерных колонках стоимостью $15-20. Современные кодеки позволяют добиться звучания
кодированного файла, неотличимого на слух от компакт диска даже на хорошей аппаратуре при
степени компрессии примерно 1:5. Для повседневного же прослушивания музыки на компьютере
обычно выбирают более высокую (до 1:10 или даже 1:20) степень сжатия звука, в результате чего
удается создавать файлы меньших размеров за счет понижения качества. Субъективно оно может и
не измениться: в частности, обычные компьютерные колонки нередко вносят заметно больше
искажений, чем алгоритм кодирования.

Иногда при сравнении качества кодировщиков или форматов пользователи или разработчики
употребляют термин "качество MP3". Под этим словосочетанием часто подразумевается звучание
MP3 файла с постоянным битрейтом 128Кб/с, сжатого при помощи одного из кодировщиков
Fraunhofer (создатели формата MP3). Битрейт 128 Кб/с выбран не случайно. Он является тем
разумным пределом, когда его понижение ведет к слишком ощутимой разнице в звучании исходного
и кодированного файлов, а размер получаемого в результате кодирования файла подходит для
выкладывания музыкальных файлов в Интернет.

Нередко аргументом в пользу более высокого качества звука называется битрейт файла. Данный
подход не совсем корректен, так как качество звучания файла одного и того же формата может в
большой степени зависеть от настроек кодировщика и используемой программы кодирования.
Гораздо более корректным будет указание типа кодировщика, его версии и использованных
настроек. К тому же многие современные кодеки позволяют производить кодирование в режиме VBR,
а при одинаковом среднем битрейте VBR файл обычно имеет заметно более высокое качество, чем
CBR или ABR файлы.

Относительно настроек кодеров можно сказать, что в большинстве случаев пользователь не ощутит
разницы между файлом, сжатым с использованием пресета normal/standard (используется во многих
кодеках) и изначальным файлом.
Еще раз оговорюсь, что на различных типах музыки различные кодировщики с различными
настройками могут демонстрировать разные результаты.

Заключение
Оптимальным вариантом для создания домашней коллекции музыки является mp3. Данный формат
наиболее распространен, а наличие большого числа бесплатных кодировщиков и проигрывателей
под большинство современных операционных систем будет содействовать тому, что он останется
лидером по популярности в ближайшие годы. К тому же подавляющее большинство аппаратных mp3
проигрывателей поддерживают только этот формат. К недостаткам MP3 можно отнести низкий
коэффициент качество/размер.

MP3pro не настолько универсален и ориентирован прежде всего на использование в интернет и


портативных аппаратных проигрывателях, поддерживающих данный формат, где размер файла
играет решающее значение (хотя в связи с ростом популярности MP3/CD плееров данная
особенность не столь актуальна). Впрочем, если качество звучания вас устроит, никто не мешает
использовать его для хранения музыки на домашнем компьютере.

VQF так и не смог отвоевать у mp3 позиции и уступил свое место более совершенным разработкам.
Несмотря на то, что VQF файлы еще можно встретить в Интернет архивах, использование этого
формата для кодирования музыки в данный момент неактуально: для тех же целей можно
использовать MP3pro или OGG Vorbis.
WMA как закрытый коммерческий стандарт вряд ли сможет вытеснить MP3, тем более, что обычному
пользователю возможность работы с тегами и декодирования файла в WAV (с целью последующей
записи на CD-R/CD-RW диск) обычно дороже защиты музыкального файла и сомнительного
выигрыша в размере. На данный момент единственным аргументом в пользу WMA являются
наличие аппаратных проигрывателей, все же остальные «достоинства» формата носят
исключительно рекламный характер.

Примерно то же самое можно сказать и о LQT: он хорош для звукозаписывающих студий,


выкладывающих демонстрационные записи в Интернет; рядовому пользователю его использование
может доставить немало проблем.
AAC еще не получил достаточного распространения, хотя имеет немалые перспективы, особенно
учитывая поддержку формата со стороны крупнейших компаний.

OGG Vorbis только начал набирать популярность, хотя уже на данный момент он имеет
значительное число поклонников. Данный формат можно порекомендовать всем, для кого размер
итогового файла имеет решающее значение.
Musepack, - не слишком популярный, но весьма неплохой формат для хранения высококачественной
музыки может успешно заменить MP3 любителям качественного звука, позволяя добиться
непревзойденных результатов. На данный момент Musepack является форматом, позволяющим
добиться максимально высокого качества при использовании сжатия с потерями.

Что же касается wav файлов, сжатых кодеком ADPCM, то использование этого кодека для хранения
музыки крайне нежелательно.

Глоссарий:
Битрейт (bitrate) – количество бит, необходимых для кодирования 1 секунды звука. Так, битрейт
несжатого файла формата 44.1КГц 16 бит, стерео (компакт диск) будет 16*44100*2=1411200 или
1411.2 кб/с (kbps)
Частота дискретизации, частота выборки (sample rate, sampling rate) При преобразовании
аналогового звука в цифровой сигнал сэмплируется, т.е. преобразуется в дискретные значения,
диапазон значений для 16 бит будет от –32768 до 32767.

Кодирование с постоянным битрейтом (CBR, constant bitrate) – режим кодирования, при котором
битрейт остается неизменным независимо от характера музыки. Основной задачей кодировщика в
этом случае будет необходимость получения максимально высокого качества файла при
неизменном потоке.

Кодирование со средним битрейтом (ABR, average bitrate) - режим кодирования, промежуточный


между CBR и VBR. При кодировании указывается желаемый средний битрейт. В случае
необходимости кодировщик может немного повышать битрейт или понижать его, позволяя добиться
более высокого соотношения качество/размер. Недостатком режима ABR является более низкое
качество, чем получаемое в VBR режиме. Достоинством – более-менее однородный поток и как
следствие – легко предсказуемый размер файла.

Кодирование с переменным битрейтом (VBR, variable bitrate) – режим кодирования, при котором
кодировщику задается желаемый уровень качества. При кодировании кодек сам выбирает
необходимый битрейт для сжатия каждого фрагмента записи, при этом диапазон используемых
битрейтов может быть очень большим. Данный режим позволяет добиться максимального
соотношения качество/размер, однако размер итогового файла часто сложно предсказать (например,
при сжатии musepack –normal средний битрейт файла может быть как 140, так и 210). Недостатком
VBR является невозможность использования его для Интернет трансляций при малой ширине
канала.
Joint Stereo – один из способов кодирования стереосигнала, при котором учитываются схожесть
сигналов правого и левого каналов. Правильно спроектированная модель JS позволяет получить
более высокие результаты, чем кодирование каждого из каналов отдельно.
SBR (spectral band replication) – технология, позволяющая восстанавливать высокие частоты за счет
информации, содержащийся в других областях спектра и небольшого потока дополнительных
данных. Позволяет повысить качество звучания файлов при использовании низких битрейтов.

DRM (digital rights management) – набор средств, призванных защитить запись от нелегального
копирования.

Артефакт (artifact) – посторонние звуки и искажения, возникающие в процессе кодирования записи.


Наличие артефактов и искажений обусловлено несовершенством психоакустических моделей
кодировщиков.

Преэхо (preecho) - артефакт, часто отчетливо слышимый при кодировании четких резких звуков
(например, звука хайхэтов ударных установок). Проявляется в том, что эхо появляется перед звуком,
вызвавшим его.

Пресет (preset) – Современные кодировщики могут быть достаточно сложны в настройке (например,
lame или psytel). Для того, чтобы избавить пользователя от необходимости запоминать длинные
последовательности ключей и параметров, необходимых для создания файла большинство
современных кодировщиков имеет пресеты: заранее заготовленные и оптимизированные наборы
установок, которые гораздо легче запомнить. Например, пресет r3mix соответствует следующиму
набору параметров командной строки lame: “ --nspsytune --vbr-mtrh -V1 -mj -h -b96 --lowpass 19.5 --
athtype 3 --ns-sfb21 2 -Z --scale 0.98 ”

ABX тест – один из способов сравнения файлов, сводящий к минимуму случайные совпадения и
исключающий влияние так называемого «эффекта пустышки». См. www.pcabx.com для получения
подробной информации по методике тестирования.

Полезные ссылки:
• http://www.mp3dev.org/ - сайт, на котором можно найти немало полезной информации по
технологиям сжатия звука, базирующихся на стандартах MPEG: MP3, AAC, VQF.
• http://www.mp3prozone.com/ - сайт, посвященный формату mp3pro.
• http://www.xiph.org/ - сайт, на котором можно найти много информации по новому формату ogg
vorbis.
• http://www.stud.uni-hannover.de/%7eandbusch/audiocoder_eng.html - страничка разработчика
формата mpegplus, содержащая подробную информацию о данном формате.
• http://www.Musepack.org - неплохой сайт для начального знакомства с форматом Musepack.
• www.r3mix.net - сайт, посвященный различным технологиям сжатия звука. Хорошая подборка
ссылок на другие ресурсы. Сайт достаточно давно не обновлялся, но его материалы все еще
актуальны.
• http://www.inf.ufpr.br/~rja00/ - rare wares - множество бесплатных программ для кодирования музыки,
которые не всегда легко найти в других источниках: кодировщики и декодировщики различных
форматов, графические оболочки (фронтенды) к популярным кодировщикам и т.д.
• www.hydrogenaudio.org - лучший форум, посвященный различным технологиям кодирования звука.
В форуме часто можно встретить достаточно известных людей, например Peter Pawlowski, автора
множества плагинов к Winamp 2/3.
Автор выражает благодарность Илье Палопеженцеву за помощь в подготовке материала.
Р ассмотрим интересную и очень познавательную проблему - умножение частот колебаний в

аналоговой схеме. Это приходится делать довольно часто. А как это сделать? Я, помнится, в
детстве часто задавался этим вопросом. И не мог придумать вразумительного ответа... Меня в
очередной раз попросили объяснить, и я подумал - вдруг, даже наверняка, это покажется кому-то
любопытным?

Прежде всего, надо взять саму частоту. Допустим, 100 герц.

Будем умножать. Второй шаг довольно оригинален - я, помнится, сильно радовался, когда узнал его
принцип: вносим в сигнал искажения. В обычной аналоговой схеме для этого применяется любой
нелинейный элемент - например, диод. Я применяю эмуляцию включения диода параллельно
сигналу - он не пропускает ток даже в прямом направлении (т.е. в нашем случае не искажает сигнал)
до определенной амплитуды (т.е. до определенного напряжения на нем), но начинает пропускать его
после некой точки. Кстати, специфический диод, используемый в таком режиме, называется
стабилитрон - средство ограничения напряжения на определенном уровне. Короче говоря, срубили
сигнал выше определенного уровня - весь "излишек" стекает через диод:

Таким образом мы получили сильные гармонические искажения сигнала - то, чего стараются
избегать в звуковых схемах. Появились четные гармоники исходной частоты - т.е. частоты 200 Гц,
300 Гц и т.д. Мы уже умножили! Умножитель частоты - на единственном диоде. Одна проблема -
непонятно, на сколько, собственно, умножили. Частот у нас получилось до чертиков - и нужных, и не
нужных:
Теперь надо решить, на сколько мы будем умножать. Вот я пометил на рисунке вторую гармонику -
то есть мы будем умножать на два. Например. И тут вскрывается сильное ограничение
элементарных умножителей частот - они работают лишь в определенном диапазоне. Поясняю: наш
следующий шаг - построить фильтр, который уберет все частоты, кроме красного отрезка (на
рисунке). Но сам этот фильтр рассчитан на определенный диапазон результирующих частот. Т.е.