Любой предмет, совершающий возвратно-поступательные движения (камертон, струна рояля или гитары,
наши голосовые связки и т.д.), вызывает в воздухе попеременное уменьшение или увеличение плотности.
Движения одних молекул воздуха передаются другим молекулам, в результате чего в пространстве
распространяются периодически повторяющиеся зоны увеличения и уменьшения плотности. Они-то и
представляют собой звуковую волну(Рис. 1.). Если мы в каком-то месте поставим прибор, способный
реагировать на изменение плотности воздуха, запишем его показания в течение некоторого времени и
составим график зависимости плотности от времени, то получим кривую, близкую к синусоиде, знакомую нам
по школьным учебникам физики (Рис. 2). Именно такие колебания и улавливаются нашим ухом, в результате
чего мы получаем ощущение звука.
Рис.1
Рис 2
Частота волны обратно пропорциональна длине волны - отрезку на оси распространения волны, в котором
умещается полный цикл (период) изменения плотности воздуха. Чем больше частота звука, тем меньше
длина волны и наоборот. Длину волны очень легко вычислить по формуле l=C/f, где C - скорость звука (340
м/с), а f - частота звуковых колебаний. Например, волна, имеющая частоту 100 Гц, имеет длину 340/100=3.4
м.
Амплитудой звуковой волны называется половина разницы между самым высоким и самым низким
значением плотности. На графике амплитуде будет соответствовать разница между самой высокой (или
низкой) точкой волны и горизонтальной осью графика.
Для описания относительных временных свойств двух звуковых волн (или разных частей одной волны)
вводится понятие фазы звуковой волны. Посмотрите на рисунок. На первом графике показаны две волны,
которые полностью совпадают друг с другом. В этом случае говорят, что волны находятся в фазе. На третьем
графике в том месте, где у одной волны находится область высокой плотности, у другой - область низкой
плотности. В этом случае говорят, что волны находятся в противофазе. При этом, если волны одинаковые,
происходит их взаимное уничтожение (в природе это бывает крайне редко, чаще противофазные волны при
наложении сильно искажают звук). Средний график показывает некое промежуточное положение. В этом
случае говорят, что фаза одной волны сдвинута относительно другой.
Но в акустике, при оценке интенсивности звуковых волн чаще применяется другое понятие - сила звука. Оно
показывает поток звуковой энергии, который каждую секунду проходит через квадратный сантиметр условной
плоскости, расположенной перпендикулярно направлению распространения волны. Звуковое давление и
сила звука находятся в квадратичной зависимости. То есть, сила звука = звуковое давление в квадрате. Сила
звука описывает энергетические свойства самой волны и измеряется в ваттах/квадратный сантиметр
(Вт/кв.см.). Такая единица бывает очень удобна при некоторых расчетах - это единственная причина ее
введения.
Для того, чтобы мы смогли услышать тот или иной звук, его сила должна быть больше определенного уровня.
Этот уровень называется порогом слышимости. То есть, если звуковая волна имеет малую интенсивность -
ниже этого порога, мы просто не воспринимаем ее, и нам кажется, что вокруг стоит полная тишина, хотя на
самом деле воздух вокруг колеблется. Точно также дело обстоит и со звуками большой интенсивности - мы
слышим звук только до определенного уровня, который называется болевым порогом. Если сила звука
больше этого уровня, то мы испытываем боль в ушах. Разница между уровнями болевого порога и порога
слышимости называется динамическим диапазоном слуха. Мы способны воспринимать изменения силы звука
в огромных пределах: сила звука болевого порога превосходит силу звука порога слышимости в тысячу раз!
Наш слуховой аппарат устроен таким образом, что линейное изменение силы звука (или звукового давления)
не воспринимается нами как линейное изменение громкости. Громкость звука и его сила связаны между
собой более хитрой зависимостью. Увеличение громкости в два раза соответствует увеличению силы звука в
100 раз (звукового давления - в 10 раз), увеличение громкости в 3 раза соответствует увеличению силы звука
уже в 10000 раз (звукового давления - в 100 раз), а увеличение громкости в 4 раза соответствует изменению
силы звука в 100000000 раз (звукового давления - в 10000 раз)! Такая зависимость называется
логарифмической, и именно из-за такой особенности нашего восприятия изменение уровня (громкости) звука
принято измерять в логарифмических единицах - белах (Б).
Различие величин силы звука в белах вычисляется по формуле: N=lg I1/I2 (на всякий случай, напомним, что lg
- это десятичный логарифм, и он показывает степень, в которую возводится число 10; то есть, если 10lg=100,
то lg=2, иначе lg100=2), где N - изменение уровня звука, а I1 и I2 - верхняя и нижняя границы силы звука.
Десятикратное увеличение силы звука соответствует 1 белу (lg10=1), а стократное увеличение соответствует
двум белам (lg100=2) и т. д. Словом, логарифмическая шкала позволяет достаточно сильно «сжимать»
линейную шкалу, сохраняя при этом достоверность. И именно такая шкала полностью соответствует
особенностям нашего слуха.
Изменение уровня звука в один бел одинаково отражает и изменение силы звука, и изменение звукового
давления. Если вы подставите в вышеприведенную формулу соответствующие значения звукового давления
(памятуя, что сила звука = звуковое давление в квадрате), то получите те же самые значения изменения
уровня в белах. Судите сами:
Проверяем. Изменение звукового давления в 100 раз соответствует изменению силы звука в 10000 раз (I=P2).
Подставляя эти значения в вышеприведенную формулу, мы получаем следующие вещи: lg 10000=4 бела
(изменения силы звука); 2lg 100=2х2=4 бела (изменения звукового давления). Как видите, в обоих случаях мы
получили одинаковые изменения уровня звука в белах.
Но на практике оказывается, что бел - это слишком большая величина для изменения уровня. Поэтому чаще
применяется децибел (дБ) - десятая часть бела. То есть изменение уровня в децибелах будет вычисляться
по формуле N=10 lg I1/I2 или N=20 lg P1/P2. Минимальный перепад уровня, который способно воспринять наше
ухо, как раз равен одному децибелу. Это одна из главных причин введения такой системы измерения уровня.
А весь динамический диапазон слуха составляет 120 дБ. Согласитесь, что гораздо удобней оперировать
единицами, которые мы можем услышать.
Изменение уровня звука обычно оценивается в децибелах относительно порога слышимости. Когда говорят,
что уровень звука в колонках равен ста децибелам, подразумевают, что колонки работают на уровне,
превышающем порог слышимости на 100 дБ.
Для того, чтобы как-то почувствовать такой непростой способ измерения уровня звука (лишь отражающий
парадоксальность нашего слухового восприятия), мы приведем таблицу со знакомыми вам звуковыми
объектами и уровнями звука, которые они производят. Просмотрев эту таблицу, вы сможете более наглядно
представить себе логарифмическую шкалу уровня.
Слуховой порог 0
Шепот на расстоянии 1 м 20
Шум в квартире 40
Шепот на расстоянии 10 см 50
Аплодисменты 60
Кстати говоря, последняя строчка таблицы показывает уровень звука, превышающий болевой порог. Поэтому
никогда не пытайтесь послушать звук барабана прямо у мембраны - ощущения будут очень неприятные.
Теперь давайте более подробно поговорим о громкости звука - нашем субъективном ощущении от звуковых
волн, имеющих разный уровень (звуковое давление, силу). Наше ощущение громкости во многом зависит от
частоты звука. Высокие и низкие звуки, имеющие одинаковый уровень, субъективно воспринимаются нами как
звуки разной громкости. А значение уровня звука и субъективно слышимой громкости совпадают только на
частоте 1000 Гц. На основании исследований человеческого слуха были построены графики, которые
известны каждому звукорежиссеру как кривые равной громкости. На них изображены линии (они расположены
через 10 дБ на частоте 1000 Гц), которые соответствуют одинаково воспринимаемой громкости на разных
частотах (см. рисунок). Легко можно видеть, что мы гораздо лучше слышим на средних частотах. А вот на
низких и высоких частотах чувствительность слуха притупляется.
Из графика кривых равной громкости следует важный для практической деятельности вывод. Посмотрите на
рисунок - наиболее линейно мы воспринимаем звук при уровнях 80-90 дБ. То есть при таких уровнях
громкости наши уши наиболее адекватно передают звуковую картину. Поэтому любые работы по
корректировке звучания фонограмм лучше всего делать при достаточно высокой громкости звука в
акустических системах - 80-90 дБ (примерно такой же уровень имеет шум в вагоне метро - см. таблицу). Если
мы будем заниматься работой со звуком при меньших уровнях, то вероятность ошибки будет возрастать -
ведь восприятие низких и высоких частот будет притупляться.
Тембр звука
Гитарист может извлекать из своего инструмента высокие и низкие, громкие и тихие звуки. Но что гитару
делает гитарой? Почему ее звук отличается от звука фортепиано? Все объясняется довольно просто:
реальные звуки представляют собой созвучия, состоящие из нескольких простых звуковых волн. От
комбинаций этих волн и зависит тембр инструмента.
У каждого созвучия есть основной тон - волна определенной частоты, которая имеет наибольший уровень.
Например, у ноты Ля первой октавы эта волна имеет частоту 440 Гц. Но вместе с ней звучат и другие волны,
частота которых в 2, 4, 8 раз и т.д. выше, чем у основного тона (эти звуки располагаются через октаву). В
музыке они называются обертонами. В акустике принята немного другая терминология. И основной тон, и
обертона называются гармониками и имеют порядковый номер в зависимости от высоты: основной тон -
первая гармоника, первый обертон - вторая гармоника и т.д.
Если длина волны источника звука становится кратна длине помещения, то фаза отраженной волны
совпадает с фазой прямой волны, в результате чего происходит их взаимное усиление. А так как в
прямоугольном помещении звук отражается от стен несколько раз, то происходит многократное усиление
громкости звука. То есть, возникает воздушный резонанс - частный случай стоячей волны.
Любое помещение имеет некую критическую частоту звука при которой возникает резонанс. Причем у
помещений с разными геометрическими размерами будут разные критические частоты. Эту частоту называют
частотой резонанса. Резонанс чаще всего возникает именно на низких частотах, так как длина волны низких
звуков сравнима с длиной и шириной помещения. Кстати, бас-гитаристы, репетирующие дома, отлично
знакомы с таким эффектом: некоторые взятые на инструменте ноты неожиданно усиливаются, при этом
начинают угрожающе звенеть стекла в окнах и шкафах.
У любой трубки есть своя частота резонанса, которая определяется геометрическими размерами самой
трубки. Если в такую трубку попадает звуковая волна (например, от трости саксофона), то в центре сечения
трубки возникает резонансная волна определенной частоты, которая усиливает звук и украшает его новыми
гармониками. Меняя длину трубки, мы можем добиться изменения высоты звука. Именно такой принцип
управления используется во всех духовых инструментах: например, в тромбоне музыкант выдвигает колено
трубы, меняя ее длину; в кларнете, гобое, флейте, саксофоне длина трубы меняется при помощи закрытия и
открытия отверстий и т. д.
Для музыкантов, которые записывают свои композиции дома, знание о наличии в любом помещении стоячих
волн и понимание природы воздушного резонанса достаточно важно, так как позволяет с этими явлениями
бороться. Например, если вы что-то записываете с микрофона в обычной жилой комнате, то микрофон ни в
коем случае нельзя располагать прямо в центре помещения - иначе вы на записи получите искаженный
стоячими волнами звук. С резонансами тоже можно бороться. Например, чем больше в вашей комнате
отражающих непараллельных поверхностей, тем меньше условий для возникновения резонансов. Особенно
важно обеспечить такие условия при записи с микрофона низкочастотных инструментов - контрабасов и бас-
гитар.
Реверберация помещения
В разделе «Стоячие волны и резонанс» мы разобрали случай, когда звуковая волна встречает на своем пути
перпендикулярную твердую поверхность. Однако, в любом помещении волны от источника звука
распространяются во всех направлениях и многократно отражаются от стен и других препятствий. И только
малое количество этих волн порождает стоячие волны и резонансы. Остальные отраженные волны
воспринимаются слушателем как характерный гул, который называется реверберацией.
Временем реверберации называется время, в течение которого уровень отраженных волн падает на 60 дБ.
Разумеется, у различных помещений это время будет разным. Однако оно не находится в прямой связи с
геометрическими размерами пола, стен и потолков – бывает, что в большом зале время реверберации
достаточно мало (когда, например, стены, пол и потолок покрыты пористым материалом, хорошо
поглощающим звук), а в небольшой комнате, наоборот, - велико. Информацию же о размере помещения и
расстоянии до источника звука нам приносят первые шесть-десять отраженных волн, которые называются
ранними отражениями. А время в течение которого они приходят называют предварительной задержкой.
Кстати говоря, реверберация способна довольно сильно изменить тембр источника звука. Причем, с
музыкальной точки зрения реверберация в одних помещениях может украшать звучание, а в других - портить.
Зависит это от отражающих свойств поверхностей из которых изготовлены стены. Например, в спортивном
зале с бетонными стенами реверберация имеет очень резкий и неприятный характер. Отражаясь от таких
стен звуковые волны создают рассеянное эхо с сильным "свистящим" призвуком. И если вы запишите в таком
помещении, предположим, акустическую гитару, то она будет звучать очень резко из-за реверберационного
окрашивания.
А вот если вы принесете эту же гитару в комнату, где много отражающих поверхностей из неокрашенного
дерева, то характер ее звучания изменится до неузнаваемости - она сразу заработает очень "тепло" и певуче.
Решающую роль в такой метаморфозе сыграют акустические свойства помещения. Комнаты с деревянными
поверхностями имеют очень приятную на слух, "мягкую" и "теплую" реверберацию - неслучайно в студиях
звукозаписи очень часто стены обшиваются именно этим материалом.
Современные городские квартиры имеют как правило бетонные или кирпичные стены со штукатуркой,
закрытые только слоем обоев. Реверберация в таких помещениях не способствует улучшению звучания
музыкальных инструментов и голоса. Если вы хотите получить действительно качественную запись своего
исполнения, то можете поступить двумя способами: либо поискать себе место для записи с хорошей
акустикой, либо "заглушить" свою комнату и записывать только "сухой" голос или музыкальный инструмент, а
реверберацию добавлять электронным способом при помощи процессора эффектов или компьютерной
программы.
Обычно для "заглушения" комнаты используются любые ковры, одеяла и т.д. То есть, вы просто завешиваете
стены любыми пористыми материалами, которые поглощают звук и не дают ему отражаться от стен.
Это делается с помощью микрофона. Самые простые микрофоны имеют мембрану, которая колеблется под
воздействием звуковых волн. К мембране присоединена катушка, перемещающаяся синхронно с мембраной
в магнитном поле. А из школьных уроков физики вы, вероятно, помните, что в такой ситуации в катушке
возникает переменный электрический ток. Изменения напряжения тока точно отражают изменения плотности
воздуха в звуковых волнах.
Переменный электрический ток, который появляется на выходе микрофона, называется аналоговым
сигналом. Слово "аналоговый", применительно к электрическому сигналу, обозначает, что этот сигнал
непрерывен по времени и амплитуде. Он точно отражает форму звуковой волны, которая распространяется в
воздухе.
Как и в случае со звуковыми волнами, значение изменения уровня переменного электрического сигнала в
децибелах рассчитывается по формуле, знакомой вам из раздела « Уровень и громкость звука», только
значения звукового давления (силы звука) меняются на значения напряжения: N=20lg U2/U1, где U2 и U1 - это
конечное и начальное напряжение сигнала. За 0 дБ принято напряжение в 0.775 В.
Поэтому сейчас стандартом является стерео запись и стерео воспроизведение фонограмм. В самом простом
случае запись производится с двух широко расставленных микрофонов на два независимых канала
магнитофона. То есть, как бы имитируется процесс восприятия звука нашим слуховым аппаратом. При
воспроизведении этой фонограммы через две широко расставленные колонки пространственная картина
восстанавливается, при этом мы получаем гораздо лучшую детализацию. Наш слух получает более
привычную звуковую картину, чем при моно записи.
Первый показывает зависимость амплитуды сигнала от времени (Рис. 1). С его помощью очень удобно
иллюстрировать все процессы воздействия на динамический диапазон сигнала. Кроме этого все
современные компьютерные программы записи и обработки звука сразу представляют фонограмму в виде ее
амплитудной характеристики. Все монтажные операции гораздо удобнее делать над таким графическим
представлением сигнала: вы видите все паузы, начала и концы полезного сигнала и т.д.
Рис. 1
Амплитудно-частотная характеристика применяется в тех случаях, когда нужно посмотреть частотный спектр
сигнала. Такой график показывает зависимость уровня сигнала от его частоты. Вы очень легко сможете
посмотреть какой уровень имеет любая частотная полоса. С помощью амплитудно-частотной характеристики
удобно иллюстрировать процессы корректировки тембра звука. А в практической работе полезно не только
слушать результаты своих действий, но и визуально оценивать их.
Амплитудно-частотная характеристика может иметь два варианта представления. Часто используется
двухмерный график, который иллюстрирует частотный спектр сигнала в определенный момент времени. Но в
любой фонограмме спектр может меняться, например, в моменты вступления других музыкальных
инструментов. Поэтому для его динамического представления используется трехмерный график амплитудно-
частотной характеристики, в который добавляется ось времени (Рис. 2). Вы можете посмотреть все
изменения частотного спектра, которые происходят в фонограмме.
Рис. 2
Рис. 3
Искажения звукового сигнала и помехи звукового тракта
Любая аудиоаппаратура (как любительская, так и профессиональная) не идеальна. Так или иначе, в звуковом
тракте присутствуют различные помехи, а при передаче сигнала последний искажается. Хорошая аппаратура
отличается от плохой лишь низким уровнем этих искажений и помех.
Идеальный звуковой тракт абсолютно линеен, то есть сигнал на входе точно соответствует сигналу на
выходе. Но в реальных условиях такой точности достичь невозможно. В любых схемах сигнал на выходе
немного отличается от входного. В таких случаях говорят, что звуковой тракт (звуковое устройство) привносит
в звук нелинейные искажения.
Если у вас есть магнитофон с ручной регулировкой уровня записи, то вы можете услышать, как проявляют
себя нелинейные искажения. При небольшом превышении уровня 0 дБ искажения практически не
ощущаются. Если вы увеличите уровень записи, то звук начнет менять свой тембр. При еще большем
увеличении в колонках появляются хрипы и явные искажения. Рис.1 иллюстрирует эти изменения сигнала.
Кстати говоря, с нелинейными искажениями отлично знаком любой гитарист, использующий в своей работе
эффекты овердрайв и дисторшн. Они имитируют звучание перегруженного лампового усилителя. То есть,
когда вы вращаете ручку Drive на эффекте, вы изменяете не что иное, как уровень нелинейных искажений.
Фоном называется низкое однотонное гудение с частотой 50 или 100 Гц. Чаще всего его можно услышать в
различных усилителях. Возникает фон в результате плохой фильтрации переменного тока питания. Другая
причина возникновения фона - электромагнитные наводки со стороны близко расположенных сетевых шнуров
другой аппаратуры. Но наводки проявляются не только в виде фонового низкочастотного гудения. Любые
источники сильного электромагнитного излучения: компьютерные мониторы, телевизоры, трансформаторы,
близко расположенные радиостанции и т.д. - способны оказывать на аппаратуру воздействие. Гитаристы
часто слушают в своих акустических системах разные передачи радио - это одно из проявлений наводок.
В дорогих звуковых устройствах фон и наводки обычно отсутствуют. Этого добиваются, во-первых, при
помощи хорошей фильтрации питающего тока, а во-вторых, применяя разного рода экраны - металлические
кожухи, которые защищают устройства от электромагнитных наводок. На качественной аппаратуре наличие
металлического, а не пластмассового корпуса - признак хорошей экранировки. Помимо узлов аппаратуры
всегда экранируются соединительные шнуры, по которым передается электрический сигнал. Шнуры без
экранировки представляют собой отличные антенны.
Шумом обычно называют однотонное шипение (вы наверняка хорошо с ним знакомы, если у вас есть
дешевые магнитолы или другие недорогие звуковые устройства). Такое шипение еще называют иногда "
белым шумом ". Это собственное шипение радиодеталей, и бороться с ним гораздо сложнее, чем с фоном.
Высокая цена на качественную технику во многом объясняется тем, что в ней используются специально
отобранные детали с низким собственным уровнем шума.
Практически во всех спецификациях звуковой аппаратуры вы найдете такой параметр как соотношение
сигнал/шум. Это соотношение показывает насколько уровень шумов в звуковом тракте меньше полезного
сигнала, имеющего уровень 0 дБ. Иногда в спецификациях приводится отрицательное значение уровня шума.
Смысл такого представления точно такой же: это уровень шума относительно 0 дБ.
Для того, чтобы вам было легче ориентироваться в спецификациях, приведем следующие цифры.
Соотношение сигнал/шум у современной магнитной ленты находится в районе 55-60 дБ, то есть любой
магнитофон, воспроизводя эту ленту с отключенной системой шумоподавления, шипит именно на таком
уровне. Граница уровня шумов у современной профессиональной звуковой техники находится на уровне 80
дБ. Лучшие звуковые карты, дорогие бытовые компакт-диск проигрыватели и минидисковые деки имеют
схожее или лучшее соотношение сигнал/шум.
Однако все эти цифры справедливы только для шума, то есть собственного шипения радиодеталей, из
которых собрано звуковое устройство. Соотношение сигнал/шум не учитывает фон и наведенные шумы.
Поэтому реальный уровень шумов звуковой аппаратуры может иметь уровень гораздо больший, чем
написано в спецификации. Особенно часто этим страдает дешевая техника, так как производители
предпочитают не тратить деньги на экранировку и другие подобные "излишества". Поэтому цифрам
соотношения сигнал/шум можно верить только для дорогой аппаратуры, которая заведомо хорошо
экранируется и защищается от сетевых помех.
Когда в начале 80-х годов появились компакт-диски, то одними из самых главных преимуществ нового
носителя назывались долговечность и неподверженность механическому старению. Это не означает, что
можно использовать CD в качестве подставки для чайника, а потом ставить в проигрыватель. Речь идет о
чисто механическом износе во время воспроизведения. Теоретически, цифровой диск может служить вечно,
если его не царапать и аккуратно обращаться.
Вторым важным преимуществом цифрового формата является отсутствие потерь при перезаписи. Если вы
переписываете понравившийся альбом с пластинки на кассетную деку, то качество звука ухудшается. Еще
одна перезапись - и звук снова ухудшается. При цифровой перезаписи таких потерь нет. Вы можете
копировать компакт-диск множество раз, однако никакого ухудшения фонограммы не услышите.
Последним достоинством цифровой техники является лучшее соотношение цена/качество. Качество звука у
дешевого компакт-диск проигрывателя гораздо лучше, чем у дешевого "кассетника". Аналоговые
магнитофоны, которые имеют звук, лучший чем у дешевых CD плееров стоят намного дороже. Поэтому
покупатели делают совершенно разумный выбор в пользу цифровой техники.
Однако утверждение о том, что любая цифровая запись лучше, чем аналоговая не совсем соответствует
действительности. Многие аналоговые магнитофоны записывают звук гораздо лучше, чем цифровые.
Поэтому они до сих пор активно используются во многих профессиональных студиях. В некоторых ситуациях
звукорежиссеры вообще однозначно отдают предпочтение аналоговой записи. Например, считается, что
итоговую фонограмму (мастер) лучше записывать не на цифровой DAT магнитофон, а на двухканальные
катушечные магнитофоны на скорости 38 см/с, и уже потом переводить в цифровой вид. Поэтому не думайте,
что цифровая запись автоматически дает отличное качество звука.
Промежуток времени между двумя измерениями амплитуды аналогового сигнала называется семплом (или
«отсчетом» в отечественной литературе) С английского слово Sample дословно переводится как "образец".
Поэтому это слово в мультимедийной и профессиональной звуковой терминологии имеет несколько
значений, для обозначения разных видов "образцов". Кроме промежутка времени семплом называют любую
последовательность цифровых данных, полученных в результате аналого-цифрового преобразования, а сам
процесс преобразования – семплированием.
Одним из двух ключевых параметров процесса оцифровки является частота семплирования (частота
дискретизации) - количество измерений амплитуды аналогового сигнала в секунду. Так как диапазон
колебаний звуковых волн лежит в пределах от 20 Гц до 20 кГц, то количество измерений сигнала в секунду
должно быть больше, чем количество колебаний звуковой волны за тот же промежуток времени. На Рис.2.
показано, что происходит, если частота семплирования гораздо ниже, чем частота звуковой волны: за время
между измерениями амплитуда сигнала успевает несколько раз измениться, в результате чего цифровой
отпечаток несет хаотичный набор данных. При цифро-аналоговом преобразовании такой семпл будет
выдавать только шум, а основной сигнал передаваться не будет.
Рис 2
Поэтому для качественного преобразования применяют частоты более чем в два раза превышающие
верхнюю границу звукового диапазона: 44.1 и 48 кГц. А в новом формате компакт-дисков под названием Audio
DVD применяется частота семплирования 96 кГц. То есть за 1 секунду сигнал измеряется 96 тысяч раз!
В мультимедийных приложениях очень часто применяют меньшие частоты: 11, 22 и 32 кГц для экономии
места на жестком диске. Но с уменьшением частоты семплирования сразу уменьшается слышимый диапазон
частот, а то, что слышно - довольно сильно искажается. На Рис.3. представлены четыре графика,
показывающие с одинаковым масштабом один и тот же звук высотой 1 кГц (этой частоте примерно
соответствует нота До седьмой октавы фортепиано), но семплированный с разной частотой (нижняя часть
синусоиды на всех рисунках не показана). Одно деление на горизонтальной оси, показывающей время,
соответствует 10 семплам. Все эти рисунки были получены при помощи аудиоредактора Sound Forge 4.5.
Рис 3
Вы видите, что на частоте 11 кГц на каждые 50 семплов приходятся примерно 5 колебаний звуковой волны, то
есть один период синусоиды отображается всего лишь при помощи 10 значений. При таком отображении ни о
какой точной передаче говорить не приходится. Зато при частоте оцифровки 44 кГц на каждый период
синусоиды приходится уже почти 50 семплов - такая точность отображения позволяет получить сигнал
хорошего качества.
Посмотрите еще раз на Рис 1. Точность, с которой при оцифровке передается значение амплитуды сигнала в
каждый из моментов времени («столбики» на схеме 2), фактически определяет качество сигнала после
цифро-аналогового преобразования. От этой точности зависит достоверность восстановления формы волны.
Любое цифровое устройство, в том числе и компьютер на аппаратном уровне может оперировать только с
двоичным кодом. Этот код позволяет представить любую информацию в виде нулей и единиц. Такой способ
обмена информацией гораздо проще реализовать технически - ведь любое цифровое устройство
представляет собой электрический "ящик". Например, одна величина напряжения соответствует нулю, а
другая величина - единице. Сделайте побольше разницу между этими двумя величинами и вероятность
ошибки практически сводится к нулю. А если бы тот же компьютер на аппаратном уровне оперировал
десятичными цифрами, нам пришлось бы вводить десять значений напряжения, чтобы закодировать цифры с
0 до 9. Это уменьшает надежность системы.
Именно такой принцип и применяется для кодирования значения амплитуды сигнала. Обычно используется 8
или 16 битное представление значений амплитуды. Давайте остановимся на этом моменте подробней.
Если при оцифровке используется 8-битное кодирование, то измерения амплитуды аналогового сигнала
будут производиться с точностью до 1/256 от динамического диапазона цифрового устройства (8 бит
8
позволяют представить 2 чисел - 256). Такая точность недостаточна для достоверного восстановления
исходного сигнала: будут велики нелинейные искажения. Поэтому 8-битное кодирование применяется
преимущественно в мультимедиа-приложениях, где не требуется высокое качество звука.
Если же мы повысим разрядность представления значений амплитуды аналогового сигнала до 16 бит, то
16
точность измерения возрастет не в два раза, а в 256. Ведь 16 бит позволяют закодировать уже 2 =65536
значений амплитуды. Такая точность кодирования позволяет нелинейные искажения свести к минимуму.
Именно разрядность 16 бит используется при записи компакт-дисков.
Здесь надо остановиться и поговорить об одной особенности оцифровки. Все приведенные выше данные
справедливы только для сигнала, имеющего максимальный уровень 0 дБ. Если преобразуется сигнал,
имеющий уровень -6 дБ с разрядностью 16 бит, то реально для кодирования его амплитуды будет оставаться
15 бит. Для сигнала с уровнем -12 дБ эта цифра будет составлять 14 бит. То есть с уменьшением уровня
сигнала будет уменьшаться разрядность его оцифровки и, соответственно, увеличиваться уровень
нелинейных искажений (в технической литературе эти искажения иногда называются шумом квантования).
Уменьшение уровня на каждые 6 дБ будет "съедать" 1 бит. В результате, для кодирования амплитуды
сигнала с уровнем -90 дБ у нас останется всего 1 бит.
Этот недостаток 16-битного кодирования и является основным катализатором введения нового бытового
цифрового формата Audio DVD, у которого помимо частоты семплирования 96 кГц используется разрядность
24 бита. Ожидается, что через несколько лет он полностью вытеснит с рынка обычные компакт-диски.
Теперь давайте подсчитаем, сколько места будет занимать одна минута цифрового звука на жестком диске
или любом другом цифровом носителе. Если мы записываем моно сигнал с частотой 44.1 кГц, разрядностью
16 бит (2 байта), то каждую минуту аналого-цифровой преобразователь будет выдавать 44100х2х60=5292000
байт, т.е. около 5 Мб данных об амплитуде аналогового сигнала, которые в компьютере записываются на
жесткий диск. Стерео сигнал уже будет занимать 10584000 байт или около 10 Мб. Объем данных для 11, 22
или 32 кГц вы можете подсчитать самостоятельно.
Список сообщений
Если ноты - язык общения музыкантов, то список сообщений - это привычная среда работы
программистов.
Каждое сообщение (Event) занимает в списке одну строчку и, по существу, представляет собой
указание, которое должен выполнить музыкальный компьютер в определенный момент времени.
Что ж это за такой страшный зверь - сообщение? На самом деле MIDI-сообщения - это всего лишь
закодированные числами команды органам управления синтезатором - контроллерам. Наиболее
часто встречаются команды Note On (включить звучание определенной ноты в такой-то момент
времени с такой-то громкостью) и Note Off (выключить звучание ноты в такой-то момент времени).
Вы помните, что все MIDI-ноты пронумерованы от 0 до 127.
Кроме этих команд MIDI-сообщения могут содержать указания о смене инструмента, перестройке
частотного фильтра, нажатии педали, виде и глубине эффекта, а также многое другое. Соответствие
чисел командам стандартизировано. Правда, одновременно имеют хождение целых три стандарта:
GM, GS и XG (см. "Магия ПК", 2001 № 3). Смысл основных команд в них, к счастью, совпадает.
"Магия ПК" - это интересно, а вот магия стереотипов - страшное дело. Все привыкли думать, что байт
- это 8 бит. Однако в байте MIDI-сообщения один бит не является значащим, это бит статусный,
говорящий о том, какая информация передается - MIDI-команда или MIDI-данные. По этой причине
вес младшего бита старшего байта (MSB) составляет не 256, а 128. Вот и весь секрет, о котором и
вы теперь будете знать. Правда, это только один из сотен секретов успешной работы над музыкой с
помощью компьютера. Еще парочку тайн я выдам сегодня, а о других - в следующих выпусках
журнала.
Список сообщений - это таблица. В ячейках таблицы содержится время выполнения сообщения, его
тип и параметры. Редактирование содержания таблицы производится мышью с помощью меню и
полей ввода.
С помощью окна Event Manger вы можете избирательно выводить на экран сообщения любых
необходимых типов (рисунок дает наглядное представление о типах сообщений, поддерживаемых
программой Cakewalk Pro Audio).
А если, скажем, вы захотите поместить над нотным станом символы табулатур (сообщения типа
Chord), то достаточно вызвать окно редактора аккордов, а уж в нем найдется любое разрешенное
теорией гармонии звукосочетание, представленное в графическом виде.
Рис. 3. Редактор аккордов
Можно сказать, что все прочие MIDI-сообщения обеспечивают соответствие звуковой карты или
синтезатора минимальным требованиям, а NRPN и особенно Sysx наращивают ваши возможности
управления звуком сверх предусмотренных стандартом.
О том, какие системные сообщения "понимает" ваш синтезатор, можно узнать, прочитав его
техническое описание. Для их редактирования пересылки и приема в Cakewalk Pro Audio
предназначено специальное окно Sysx, представленное на рисунке.
Пользуясь этим окном, вы можете либо манипулировать банками системных сообщений, либо
редактировать содержание отдельного системного сообщения. Во втором случае вам опять
придется иметь дело с последовательностью шестнадцатеричных чисел.
Рис. 5. Редактирование содержания системного сообщения
А вот и еще один из обещанных секретов. Системное сообщение обязательно должно начинаться с
шестнадцатеричного числа F0 и заканчиваться числом F7. Это границы системного сообщения. А его
"начинка" определяется типом синтезатора и смыслом передаваемой информации. Например,
сообщение F0 43 10 4C 02 01 00 13 00 F7 правильно поймет только синтезатор звуковой карты
стандарта XG (принадлежность синтезатора к детищам славной фирмы Yamaha закодирована
числами 43 10 4C). И означает оно, что для эффект-процессора выбран вариант реверберации,
имитирующий акустическую обстановку мрачного подземелья.
А теперь раскрою третий даже не секрет, а небольшой такой секретик. Системные сообщения часто
хранятся в MIDI-файлах и загружаются вместе с ними. Почти наверняка в начале каждого файла,
"скачанного" из INTERNET, хранится сообщение о системном сбросе. Так вот, подобные сообщения
для звуковых карт, соответствующих стандартам GM, GS и XG, различны. И если вдруг при
воспроизведении очередная отлично знакомая вам MIDI-композиция звучит не похоже на саму себя,
очень может быть, что в предыдущей композиции содержалось сообщение о сбросе для другого
стандарта, а не того, что поддерживается вашей звуковой картой. Как с этим бороться? Либо
записывайте в начало всех ваших композиций одно из системных сообщений GMSYSTEM.SYX, GS-
RESET.SYX, XG-RESET.SYX (то, которому соответствует ваша звуковая карта), либо посылайте его
в реальном времени перед воспроизведением очередной композиции с помощью окна Sysx.
• Найдете материал о сообщениях, которыми можно изменить диапазон колеса перестройки тона,
переключить тип реверберации и хоруса в MIDI-устройствах фирм Roland и Yamaha, в звуковых
картах SB Live! и Turtle Beach Tropez Plus
• Узнаете, что такое регистрируемые и нерегистрируемые параметры, и как с их помощью управлять
контроллерами, в явном виде недоступными
• Познакомитесь с методикой безошибочного вычисления номера контроллера по его младшему и
старшему значащим байтам с использованием калькулятора MS Windows для перевода чисел из
шестнадцатеричной в десятичную систему счисления и обратно
Треки и клипы
У каждой из рассмотренных форм компьютерного представления музыки есть свои достоинства. Все
вместе они позволяют эффективно решить любую проблему понотного редактирования. Но в любом
музыкальном редакторе профессионального уровня музыкальная информация может быть
представлена не только отдельными нотами или сообщениями, но и в виде блоков сообщений.
Такими блоками могут считаться треки и клипы.
Трек - это группа сообщений, направляемая в определенный канал и порт вывода - MIDI или аудио.
А клип - это группа сообщений, с которой можно производить операции редактирования, как с
единым целым.
На рисунке вы видите окно Track программы Cakewak Pro Audio. Его левая часть - это секция треков.
Для каждого их них нужно задать несколько атрибутов: номер и имя трека; его состояние (заглушен
или звучит, солирует, подготовлен к записи); порты ввода и вывода; закрепленные MIDI-инструмент
и MIDI-канал; громкость; панораму, интервал транспонирования, смещение событий относительно
тактовой сетки.
В одном предельном случае клип - это одно сообщение, в другом - вся композиция или как мы
говорим, весь сонг. Но практическое применение находят только клипы, объединяющие в себе часть
композиции. Примеры клипов:
Или: записали один куплет и один припев песни, выделили это в клип и размножили в необходимом
количестве экземпляров.
Еще один пример. Записали солирующую партию в исполнении фортепиано. Захотелось найти
какой-то оригинальный тембр. Вот он - синтезированный звук плачущей флейты! Но у этого звука
большое время атаки, он медленно нарастает. Создается впечатление запаздывания. Хорошо бы
сделать так, чтобы ноты этой партии брались с небольшим опережением. Если вы не работаете с
клипами, то станете передвигать каждую ноту, на что уйдет уйма времени. Да еще придется делать
это не один раз. А вот после объединения партии в клип, все ноты вы сможете переместить одним
легким движением руки с мышью.
И MIDI-, и аудиотреки в окне Track можно разбить на клипы. Клип можно скопировать, вырезать,
мышью перенести в любое место партитуры. Можно применить к выделенному клипу любую
обработку, MIDI или аудиоэффекты (о них я обязательно расскажу в будущем). Несколько клипов
можно объединить в один.
Особенно интересна технология связанного копирования клипов, когда любое изменение в одном из
связанных клипов автоматически распространяется на все остальные. Очень это удобно при
редактировании однотипных фрагментов, скажем, куплетов.
Клипы и треки - это, по сути дела, инструменты дирижера. Причем, виртуальные оркестранты этому
дирижеру подчиняются безоговорочно, замысел его понимают абсолютно и воплощают в музыке
идеально.
Ч то такое трехмерный звук и почему по этому поводу возникает так много споров? Как
расширение стерео базы (Stereo Expansion) - специальная обработка уже имеющегося стерео
сигнала и, таким образом, расширение кажущегося звукового поля (имитация расширения
расстояния между источниками);
Что это все означает на практике? На практике это означает, что метод расширения стерео базы
относительно прост в реализации и очень часто находит применение в стерео фонической бытовой
технике. Однако, в той же степени, на сколько проста его реализация, сам метод не дает ощущения
"трехмерного звучания" в том понимании, в котором мы его себе представляем, по причине
обеспечения звучания лишь в одной плоскости. Не достаточно также и применения так называемого
панорамирования. Панорамирование (panning) - это управление уровнем сигнала в каналах, в не
зависимости от частоты сигнала. Панорамирование позволяет создавать иллюзию перемещения
мнимого источника сигнала где-то между физическими источниками (разумеется, в одной с ними
плоскости).
Для создания более или менее реалистичного объемного звучания необходимо что-то
принципиально другое. Попытаемся в этом разобраться.
Как ни странно, но вся проблема в устройстве слухового аппарата человека. Оказывается, что он на
столько не совершенен, что даже в реальной жизни мы можем столкнуться с трудностями,
связанными с неточностью восприятия звуковых сигналов и определения их пространственного
месторасположения. Все дело в том, что все мы живем на планете Земля и все время
существования человека его основная пища и враги находились в плоскости, параллельной земле.
Поэтому, два уха, расположенные по обеим сторонам головы, позволяют нам определять
расположение источников звука только лишь в горизонтальной плоскости (бинауральный эффект).
При этом мы очень плохо различаем звук идущий спереди и сзади. Способность оценки
человеческим ухом (слуховым аппаратом) расположения источников звука в вертикальной плоскости
также крайне ограничена. Кроме того, тело слушателя, в частности, голова, уши и туловище,
является, как известно, препятствием на пути распространения звуковых колебаний. Взаимодействуя
с телом звук отражается, затухает и искажается, что приводит к восприятию слушателем не
исходного, а измененного звучания. Все это создает трудности имитации пространственного
звучания.
Что же происходит внутри нас? Приемником сигнала в человеке является барабанная перепонка,
скрытая ушной раковиной. При восприятии звука, мозг как бы декодирует получаемый от барабанной
перепонки сигнал, интерпретируя его определенным образом для правильного определения
пространственного местоположения источника/ков звука. И именно это рассуждение взято в основу
всех существующих на сегодня технологий создания пространственного звучания.
Одним из таких алгоритмов (способов) является HRTF - Head Related Transfer Function. Посредством
этого алгоритма звук можно преобразовать специальным образом, что обеспечит прекрасное 3D
звучание, рассчитанное на прослушивание в наушниках (пояснение этому можно найти чуть ниже).
Следует отметить, что HRTF (в том или ином виде) является основой создания множества
существующих на сегодня методов создания объемного звучания. Однако мы не даром заговорили о
HRTF как об одном из алгоритмов, так как этот алгоритм в чистом виде (впрочем, как и все
остальные) не является единственным и совершенным. Все дело в том, что HRTF неодинаков для
различного слушателя и, тем более, для различных положений головы (если речь идет о
воспроизведении не через наушники). Безусловно, есть способы найти сбалансированный HRTF для
всех слушателей, но такой подход не обеспечивает высокочеткое восприятие звука для каждого, и
уж тем более не решает проблему с поворотами головы. Наверное, именно поэтому стандарт на
HRTF не существует до сих пор.
Конечно, если в качестве источников звука будут выступать наушники, закрепленные на голове
слушателя, то их расположение относительно головы слушателя не будет изменяться, какие бы
повороты головы не производились. В этом случае, как мы сказали, с использованием HRTF может
быть достигнуто высококачественное пространственное звучание. В случае же, если источниками
являются, например, две колонки, то, кроме всего прочего, для создания естественного
пространственного звучания необходимо, в частности, точно отслеживать повороты слушателем
головы для соответствующей корректировки сигналов от каждого физического источника. Кроме того,
при воспроизведении звука через наушники, сигнал от каждого канала попадает только в
соответствующее ухо, а при воспроизведении через колонки сигналы могут смешиваться, в
результате чего появляются перекрестные искажения. Этот недостаток частично устраняется с
помощью специального устройства - бифонического процессора.
Итак, как мы сказали выше, при использовании в качестве источников звука колонок, возникает
проблема необходимости расположения слушателя строго в определенной области пространства
между источниками звука. Эта область называется Sweet Spot. При отсутствии возможности
контролировать положение слушателя в пространстве относительно источников звука при прочих
равных условиях, Sweet Spot накладывает строгие ограничения на расположение слушателя. Это
значит, что как только слушатель покидает область Sweet Spot, звучание, создаваемое источниками,
перестает восприниматься слушателем как пространственное. Поэтому, при создании технологий
объемного звучания перед разработчиками возникает проблема расширения области Sweet Spot.
Одним из эффективных методов решения этой проблемы является введение дополнительного
третьего источника звука, когда слушатель становится независимым от области Sweet Spot.
Трехканальные системы объемного звучания часто используются в бытовой аудио и видео
аппаратуре. Существуют также многоканальные (трех-, четырех- и более) расширения этого метода.
Однако наряду с проблемами реализации трехмерного звучания с помощью HRTF, у любой системы
звуковоспроизведения есть проблемы другого плана. Так, например, наушники слабо справляются с
воспроизведением фронтальных сигналов. При использовании наушников также возникает проблема
локализации звукового сигнала внутри головы слушателя, а также эффект бесконечного расширения
стерео базы. Конечно, существуют способы борьбы с этими эффектами, однако всех проблем это не
решает. Двухканальные системы плохо обеспечивают восприятие слушателем звучания сзади. В
реализации многоканальных систем слабым местом является необходимость достаточно точного
расположения источников сигнала, потому что как раз это зачастую сделать затруднительно. Кроме
того, здесь также существует проблема звучания в одной плоскости.
В качестве справки отметим, что для создания библиотек HRTF используется искусственный
манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное "цифровое ухо".
В случае использования манекена суть измерений состоит в следующем. В уши манекена
встраиваются микрофоны. Звук воспроизводится источниками, расположенными вокруг манекена, а
запись производится с микрофонов. В результате, запись от каждого микрофона представляет собой
звук, "прослушанный" соответствующим ухом манекена с учетом всех изменений, которые звук
претерпел на пути к уху. Расчет HRTF производится с учетом исходного звука и звука, "услышанного"
манекеном.
Следует сказать также, что мы рассмотрели лишь одну сторону реализации полноценного
пространственного звучания. Дело в том, что на ряду со сложностями, связанными с "правильной"
передачей объемности звучания, при создании игр возникают также проблемы корректной имитации
различных физических свойств звука (эффектов отражения от различных поверхностей, поглощения
и искажения звука). Грамотная реализация этих свойств также коренным образом влияет на
ощущение слушателем пространственности звучания. Однако, эта проблема в основном касается
аккуратности механизмов, закладываемых разработчиками в игры. Что же касается рассмотренной
нами выше проблемы <донесения> трехмерного звука до пользователя (а вернее, до его нервной
системы), то она остается не решенной, так как идеальные модели реализации трехмерного
звучания еще не найдены.
Итак, наверняка почти все слышали, что для позиционирования источников звука в виртуальном 3D
пространстве используются HRTF функции. Ну что же, попробуем разобраться в том, что такое HRTF
и действительно ли их использование так эффективно.
Сколько раз происходило следующее: команда разработчиков, отвечающая за звук, только что
закончила встраивание 3D звукового движка на базе HRTF в новейшую игру; все комфортно
расселись, готовясь услышать "звук окружающий вас со всех сторон" и "свист пуль над вашей
головой"; запускается демо версия игры и… и ничего подобного вы просто не слышите!
HRTF (Head Related Transfer Function) это процесс, посредством которого наши два уха определяют
слышимое местоположение источника звука; наши голова и туловище являются в некоторой степени
препятствием, задерживающим и фильтрующим звук, поэтому ухо, скрытое от источника звука
головой воспринимает измененные звуковые сигналы, которые при "декодировании" мозгом
интерпретируются соответствующим образом для определения местоположения источника звука.
Звук, улавливаемый нашим ухом, создает давление на барабанную перепонку. Для определения
создаваемого звукового давления необходимо определить характеристику импульса сигнала от
источника звука, попадающего на барабанную перепонку, т.е. силу, с которой звуковая волна от
источника звука воздействует на барабанную перепонку. Эту зависимость называют Head Related
Impulse Response (HRIR), а ее интегральное преобразование по Фурье называется HRTF.
Если вас интересует научное объяснение, то нет проблем, оно будет ниже. Если вас пугают
формулы или вы их уже видеть не можете, просто пролистайте пару экранов вниз.
Если поместить в среду распространения звуковых волн человека, тогда звуковое поле вокруг
человека искажается за счет дифракции (рассеивания или иначе говоря наблюдается различие
скоростей распространения волн разной длины), отражения и дисперсии (рассредоточения) при
контакте человека со звуковыми волнами. Теперь все тот же источник звука будет создавать
несколько другое давление звука P(t) на барабанную перепонку в ухе человека. С точки зрения
частоты это давление обозначим как P(f). Теперь, P(f), как и Pff(f) также содержит фазовый
коэффициент, чтобы учесть задержки при распространении звуковой волны, при этом давление
вновь ослабевает обратно пропорционально расстоянию. Для исключения этих концептуально
незначимых эффектов HRTF функция H определяется как соотношение P(f) и Pff(f). Итак, строго
говоря, H это функция, определяющая коэффициент умножения для значение давления звука,
присутствующее в центре головы слушателя, если нет никаких объектов на пути распространения
волны, по отношению к величине давления на барабанную перепонку в ухе слушателя.
Обратным преобразованием Фурье функции H(f) является функция H(t), представляющая собой
HRIR (Head-Related Impulse Response). Таким образом, строго говоря, HRIR это коэффициент (он же
есть отношение давлений, т.е. безразмерен; это просто удобный способ загнать в одну букву в
формуле очень сложный параметр), который определяет воздействие на барабанную перепонку,
когда звуковой импульс испускается источником звука, за исключением того, что мы сдвинули
временную ось так, что t=0 соответствует времени, когда звуковая волна в "free field" достигнет
центра головы слушателя. Также мы масштабировали результаты таким образом, что они не зависят
от того, как далеко источник звука расположен от человека, относительно которого производятся все
измерения.
Напомним, что интегральным преобразованием Фурье функции HRIR является HRTF функция. Если
известно значение HRTF для каждого уха, мы можем точно синтезировать бинауральные сигналы от
монофонического источника звука (monaural sound source). Соответственно, для разного положения
головы относительно источника звука задействуются разные HRTF фильтры. Библиотека HRTF
фильтров создается в результате лабораторных измерений, производимых с использованием
манекена, носящего название KEMAR (Knowles Electronics Manikin for Auditory Research, т.е. манекен
Knowles Electronics для слуховых исследований) или с помощью специального "цифрового уха"
(digital ear), разработанного в лаборатории Sensaura, располагаемого на голове манекена. Понятно,
что измеряется именно HRIR, а значение HRTF получается путем преобразования Фурье. На голове
манекена располагаются микрофоны, закрепленные в его ушах. Звуки воспроизводятся через
акустические колонки, расположенные вокруг манекена и происходит запись того, что слышит каждое
"ухо".
Наушники, конечно, упрощают решение проблемы доставки одного звука к одному уху и другого
звука к другому уху. Тем не менее, использование наушников имеет и недостатки. Например:
Использование акустических колонок позволяет обойти большинство из этих проблем, но при этом
не совсем понятно, как можно использовать колонки для воспроизведения бинаурального звука (т.е.
звука, предназначенного для прослушивания в наушниках, когда часть сигнала предназначена для
одного уха, а другая часть для другого уха). Как только мы подключим вместо наушников колонки,
наше правое ухо начнет слышать не только звук, предназначенный для него, но и часть звука,
предназначенную для левого уха. Одним из решений такой проблемы является использование
техники cross-talk-cancelled stereo или transaural stereo, чаще называемой просто алгоритм crosstalk
cancellation (для краткости CC).
Идея CC просто выражается в терминах частот. На схемы выше сигналы S1 и S2 воспроизводятся
колонками. Сигнал Y1 достигающий левого уха представляет собой смесь из S1 и "crosstalk" (части)
сигнала S2. Чтобы быть более точными, Y1=H11 S1 + H12 S2, где H11 является HRTF между левой
колонкой и левым ухом, а H12 это HRTF между правой колонкой и левым ухом. Аналогично Y2=H21
S1 + H22 S2. Если мы решим использовать наушники, то мы явно будем знать искомые сигналы Y1 и
Y2 воспринимаемые ушами. Проблема в том, что необходимо правильно определить сигналы S1 и
S2, чтобы получить искомый результат. Математически для этого просто надо обратить уравнение:
• При очень низкой частоте звука, все функции HRTF одинаковы и поэтому матрица
является вырожденной, т.е. матрицей с нулевым детерминантом (это единственная помеха
для тривиального обращения любой квадратной матрицы). На западе такие матрицы
называют сингулярными. (К счастью, в среде отражающей звук, т.е. где присутствует
реверберация, низкочастотная информация не являются важной для определения
местоположения источника звука).
Давно известно, что для создания убедительного 3D звучания достаточно двух звуковых каналов.
Главное это воссоздать давление звука на барабанные перепонки в левом и правом ушах таким же,
как если бы слушатель находился в реальной звуковой среде.
Из-за того, что расчет HRTF функций сложная задача, во многих системах пространственного звука
(spatial audio systems) разработчики полагаются на использование данных, полученных
экспериментальным путем, например, данные получаются с помощью KEMAR, о чем мы писали
выше. Тем не менее, основной причиной использования HRTF является желание воспроизвести
эффект elevation (звук в вертикальной плоскости), наряду с азимутальными звуковыми эффектами.
При этом восприятие звуковых сигналов, источники которых расположены в вертикальной плоскости,
чрезвычайно чувствительно к особенностям каждого конкретного слушателя. В результате
сложились четыре различных метода расчета HRTF:
На практике существуют некоторые проблемы, связанные с созданием базы HRTF функций при
помощи манекена. Результат будет соответствовать ожиданиям, если манекен и слушатель имеют
головы одинакового размера и формы, а также ушные раковины одинакового размера и формы.
Только при этих условиях можно корректно воссоздать эффект звучания в вертикальной плоскости и
гарантировать правильное определение местоположения источников звука в пространстве. Записи,
сделанные с использованием HRTF называются binaural recordings, и они обеспечивают
высококачественный 3D звук. Слушать такие записи надо в наушниках, причем желательно в
специальных наушниках. Компакт диски с такими записями стоят существенно дороже стандартных
музыкальных CD. Чтобы корректно воспроизводить такие записи через колонки необходимо
дополнительно использовать технику CC. Но главный недостаток подобного метода - это отсутствие
интерактивности. Без дополнительных механизмов, отслеживающих положение головы
пользователя, обеспечить интерактивность при использовании HRTF нельзя. Бытует даже
поговорка, что использовать HRTF для интерактивного 3D звука, это все равно, что использовать
ложку вместо отвертки: инструмент не соответствует задаче.
Sweet Spot
На самом деле значения HRTF можно получить не только с помощью установленных в ушах
манекена специальных внутриканальных микрофонов (inter-canal microphones). Используется еще и
так называемая искусственная ушная раковина. В этом случае прослушивать записи нужно в
специальных внутриканальных (inter-canal) наушниках, которые представляют собой маленькие
шишечки, размещаемые в ушном канале, так как искусственная ушная раковина уже перевела всю
информацию о позиционировании в волновую форму. Однако нам гораздо удобнее слушать звук в
наушниках или через колонки. При этом стоит помнить о том, что при записи через inter-canal
микрофоны вокруг них, над ними и под ними происходит искажение звука. Аналогично, при
прослушивании звук искажается вокруг головы слушателя. Поэтому и появилось понятие sweet spot,
т.е. области, при расположении внутри которой слушатель будет слышать все эффекты, которые он
должен слышать. Соответственно, если голова слушателя расположена в таком же положении, как и
голова манекена при записи (и на той же высоте), тогда будет получен лучший результат при
прослушивании. Во всех остальных случаях будут возникать искажения звука, как между ушами, так
и между колонками. Понятно, что необходимость выбора правильного положения при
прослушивании, т.е. расположение слушателя в sweet spot, накладывает дополнительные
ограничения и создает новые проблемы. Понятно, что чем больше область sweet spot, тем большую
свободу действий имеет слушатель. Поэтому разработчики постоянно ищут способы увеличить
область действия sweet spot.
Частотная характеристика
Действие HRTF зависит от частоты звука; только звуки со значениями частотных компонентов в
пределах от 3 kHz до 10 kHz могут успешно интерпретироваться с помощью функций HRTF.
Определение местоположения источников звуков с частотой ниже 1 kHz основывается на
определении времени задержки прибытия разных по фазе сигналов до ушей, что дает возможность
определить только общее расположение слева/справа источников звука и не помогает
пространственному восприятию звучания. Восприятие звука с частотой выше 10 kHz почти
полностью зависит от ушной раковины, поэтому далеко не каждый слушатель может различать звуки
с такой частотой. Определить местоположение источников звука с частотой от 1 kHz до 3 kHz очень
сложно. Число ошибок при определении местоположения источников звука возрастает при снижении
разницы между соотношениями амплитуд (чем выше пиковое значение амплитуды звукового
сигнала, тем труднее определить местоположение источника). Это означает, что нужно использовать
частоту дискретизации (которая должна быть вдвое больше значения частоты звука)
соответствующей как минимум 22050 Hz при 16 бит для реальной действенности HRTF.
Дискретизация 8 бит не обеспечивает достаточной разницы амплитуд (всего 256 вместо 65536), а
частота 11025 Hz не обеспечивает достаточной частотной характеристики (так как при этом
максимальная частота звука соответствует 5512 Hz). Итак, чтобы применение HRTF было
эффективным, необходимо использовать частоту не ниже 22050 Hz при, хотя бы, 16 битной
дискретизации.
Если источники звука неподвижны, они не могут быть точно локализованы, как "статические" при
моделировании, т.к. мозгу для определения местоположения источника звука необходимо наличие
перемещения (либо самого источника звука, либо подсознательных микро перемещений головы
слушателя), которое помогает определить расположение источника звука в геометрическом
пространстве. Нет никаких оснований, ожидать, что какая-либо система на базе HRTF функций будет
корректно воспроизводить звучание, если один из основных сигналов, используемый для
определения местоположения источника звука, отсутствует. Врожденной реакцией человека на
неожидаемый звук является повернуть голову в его сторону (за счет движения головы мозг получает
дополнительную информацию для локализации в пространстве источника звука). Если сигнал от
источника звука не содержит особую частоту, влияющую на разницу между фронтальными и
тыловыми HRTF функциями, то такого сигнала для мозга просто не существует; вместо него мозг
использует данные из памяти и сопоставляет информацию о местоположении известных источников
звука в полусферической области.
Есть и другой метод, более новый и судить о его эффективности пока сложно. Суть метода, который
разработан Sensaura и называется MultiDrive, заключается в использовании HRTF функций на
передней и на тыловой паре колонок (и даже больше) с применением алгоритмов CC. На самом
деле Sensaura называет свои алгоритмы СС несколько иначе, а именно Transaural Cross-talk
cancellation (TCC), заявляя, что они обеспечивают лучшие низкочастотные характеристики звука.
Инженеры Sensaura взялись за решение проблемы восприятия звучания от источников звука,
которые перемещаются по бокам от слушателя и по оси фронт/тыл. Заметим, что Sensaura для
вычисления HRTF функций использует так называемое "цифровое ухо" (Digital Ear) и в их
библиотеке уже хранится более 1100 функций. Использование специального цифрового уха должно
обеспечивать более точное кодирование звука. Подчеркнем, что Sensaura создает технологии, а
использует интерфейс DS3D от Microsoft.
Технология MultiDrive воспроизводит звук с использованием HRTF функций через четыре или более
колонок. Каждая пара колонок создает фронтальную и тыловую полусферу соответственно.
Стоит упомянуть и другие инновации Sensaura, а именно технологии ZoomFX и MacroFX, которые
призваны улучшить восприятие трехмерного звука. Расскажем о них подробнее, тем более что это
того стоит.
MacroFX
Как мы уже говорили выше, большинство измерений HRTF производятся в так называемом дальнем
поле (far field), что существенным образом упрощает вычисления. Но при этом, если источники звука
располагаются на расстоянии до 1 метра от слушателя, т.е. в ближнем поле (near field), тогда
функции HRTF плохо справляются со своей работой. Именно для воспроизведения звука от
источников в ближнем поле с помощью HRTF функций и создана технология MacroFX. Идея в том,
что алгоритмы MacroFX обеспечивают воспроизведение звуковых эффектов в near-field, в
результате можно создать ощущение, что источник звука расположен очень близко к слушателю, так,
будто источник звука перемещается от колонок вплотную к голове слушателя, вплоть до шепота
внутри уха слушателя. Достигается такой эффект за счет очень точного моделирования
распространения звуковой энергии в трехмерном пространстве вокруг головы слушателя из всех
позиций в пространстве и преобразование этих данных с помощью высокоэффективного алгоритма.
Особое внимание при моделировании уделяется управлению уровнями громкости и
модифицированной системе расчета задержек по времени при восприятии ушами человека звуковых
волн от одного источника звука (ITD, Interaural Time Delay). Для примера, если источник звука
находится примерно посередине между ушами слушателя, то разница по времени при достижении
звуковой волны обоих ушей будет минимальна, а вот если источник звука сильно смещен вправо, эта
разница будет существенной. Только MacroFX принимает такую разницу во внимание при расчете
акустической модели. MacroFX предусматривает 6 зон, где зона 0 (это дистанция удаления) и зона 1
(режим удаления) будут работать точно так же, как работает дистанционная модель DS3D. Другие 4
зоны это и есть near field (ближнее поле), покрывающие левое ухо, правое ухо и пространство внутри
головы слушателя.
ZoomFX
Для технологии ZoomFX будет создано расширение для DirectSound3D, подобно EAX, с помощью
которого разработчики игр смогут воспроизводить новые звуковые эффекты и использовать такой
параметр источника звука, как размер. Пока эта технология находится на стадии завершения.
Компания Creative реализовала аналогичный подход, как в MultiDrive от Sensaura, в своей технологии
CMSS (Creative Multispeaker Surround Sound) для серии своих карт SB Live!. Поддержка этой версии
технологии CMSS, с реализацией HRTF и CC на четырех колонках, встроена в программу
обновления LiveWare 2.x. По своей сути, технология CMSS является близнецом MultiDrive, хотя на
уровне алгоритмов CC и библиотек HRTF наверняка есть отличия. Главный недостаток CMSS такой
же, как у MultiDrive - необходимость расположения тыловых колонок в строго определенном месте, а
точнее параллельно фронтальным колонкам. В результате возникает ограничение, которое может не
устроить многих пользователей. Не секрет, что место для фронтальных колонок давно
зарезервировано около монитора. Место для сабвуфера можно выбрать любым, обычно это где-то в
углу и на полу. А вот тыловые колонки пользователи располагают там, где считают удобным для
себя. Не каждый захочет расположить их строго за спиной и далеко не у всех есть свободное место
для такого расположения.
Заметим, что главный конкурент Creative на рынке 3D звука, компания Aureal, использует технику
панорамирования на тыловых колонках. Объясняется это именно отсутствием строгих ограничений
на расположение тыловых колонок в пространстве.
Не стоит забывать и о больших объемах вычислений при расчете HRTF и Cross-talk Cancellation для
четырех колонок.
Еще один игрок на рынке 3D звука - компания QSound пока имеет сильные позиции только в области
воспроизведения звука через наушники и две колонки. При этом свои алгоритмы для
воспроизведения 3D звука через две колонки и наушники (в основе лежат HRTF) QSound создает
исходя из результатов тестирования при прослушивании реальными людьми, т.е. не довольствуется
математикой, а делает упор на восприятие звука конкретными людьми. И таких прослушиваний было
проведено более 550000! Для воспроизведения звука через четыре колонки QSound использует
панорамирование, т.е. тоже, что было в первой версии CMSS. Такая техника плохо показала себя в
играх, обеспечивая слабое позиционирование источников звука в вертикальной плоскости.
Теперь посмотрим, с каким багажом подошли ведущие игроки 3D звукового рынка к сегодняшнему
дню и что нас ждет в ближайшем будущем.
EAR
EAR - в текущей версии IAS 1.0 реализована поддержка воспроизведения DS3D, A3D 1.0 и EAX 1.0
через четыре и более колонок. За счет воспроизведения через четыре и более колонок, мозг
слушателя получает дополнительные сигналы для правильного определения местоположения
источников звука в пространстве.
Осенью ожидается выход IAS 2.0 с поддержкой DirectMusic, YellowBook, EAX 2.0 и A3D 2.0, force-feed
back (мы сможем чувствовать звук, а именно давление звука, громкость и т.д.), декодирование в
реальном времени MP3 и Dolby/DTS, будет реализована поддержка ".1" канала (сабвуфера). Кроме
того, в IAS 2.0 будет реализовано звуковое решение, не требующее наличие звуковой карты (cardless
audio solution) для использования с полностью цифровой системой воспроизведения звука, например
с USB колонками или в тандеме с домашней системой Dolby Digital.
• Имеется поддержка воспроизведения через две колонки (для старых систем), если
многоколоночная конфигурация недоступна.
Sensaura
Первая карта на базе чипа Canyon3D называется DMX и производит ее компания Terratec.
Как только эта карта попадет к нам на испытания, мы представим на ваш суд обзор. Заметим только,
что на этой карте будут сразу оба типа цифровых выходов S/PDIF коаксиальный (RCA) и оптический
(Toslink), и один цифровой вход. Так что продукт обещает быть очень интересным.
Creative
Creative - занимается совершенствованием своего движка реверберации. В итоге в свет выйдет EAX
3.0, который должен добавить больше реализма в воспроизводимый звук. Никто не спорит, что
реверберация это хорошо, что именно она обеспечивает насыщенное и живое звучание. При этом
Creative упорно не собирается вести разработки в области геометрии акустики. Кстати, Microsoft
объявила о намерении включить EAX в состав DirectSound3D 8.0. С другой стороны, есть
неподтвержденные слухи, что EAX 3.0 будет закрытым стандартом. Интересно, изменит ли Creative
свою позицию со временем? Пока же в новых версиях EAX нам обещают больше реализма и
гибкости в настройках реверберации и моделировании звуковой среды для конкретных объектов и
помещений, плюс плавные переходы от одной заранее созданной звуковой среды к другой при
движении слушателя в 3D мире. Будут улучшения в области воспроизведения эффектов окклюзии и
обструкции. Обещают и поддержку отраженных звуков, но без учета геометрии и более продвинутую
дистанционную модель. Вообще, я не удивлюсь, если Creative лицензирует MacroFX и ZoomFX у
Sensaura. Что касается моделирования звука на основе физической геометрии среды, то Creative
очень усиленно отрицает для себя возможность поддержки такого метода. Хотя, если поднять
архивы и посмотреть первый пресс-релиз о будущем чипе Emu10k1, то вы будете удивлены. Там
говорится именно об использовании физической геометрии среды при моделировании звука. Потом
планы изменились. Кто помешает Creative вновь изменить планы? Особенно если учесть появление
в ближайшее время движка реверберации от Aureal. Вряд ли Creative не сделает ответного хода.
QSound
QSound ведет работы по созданию новой технологии воспроизведения 3D звука через четыре и
более колонок. Зная пристрастия QSound, можно предположить, что в основу новой технологии
опять лягут результаты реальных прослушиваний. QSound, как и Sensaura занимается именно
технологиями, которые воплощают в виде чипов другие компании. Так, чип Thunderbird128 от VLSI
воплощает в себе все последние достижения QSound в области 3D звука, при этом Thunderbird128
это DSP, а значит, есть все основания ожидать последующей модернизации. Стоит упомянуть, что
QSound, подобно Creative считает, что главное в 3D звуке это восприятие слушателем окружающей
атмосферы игры. Поэтому QEM (QSound Environmental Modeling) совместима с EAX 1.0 от Creative.
Следует ожидать, что QEM 2.0 будет совместима с EAX 2.0. Отметим, что QSound славится очень
эффективными алгоритмами и грамотным распределением доступных ресурсов, неслучайно именно
их менеджер ресурсов был лицензирован Microsoft и включен в DirectX.
Aureal
С Aureal все более-менее понятно. В ближайшем будущем нам обещают дальнейшее улучшение
функциональности A3D, мощный движок реверберации, поддержку HRTF на четырех и более
колонках. Кроме того, есть вероятность, что Aureal начнет продавать свои карты под своей маркой.
Кстати, осенью должны начаться продажи супер колонок под маркой Aureal.
Ну что же, надеюсь, вы получили представление о том, как создается 3D звук и о том, какими
параметрами должны обладать звуковые карты и акустические системы. Компьютерная индустрия
звука продолжает поступательное развитие. Нам, как пользователям, это только на руку. Можно
прогнозировать, что будущие звуковые карты и звуковые интерфейсы позволят разработчикам игр
создавать потрясающие своей реальностью и производимым впечатлением эффекты. Библиотеки
HRTF будут все дальше совершенствоваться. Возможно, чипы звуковых карт будут поддерживать
декодирование AC-3 и других форматов цифрового звука. Звуковые карты будут поддерживать
подключение более четырех колонок. Широкое распространение получат цифровые интерфейсы и
цифровые подключения. Отдельной веткой будут развиваться дешевые решения на базе AMR. Нам
же остается самая сложная часть, выбрать именно тот продукт, который устроит нас по всем
параметрам. Не забывайте, что звук каждый слышит по-своему, поэтому, только послушав
самостоятельно, вы составите правильное мнение о звуковой карте и звуковых технологиях.
больше пользы это приносит пользователю – это правило подтверждается множеством примеров. В
частности, процесс постоянного совершенствования и усложнения технологий компьютерного звука
заставляет пользователя постоянно развиваться, «догонять передовую компьютерную мысль»,
становиться все более грамотным и компетентным. Но, с другой стороны, все более и более
изощренным становится и бизнес в этой области, который впитывает в себя как губка все новое и
передовое.
Что нужно, чтобы наладить производство аудио компакт дисков? Завод по изготовлению «болванок»,
машины для тиражирования CD и своя звукозаписывающая студия? Нет, сегодня это уже не так.
«Болванки» можно купить в магазине за углом, писать диски можно «потихоньку» на домашнем
компьютере в недорогом приводе CD-R, а музыку можно выкачивать из Интернета, например, в
формате .MP3 (MPEG-1 Layer III). Все просто, и, самое главное, - дешево. Этим и пользуется
нечистоплотный бизнес. «Бизнесмены» ставят подобное производство (с небольшими
модификациями) на поток, и продают результаты этого производства в магазинах, выдавая
«паленые» компакт диски за оригинальные. Что в этом плохого, кроме некрасивого отношения к
своим покупателям? Дело в том, что звучание подобных компакт-дисков если не катастрофически, то
очень заметно отличается от звучания оригинальных композиций, из которых были сделаны
использованные для записи CD .MP3-файлы (то же самое относится и к файлам в других lossy-
форматах). Это обусловлено самой природой lossy-кодирования. Компрессоры (подобные
компрессорам .MP3 и другим), основанные на идее кодирования с потерями качества (lossy-coding),
преследуют две цели: закодировать аудио так, чтобы сжатые данные занимали как можно меньший
объем памяти и звучали при этом как можно более близко к оригиналу. Способы, которыми
достигаются эти две цели, могут быть различными, однако, все они в результате приводят к тому,
что закодированные данные при воспроизведении (декодировании) уже не являются оригинальным
сигналом, а лишь похоже звучат. Такая деградация оригинального качества звука связана с тем, что
в процессе кодирования данные сильно "упрощаются": из них выбрасываются ненужные
слабослышимые или замаскированные детали, а также используются другие методы «облегчения»
данных (подобная техника упрощения аудио данных известна под понятием «психоакустическая
модель»). Процесс декодирования уже не способен восстановить утраченные во время компрессии
данные (нюансы звучания, отфильтрованные частоты и проч.). Поэтому, покупая сегодня аудио CD
можно столкнуться с тем, что «компакт» окажется подделкой и будет являть собой СD, созданный из
декодированных .MP3-файлов. А это означает, что качество звучания такого CD будет заведомо
хуже оригинала.
Перейдем к делу. Предположим, вы приобрели аудио CD. Не спешите выбрасывать чек, – может
быть вам еще придется вернуть этот диск назад в магазин. Давайте разберемся, что вас может
насторожить в покупке. Таких моментов есть несколько. Первый, и наиболее очевидный, – это вид
самого компакт диска. Фирменный диск всегда качественно упакован, чаще имеет голографическую
маркировку, штрих-код и т.д., что явно отличает его от китайской штамповки. Второй момент – это,
конечно, звучание CD: если оно сопровождается странными помехами («бульканьем»,
позвякиванием, резкими перепадами уровня сигнала на различных частотах) – это уже плохой
признак, так как все упомянутые помехи, являются типичными «артефактами» кодирования в .MP3.
Третий момент, на который тоже следует обращать внимание, – это неравная громкость звучания
треков. Это может оказаться признаком того, что диск был записан с использованием не
выровненных по уровню громкости .MP3-файлов.
Таких способов есть несколько. Однако ради справедливости здесь отметим, что ни один из
указанных ниже способов не гарантирует, к сожалению, стопроцентной уверенности в
напрашивающихся выводах. Это связано с тем, что все способы, которые мы рассмотрим,
опираются на известные особенности кодирования в MP3 (или подобного, основанного на
использовании психоакустики). Поэтому, грамотный и хитроумный специалист может при желании
«замести следы». Но, все же, шанс обнаружить подделку при внимательном и правильном изучении
диска достаточно велик. Кроме того, все рассматриваемые способы требуют некоторого понимания
процесса компрессии аудио в .MP3. Всю необходимую информацию по этому поводу мы рассмотрим
ниже по ходу изложения материала статьи.
Программ для копирования данных с аудио CD существует множество, например, WinDAC, Feurio,
CD Copy, CDex. Автор статьи уже давно остановил свой выбор на программе Exact Audio Copy.
Воспользовавшись выбранной программой нужно скопировать все треки (либо только те, которые вы
бы хотели исследовать) с CD в файлы на винчестер.
Второе. Необходимо установить какой-нибудь редактор цифрового аудио. Для этой цели, пожалуй,
лучше всего подойдет редактор Cool Edit Pro компании Sintrillium. Редактор понадобится нам для
детального изучения исследуемых данных. Откровенно говоря, Cool Edit сам умеет копировать
информацию с аудио CD, однако, все же, лучше воспользоваться специально предназначенной для
этой процедуры программой.
рис. 1
Масштаб временной шкалы следует подбирать так, чтобы на все видимое рабочее поле
отображалось примерно 60-100 мс от начала файла. Масштаб амплитудной шкалы следует
выбирать покрупнее, так как нужно быть уверенным наверняка в том, что интересующий нас участок
аудио действительно несет нулевую амплитуду, а не просто очень низкий по уровню не нулевой
сигнал.
Надо отметить, что полная тишина в начале трека еще не означает, что трек «фальшивый». Не
исключено, что при подготовке диска к записи оригинальный сигнал действительно был нарочно
приглушен по краям. Поэтому, чтобы сделать верные выводы относительно всего CD, нужно
внимательно изучить не один и не два трека, а желательно все. В случае наличия тишины в начале
каждого трека на диске, можно с определенной долей вероятности утверждать, что данный диск
неоригинальный.
Чтобы «справиться» с компрессией данных на достаточно низких битрейтах (таких, как 96, 112 и 128
Kbps), некоторые кодеры .MP3 перед применением психоакустики отфильтровывают из
оригинальных данных все частотные составляющие, расположенные выше определенного предела
(для 128 Kbps граничная частота обычно составляет 16 КГц). Это означает, что при декомпрессии
аудио этих частот также не будет. А, это в свою очередь означает, что если исследуемый диск
«нарезан» из низкобитрейтных .MP3 файлов, то нехитрый спектральный анализ покажет полное или
частичное отсутствие частот выше определенной границы.
Для того чтобы проверить нашу гипотезу, загрузим один из треков в редактор и посмотрим на этот
трек в режиме сонограммы (в редакторе Cool Edit Pro режим просмотра сонограммы включается в
меню View -> Spectral View). Пример того, как выглядит сонограмма .WAV-файла, декодированного
из .MP3 128 Kbps, можно увидеть на рис. 2 (показан только левый канал).
рис. 2
Как видите, частот выше 16 КГц просто нет. Более того, видна совершенно четкая граница
фильтрации.
Надо отметить, что этот метод проверки CD более точен. Однако и в этом случае нужно учитывать,
что, во-первых, не все кодеры и не во всех режимах осуществляют такую жесткую фильтрацию -
грамотно сжатый .MP3 даже на низком битрейте более или менее правильно отражает спектральную
картину оригинального сигнала во всей полосе частот. Поэтому, даже если диск не оригинальный,
подобной картины можно и не увидеть. Во-вторых, следует обратить внимание на то, что проблема
имеет и обратную сторону. В ваших руках может оказаться оригинальный диск, который по
результатам подобной проверки вы можете принять за фальшивый. Такое может случиться, если вы
не учтете тот факт, что не все оригинальные диски содержат аудио материалы прекрасного
качества. Некоторые диски могут быть записаны со старых носителей (старые магнитные ленты,
виниловые пластинки), где частотный диапазон ограничен либо качеством самого носителя, либо
невысоким качеством использованной при записи аппаратуры.
Способ 3. Как мы уже сказали выше, помимо возможной фильтрации верхних частот при
кодировании в .MP3 происходит сильное «упрощение сигнала». Кодер анализирует аудио
информацию и, опираясь на указанный пользователем битрейт, «решает» какие тонкости звучания
можно выбросить. Чем ниже битрейт, тем сильнее будут упрощены оригинальные аудио данные.
Такая обработка сигнала не проходит бесследно: сжатый сигнал начинает звучать менее
естественно, а к звучанию добавляются так называемые «артефакты кодирования» («бульканье»,
позвякивание, заметные скачки уровня сигнала на различных частотах). В двух словах объяснить
возникновение подобных искажений несложно: выходной поток кодера ограничен по размеру
указанным битрейтом; кодер, «пытаясь» уложиться в заданный размер и, в то же самое время, не
сильно испортить сигнал, «старается» сохранить как можно больше нюансов оригинального
звучания. Однако ввиду конечности скорости реакции кодера и вследствие невозможности
«запихнуть» в выходной поток все подобные нюансы, кодер вынужден резко переключаться между
ними, изменять параметры фильтрации и проч., что в результате приводит к заметным искажениям в
звучании. Естественно, эти искажения тем ощутимее, чем ниже битрейт.
Возвращаясь к практической части разговора надо отметить, что описанные искажения и дефекты
кодирования в той или иной степени можно распознать на сонограмме. Если анализируемый аудио
материал действительно является декодированным из .MP3, то такие артефакты будут различимы
на сонограмме (в зависимости от битрейта исходного .MP3 они будут различимы больше или
меньше).
Итак, для определения уровня искаженности сигнала берем фрагмент одного из треков
протяженностью 1 – 1,5 секунды с наиболее насыщенным звучанием, причем, масштаб временной
шкалы следует подобрать так, чтобы выбранный фрагмент занимал все рабочее поле; при
необходимости масштаб можно еще более укрупнить. На рис. 3 в качестве примера приведена
сонограмма фрагмента .MP3-файла (128 Kbps).
рис. 3
рис. 4
Как видите, сонограмма оригинального сигнала выглядит гладко, однородно, без резких скачков и
рваных краев. Первая же сонограмма (рис. 3) выглядит наоборот, очень прерывистой, зернистой,
неоднородной. Это и есть результат попыток кодера максимально «отработать» всю полосу частот,
сохранив все тонкости звучания. Конечно, когда вы попытаетесь воспользоваться приведенным
способом для определения подлинности купленного диска, в вашем распоряжении не будет
оригинала, и сравнить сонограммы вы не сможете. Однако представленная на рис. 3 сонограмма
типична для низкобитрейтного .MP3-файла и может послужить вам примером того, как выглядит
неоригинальный сигнал. Видимая невооруженным глазом неоднородность, крупнозернистость и
прерывистость спектра является наглядным примером наиболее характерных артефактов
кодирования. Заметим, что такая наглядность снижается с увеличением битрейта .MP3-файла. В
качестве еще одного примера посмотрим на сонограмму того же сигнала, однако закодированного на
битрейте 160 Kbps (см. рис. 5).
рис. 5
На таком битрейте неоднородность сигнала хотя и стала менее заметной, однако все равно
различима.
Способ 4. Последний способ, который может сыграть одну из решающих ролей в установлении
истины, прост и красив. Способ основан на следующей идее. Обычно, основная аудио информация
расположена не стерео панораме приблизительно в центре. То есть по субъективным ощущениям
слушателя, источником звука является некий мнимый источник, находящийся посредине между
двумя физическими. Артефакты кодирования же являются, как мы говорили, результатом
невозможности точно отработать все тонкости звучания. Поскольку таких тонкостей может оказаться
достаточно много, то безо всякой зависимости от стерео картины, дефекты кодирования могут быть
разбросаны по стерео панораме достаточно хаотично.
Таким образом, вычитание сигнала одного канала из сигнала другого канала, по сути, «выбросит»
все основное звучание, оставив только то, что находилось по бокам. Артефакты кодирования при
этом станут намного заметнее, поскольку они окажутся выделенными на общем фоне. А, значит,
такая нехитрая операция, как вычитание каналов даст возможность на слух достаточно уверенно
определить все дефекты кодирования, если таковые имели место.
Теперь о том, как вычесть каналы. Загрузите один из .WAV-файлов (треков) в редактор и
произведите вычитание правого канала из левого (в Cool Edit Pro: выделите правый канал,
скопируйте его в буфер, теперь выделите левый канал, воспользуйтесь меню Edit -> Mix Paste,
включите Invert и Overlap, примените). Теперь, исключительно для удобства прослушивания,
скопируйте полученный результат из левого канала в правый. В случае если в вашем распоряжении
оказался, все-таки, фальшивый трек, декодированный из .MP3, результатом проделанной процедуры
будет сигнал, содержащий «все ужасы» кодирования в .MP3: все шумы, искажения и скрежет,
«захлебывание» ударных, высокочастотный шум, – все это с большой долей вероятности окажется в
полученном результирующем сигнале. Чтобы ясно представить себе, чего ожидать от такого
звучания, вы можете сами создать свой .MP3 и сравнить звучание разности каналов оригинального
сигнала со звучанием разности каналов .MP3.
Вывод. Личная практика автора по применению приведенных способов анализа показывает, что ни
один из четырех представленных на ваш суд способов не является панацеей. Однако если большая
часть результатов применения приведенных выше методов склоняет вас думать о подлоге, то,
скорее всего, так оно и есть.
Данная статья кроме своей практической направленности преследовала своей целью расширить
кругозор пользователей в области компьютерного звука. Автор будет признателен читателям за
отзывы по данной статье, а также за новые идеи расширения методологии определения
оригинальности аудио CD.
Виден был уже остров сирен. Залепил я воском уши моим спутникам, а они так крепко привязали
меня к мачте, что не мог я двинуть ни одним суставом. Быстро плыл наш корабль мимо острова,
а с него неслось чарующее пение сирен. О, плыви к нам, великий Одиссей! - так пели сирены, - к
нам направь свой корабль, чтобы насладиться нашим пением. Не проплывет мимо ни один моряк,
не послушав нашего сладостного пения. Насладившись им, покидает он нас, узнав многое...
приключений Одиссея, описанных Гомером. В наши дни по поводу этой легенды существует много
самых разных мнений. Кто-то воспринимает поэму "Одиссея" как романтическую сказку, а кто-то
всерьез анализирует методы вождения судов, вроде бы изложенные в поэме. Есть и те, что считают
Одиссея никудышным руководителем, который, погубив корабли и команду, многие годы скрывался
от гнева соплеменников, а когда страсти окончательно улеглись, вернулся домой и, чтобы как-то
объяснить свое длительное отсутствие, наплел с три короба.
Словом, миф об Одиссее, как и всякий миф, предоставляет широчайшее поле для анализа,
толкований, фантазирования. Рискну и я высказать свои предположения о... причине столь мощного
воздействия пения сирен на слушателей.
В представлении многих людей, в том числе и тех, кто воплощал образ мифологических сирен в
музыке, в качестве основных отличительных признаков голосов этих полуптиц-полуженщин вольно
или невольно присутствуют чарующая красота и, главное, необычайная мощь звучания. Но,
думается, дело здесь не только и не столько в силе голоса каждой отдельно взятой сирены. Скорее
всего, способность воздействовать на психику человека возникает из-за того, что сирены поют
хором. Если голоса у сирен действительно столь мощные, что начинают "доставать" моряков на
довольно большом расстоянии (едва остров появился на горизонте), то физика их воздействия на
слух значительно усложняется: возникает нелинейный эффект. Свойства среды и слухового
рецептора оказываются зависимыми от самих колебаний. Из-за нелинейности характеристики
какого-либо элемента среды возникают комбинационные колебания. Например, если на вход
нелинейного элемента подается единственное синусоидальное колебание, то на его выходе
появятся колебания с частотами (гармониками) в 2, 3, 4, 5,... раз больше частоты исходного
колебания. Если же подать колебания двух частот, возникнет бесчисленное количество колебаний,
частоты которых равны суммам и разностям всех гармоник двух исходных колебаний.
Гомер ничего не говорит о том, сколько сирен одновременно заводили свою роковую песню. Похоже,
их было много. Это означает, что в спектре их чарующего вопля присутствовало бесчисленное
количество достаточно мощных комбинационных инфразвуковых колебаний. Известно, что такие
колебания при определенных условиях "самосинхронизируются" с ритмами головного мозга. В
малых "дозах" подобные колебания могут усилить эмоциональное воздействие музыки, сделать ее
субъективно более приятной и желанной. Эффект зависит, среди прочего, от конкретных значений
частот. От длительного и интенсивного воздействия колебаний одних частот возникают теплые,
успокаивающие ощущения, другие частоты вызывают у человека возбуждение, агрессивность. Впору
и в самом деле привязать себя к мачте или, за неимением таковой, к батарее центрального
отопления, чтобы не натворить разных бед в состоянии звуконаркотического опьянения!
В том, что хоровое пение или одновременное звучание нескольких музыкальных инструментов
украшает и оживляет музыкальное произведение, сомнений, вероятно, нет ни у кого. С одной
стороны, голоса певцов и звуки инструментов при исполнении одинаковой ноты должны звучать
одинаково, и к этому стремятся и музыканты, и дирижер. Но из-за индивидуальных различий
источников звук все равно получается разным. В пространстве, тракте звукоусиления и в слуховом
аппарате человека эти слегка неодинаковые колебания взаимодействуют, образуются так
называемые биения. Спектр звука обогащается и, самое главное, течет, переливается.
Можно считать, что предельным случаем хоруса является одновременное звучание слегка
отличающихся по частоте двух источников - унисон. Он был известен задолго до появления
электронных синтезаторов. В основе сочного и живого звучания двенадцатиструнной гитары,
аккордеона, баяна, гармони лежит именно унисон. В аккордеоне, например, звук каждой ноты
генерируется узлом, содержащим два источника колебаний (язычка), специально настроенных "в
разлив" - с небольшой разницей в частотах (единицы герц). В двенадцатиструнной гитаре звук
извлекается одновременно из пары струн, а разница в частотах образуется естественным путем, из-
за невозможности идеально одинаково настроить обе струны. Наличие ничтожной разницы в
частотах голосов певцов или инструментов и служит причиной красивого звучания унисона (для двух
голосов) или хоруса (для голосов, числом более двух).
Существует довольно много разновидностей алгоритмов хоруса, но все они сводятся к следующему:
В Cool Edit Pro 2 применяется метод прямого моделирования эффекта Chorus: из каждого исходного
голоса формируются новые голоса, звучание которых отличается от оригинала за счет неглубокой
модуляции частоты и сдвига по времени, а также псевдослучайного интонирования.
Пространственную протяженность и даже некоторую объемность эффекту придает наличие
обратной связи в алгоритме обработки. Рассмотрим опции окна Chorus.
В группе Stereo Chorus Mode находятся опции, от которых зависят стереофонические свойства
эффекта.
Если флажок Average Left & Right сброшен, то исходные сигналы левого и правого каналов будут
обрабатываться эффектом по отдельности. Существовавший до обработки стереообраз звука
претерпит минимальные искажения. При установленном флажке сформируется некий усредненный
стереообраз, так как обрабатываться будет смесь канальных сигналов. По сути дела, сначала
программа до основания разрушит исходный стереообраз, сформировав моносигнал, а затем
придаст ему стереофоничность за счет разноса отдельных голосов по панораме.
Если обрабатывается монофонический аудиофайл, то флажок Average Left & Right следует
сбросить, чтобы избежать бессмысленной траты времени на преобразование моносигнала в
моносигнал.
При установленном флажке Add Binaural Cues в сформированный сигнал добавляются задержки,
разные для правого и левого каналов. Тогда голоса, исходящие из различных точек панорамы, будут
появляться в различные моменты времени.
Расположенные ниже этих флажков движковый регулятор и поле ввода предназначены для выбора
протяженности эффекта на стереопанораме (ширины стереополя). Если движок находится в
положении Narrow Field (введено число 0), все голоса будут помещены в центр стереопанорамы. При
установке движка в положение 50% они расположатся на панораме равномерно слева направо.
Например, если имитируется хор из 5 голосов, то голоса панорамируются в следующие позиции:
Если движок находится в положении Wide Field (значение параметра - 100%), все левые голоса
будут помещены в крайнюю левую точку, правые - в крайнюю правую точку.
В группе Output сосредоточены регуляторы и поля вода, с помощью которых можно выбрать
пропорцию смешивания обработанного эффектом (Wet Out) и исходного (Dry Out) сигналов.
При установленном флажке Bypass на выход эффекта независимо от состояния регуляторов группы
Output подается только обработанный сигнал.
Если установить флажок Highest Quality (but slow), то для реализации эффекта будет использован
алгоритм, обеспечивающий более высокое качество (меньший уровень искажений), однако время,
необходимое для вычислений, возрастет.
Звуковой редактор Cool Edit Pro 2 отличается большим количеством интересных пресетов (заранее
установленных наборов значений параметров эффектов). Для хоруса это:
• 5 Voices (Pro), 5 Voices Sing, Another Dimension - варианты хора из пяти голосов
• Amateur Chorus, Thick Chorus - варианты хора из 12 голосов
• AcousticDuet, Duo - варианты дуэтов
• Electro-Voice - имитация электронного звучания голоса
• Flying Saucers - такие звуки, по мнению разработчика, издают летающие тарелки
• More Sopranos, Soprano Chorus - варианты хора из голосов сопрано
• Quadra Chorus Quartet - варианты квартета
• Rich Chorus, Rich Chorus In Unison - варианты хора с насыщенным звучанием
• Thick Chorus, Wide & Thick - варианты большого хора с широким стереополем
• TrippyVox - хор из 5 голосов, необработанный сигнал на выходе эффекта отсутствует.
Эффекты в SONAR 2.1 можно применять как в реальном времени, так и путем пересчета данных на
выделенном треке. Во втором случае окна эффектов содержат две вкладки. Опции вкладки Mixing
(одинаковой для всех эффектов) позволяют определить характер взаимодействия исходного и
обработанного цифрового звука, а все настройки эффекта расположены на вкладке Settings.
Команда Process > Audio Effects > Cakewalk > Chorus... вызывает окно Chorus.
Вкладка Settings окна эффекта Chorus музыкального редактора SONAR 2.1
Регулятор Dry Mix (%) предназначен для управления уровнем громкости необработанного сигнала,
ретранслируемого на выход эффекта, а Wet Mix (%) - обработанного сигнала на выходе эффекта.
Если выключатель Link этой группы опций выключен, то регулировать эти параметры можно
независимо друг от друга, если же включен, то увеличение значения одного параметра приведет к
уменьшению значения другого, и наоборот.
Left Delay (ms) и Right Delay (ms) - регуляторы интервала времени между повторениями сигналов
левого и правого каналов соответственно. Если выключатель Link не активен, то регулировку этих
двух параметров можно выполнить независимо. В противном случае регуляторы Left Delay (ms) и
Right Delay (ms) будут объединены в группу, и задержка для обоих каналов будет одинаковой.
Cross Feedback Mix (%) - регулятор коэффициента перекрестной обратной связи (когда сигнал с
выхода левого канала подается на вход правого, а сигнал с выхода правого канала - на вход левого).
Чем выше значение коэффициента перекрестной обратной связи, тем больше количество повторов
сигнала и шире стереобаза источника звука.
Left Feedback Mix (%) и Right Feedback Mix (%) - регуляторы уровня сигналов обратной связи левого
и правого каналов. Чем выше значения этих параметров, тем больше количество повторов сигнала.
LFO Rate (Hz) - регулятор частоты модуляции времени задержки сигналов (в герцах).
Команда Process > Audio Effects > Cakewalk > FxChorus... вызывает окно диалога FxChorus.
Вкладка Settings окна диалога эффекта FxChorus музыкального редактора SONAR 2.1
Эффект FxChorus позволяет оживить звучание голоса певца или музыкального инструмента:
создается впечатление, что партия исполняется дуэтом, трио, квартетом и даже квинтетом.
Фактически эффект объединяет в себе 4 хорус-процессора, поэтому кроме исходного голоса можно
сформировать еще до 4 голосов. Параметры каждого из них вы можете устанавливать независимо.
Отмечу, что эффект поставляется с большим количеством довольно интересных готовых пресетов.
Как же создать свой собственный новый вариант эффекта?
Обратите внимание на четыре столбца, VOICE 1 - VOICE 4. В каждом из них (сверху вниз)
расположены следующие элементы:
• Индикатор и поле ввода уровня усиления сигнала данного голоса (изменяется в пределах от 0,00 до
1,00)
• Кнопка on включения данного голоса (голос включен, если она окрашена в зеленый цвет, и
выключен, если в серый)
• Кнопка Set включения режима редактирования параметров данного голоса ("нажатое" состояние
кнопки индицируется пунктирной рамкой и увеличением яркости)
• Слайдер gain, предназначенный для регулировки уровня усиления сигнала данного голоса (щелчок
на слайдере равноценен нажатию кнопки Set)
Итак, одновременно можно редактировать параметры только одного голоса, выбранного кнопкой Set.
Какие параметры доступны для редактирования? Ответ на вопрос дает анализ элементов (полей
ввода и маленьких слайдеров), входящих в группу VOICE SETTINGS:
При небольших значениях параметров delay (ms), mod depth и mod freq. вы сможете получить
красиво звучащую имитацию хорового исполнения партии. Если значение delay (ms) велико, хор
распадется на отдельные голоса, исполняющие партию с заметной несогласованностью во времени.
Большие значения параметров mod depth и mod freq. следует выбирать только в том случае, когда
вы специально хотите внести в звучание исходного голоса существенные специфические искажения.
Слайдер и поле ввода группы MIX LEVEL предназначены для регулирования пропорции между
уровнями исходного и обработанного эффектом сигналов в выходном миксе. Причем, в левом
положении слайдера (dry) на выход проходит только необработанный сигнал, в правом (wet) - только
обработанный. Слайдер и поле ввода группы OUTPUT LEVEL служат для регулирования уровня
выходного сигнала.
Кнопка Bypass позволяет изменять маршрутизацию сигнала. Если она нажата, то сигнал
пропускается в обход эффекта, если отпущена - через эффект.
Найденные опытным путем удачные сочетания параметров голосов можно сохранить в пресете. Как
обычно, для этого в раскрывающемся списке Preset: нужно набрать имя пресета и нажать кнопку с
изображением дискеты.
Речь
Устройство уха
В общем случае ухо - нелинейная система и не может быть точно описано с помощью только
линейных элементов (таких как фильтры и линии задержки). Как побочный результат нелинейности
может проявляться, например, следующий эффект: при подаче двух тонов с частотой 1000 и 1200Hz
может также быть слышен третий тон с частотой 800Hz. Однако в интересующем нас диапазоне
амплитуд нелинейность достаточно слаба и ей обычно пренебрегают.
Строение
Ухо состоит из трех частей: ушной раковины (также называемой внешним ухом), среднего уха и
внутреннего уха - улитки. Проходя через различные части уха звук претерпевает изменения.
• Одна из функций внешнего уха (ушной раковины) - улучшение локализации источника звука в
пространстве. Благодаря ее несимметричной форме АЧХ сигналов приходящих из разных точек
пространства изменяется по разному. Ушная раковина может влиять лишь на сигналы с длинной
волны, сопоставимой с размерами уха (>3kHz). Внешний ушной канал резонирует на частоте
около 2kHz , что дает повышенную чувствительность в данном диапазоне.
• Среднее ухо выполняет роль гидравлического усилителя. Так как в улитке находится жидкость а
снаружи - воздух, то необходимо согласование сопротивления среды. Среднее ухо также
защищает от низкочастотных звуков чрезмерной амплитуды.
• Внутреннее ухо - улитка. В развернутом виде будет представлять из себя трубочку, с постепенно
уменьшающимся к одному из концов диаметром. Улитка выполняет роль частотного анализатора.
Внутри улитки находятся до 4000 нервных окончаний. Различные области улитки входят в
резонанс при подаче сигнала определенной частоты.
• Таким образом бинауральный слух, играющий большую роль в локализации источника звука, лучше
всего развит на частотах меньших 1.5кГц. Выше этой частоты источником информации о
местоположении служит лишь разница амплитуд сигнала для левого и правого уха. Это делает
возможным применение при кодировании режимов Joint Stereo - запоминается либо информация
для суммы правого и левого каналов и их разница, со значительно меньшей точностью (Mid/Side
coding), либо вообще запоминается лишь амплитуда сигнала (Intensity coding).
Психоакустика
• Эксперимент: Слушатель в тихой комнате. Повышаем громкость тона частотой 1 kHz до уровня когда
он становится слышимым. Изменяя частоту тона получим:
Частотное(параллельное) маскирование
Временное(последовательное) маскирование
Транзиентные сигналы
Представленная выше теория маскирования верна в случае рассмотрения квазистационарных,
медленно меняющихся по амплитуде и частотным характеристикам сигналов. В случае же
рассмотрения сигналов с резко меняющимися параметрами (транзиентные сигналы) она
неприменима.
• Пре-эхо (pre-echo, ringing). Возникает перед резкими увеличениями амплитуды сигнала (атаками).
При кодировании с недостаточным временным разрешением (и выделением недостаточного
количества бит при квантовании) часть сигнала предшествующая атаке существенно искажается
шумом квантования. Так как существует эффект пре-маскирования, то некоторое искажение
допустимо, однако оно должно быть достаточно коротким по времени. Некоторые исследования
показывают, что время пре-маскирования уменьшается с увеличением частоты сигнала.
• Речевой сигнал. Голосовые участки речевого сигнала являются по своей природе часто идущими
атаками с быстрым затуханием (pitched signals):
Стандартная психоакустическая модель маскирования сигналов в данном случае выдает завышенные пороги слышимости
(из-за недостаточного временного разрешения) и, как результат, становится слышимым шум квантования.
Д ля начала - немного теории. Свертка - это последовательный процесс, заключающийся в
Проще всего этот процесс, наверное, будет понятен по иллюстрации: справа изображена свертка
некой функции (зеленые клетки) с помощью таблицы свертки {0, 1, 1} (желтые клетки), результат -
столбик значений (функция) в синих клетках. Получение первых трех значений результирующей
функции показано подробно - значения трех последовательных элементов исходной функции
умножаются на значения таблицы свертки, результат складывается и записывается в одну ячейку
результата.
• Видно, что количество точек результирующей функции всегда меньше, чем количество точек
исходной. Конкретно говоря, их меньше на N-1 штук, где N - размер таблицы свертки.
• Мы применяли симметричную свертку - т.е. свертку относительно середины отрезка. Если пометить
центральный элемент таблицы свертки <вот так>, то наша свертка записывалась бы в виде {0,
<1>, 1}. К примеру, одноточечная свертка {<1>} оставит функцию как есть - не отняв ни одного
отсчета и не изменив ни одного значения, а {<2>} - усилит функцию (увеличит каждый её элемент)
в два раза. Свертка {0, <0>, 1} просто сдвинет функцию на один отсчет. Собственно говоря, для
такой операции мы могли бы воспользоваться и просто несимметричной сверткой из двух точек -
{<0>, 1}.
Видно, что сама по себе свертка - простой и понятный процесс. Вся хитрость и мощь заключена в
том, как, с какими параметрами, этот процесс можно применить - то есть в таблице свертки. К
вопросу о том, что же такое таблица свертки (далее называемая просто сверткой) и мы сейчас и
перейдем.
Для наглядного представления процесса бывает очень удобно изображать таблицу свертки в виде
графика, аналогичного обрабатываемым функциям. Все дальнейшие иллюстрации будут проходить
с использованием картинок, подобной данной:
На картинке изображена исходная функция, построена таблица свертки ("холостая" - т.е. состоящая
из множества нулей и одной единички, просто сдвигающая функцию) и изображен сам результат
свертки этой функции этой таблицей. Применяемая во всех дальнейших примерах таблица свертки
прикладывается симметрично, т.е. центр процесса свертки находится в центре таблицы (и,
соответственно, посередине графика "таблица свертки"), сама таблица состоит из 41 точки (20 точек
в одну сторону, центральная точка и 20 точек в другую сторону). Оговорюсь сразу, что эффект
сдвига функции, который имеет место на предыдущей иллюстрации, нас нисколько не интересуют -
суть обработки заключается не в этом.
Настала пора синтезировать собственную таблицу свертки. На этот раз мы будем делать
фильтрацию звука - да, обыкновенный частотный фильтр, причем частотный фильтр "высшего
класса", не вносящий фазовых искажений - FIR фильтр, вернее, его частный случай - windowed-sinc.
Я всё же не буду объяснять, как синтезируются подобные таблицы сверток - это не входит в тему
данной статьи, просто посмотрите на готовые результаты.
Еще один простейший пример - однократное эхо, имеющее глухую окраску - т.е. эхо, сопряженное с
фильтром высоких частот:
Первый одиночный импульс таблицы свертки оставляет в неизменной форме исходный сигнал, а
второй - фильтрующий горбик - с некоторой задержкой добавляет отфильтрованный вариант
сигнала, содержащий только низкие частоты.
Это - лишь малая часть всего того, что можно сделать с помощью свертки. Комбинируя различные
приемы построения таблиц можно добиваться очень разнообразных эффектов - как я уже говорил,
90% всех функций типичного музыкального редактора можно реализовать с помощью сверток.
Сверткой запросто делаются следующие эффекты (в любой комбинации):
• накладываемые задержки
• любая частотная фильтрация
• вариации фаз сигналов
Поверьте, это не так уж мало - с помощью этого набора процессов легко делается хорус, вокодеры,
фланжеры, любая реверберация (даже самая естественная) и эхо, любые эквалайзеры и
фильтрация, а также великое множество других эффектов. Стоит один раз тщательно рассчитать
таблицу свертки, и любой из этих эффектов можно запросто выполнять чуть ли не в реальном
времени - так, например, реализовано большое число сложных эффектов в популярном редакторе
CoolEdit.
Подводя итог: Свертка - процесс, который реализует некое преобразование, заданное через
импульсную функцию этого преобразования. Свертка позволяет в точности воспроизвести
множество процессов, имея их импульсную функцию, а также легко осуществить самую
разнообразную обработку, синтезируя импульсную функцию по неким известным заранее законам.
"Что мы измеряем?"
Михаил Чернецкий
N,dB A N,dB A
0.1 1.012 -0.1 0.989
0.2 1.023 -0.2 0.977
0.3 1.035 -0.3 0.966
0.4 1.047 -0.4 0.955
0.5 1.059 -0.5 0.944
0.6 1.072 -0.6 0.933
0.7 1.084 -0.7 0.923
0.8 1.096 -0.8 0.912
0.9 1.109 -0.9 0.902
1.0 1.122 -1.0 0.892
2 1.259 -2 0.794
3 1.412 -3 0.707
4 1.585 -4 0.630
5 1.778 -5 0.562
6 1.996 -6 0.501
7 2.239 -7 0.447
8 2.512 -8 0.398
9 2.818 -9 0.355
10 3.162 -10 0.316
11 3.548 -11 0.282
12 3.981 -12 0.251
13 4.467 -13 0.224
14 5.012 -14 0.200
15 5.623 -15 0.178
16 6.310 -16 0.158
17 7.080 -17 0.141
18 7.943 -18 0.126
19 8.913 -19 0.112
В настоящее время во всем мире ведутся работы по созданию более естественных для человека
средств общения с компьютером, среди которых первое место занимает речевой ввод информации в
компьютер. Проблема речевого ввода информации осложняется рядом факторов: различием языков,
спецификой произношения, шумами, акцентами, ударениями и т.п. Данная работа посвящена
разработке приемов и алгоритмов распознавания речи на русском языке.
В любом языке существует некий набор звуков, который участвует при формировании звукового
облика слов. Как правило, звук вне речи не имеет значения, он приобретает его лишь как составная
часть слова, помогая отличить одно слово от другого. Элементы этого набора звуков называются
фонемами.
Легкими создается поток воздуха, который проходя через гортань, ротовую и носовую полость
получает полезную информацию, которая распространяется в пространстве в виде звуковых волн.
Звуки могут формироваться при участии истинных голосовых связок и без их участия и от этого
коренным образом меняется их образ. Звуковые колебания воспринимаются микрофоном, и как
результат преобразования имеется аналоговый сигнал, что дает возможность применить
аналоговые методы анализа сигнала. Как правило, на этой стадии могут применяться системы
фильтров. Однако, если рассматривать распознавание речи в приложении к компьютерным
технологиям на уровне программного обеспечения, то необходимо провести следующий этап
преобразования информационного образа речи - из аналогового сигнала в непрерывно-дискретный.
Частота дискретизации определяет ту предельную частоту аналогового сигнала, которая может быть
информативна в дискретном представлении. Из исследований в технической фонетике, в частности,
в телефонии известно, что приемлемый диапазон частот, при котором человек может распознавать
речь и определить говорящего является 4. Именно это значение легло в основу частотного
уплотнения каналов в телефонии и определении пропускной способности цифровых каналов связи.
Анализ аналоговых характеристик речи показывает, что реально частота дискретизации должна
быть не менее 8 - 12 Khz. При дальнейшем понижении частоты начинает теряться информация,
которая активно используется при распознавании (особенно это важно при распознавании звуков,
содержащих шум). Нет смысла поднимать частоту дискретизации выше 25 Khz, так как при
незначительном увеличении полезной информации, начинает увеличиваться количество
бесполезной информации - шумов.
Над полученным образом речи можно производить работу по распознаванию. Рассмотрим иерархию
построения системы распознавания речи. В качестве простого примера рассмотрим схему
распознавания, когда сигнал делится на два слова (для уверенного деления в простейших случаях
достаточно полуторносекундной задержки между словами при произношении). Слова, в свою
очередь, распознаются как единое целое. При этом используются различные методы сравнения с
эталонами, вид которых зависит от методики распознавания: при использовании методов
динамического программирования эталоны представляются в том же виде, что и поступающий
сигнал (с учетом деления на слова), при применении методов разложения в ряды, эталоны
представляют из себя наборы параметров этого ряда.
Результатом работы этой схемы является слово из списка присутствующих в множестве эталонов
или сообщение об ошибке, если полученный образ не соответствует в достаточной мере ни одному
эталону.
Добавим к распознаванию среднего уровня еще один, верхний, уровень. На этом уровне
предполагаемое слово анализируется с точки зрения фразы в целом. В результате, за счет
синтаксических и семантических свойств языка приобретается дополнительная информация,
повышающая качество распознавания.
Однако, идея увеличения количества информации о слове необязательно должна быть связана с
верхним уровнем. Рассмотрим более нижний уровень иерархии, где производится фонемный разбор
речевого образа, то есть деления выделенных слов на фонемы с последующим их распознаванием.
Это позволило производительно использовать распознавание по иерархической схеме: из списка
фонем, распознанных с определенной точностью, составляется шаблон, который передается на
следующий уровень, где по нему происходит подбор наиболее подходящего слова, передача
информации о выборе на более высокий уровень, для дальнейшего анализа, и на нижний, для
подстройки системы на конкретного пользователя. Достоинством это схемы является высокая
адаптивность, дающая возможность динамической самоподстройки системы на оператора, и
многоуровневая система проверок, повышающая точность работы.
Тональные звуки - образуются голосом при полном отсутствии шумов, что обеспечивает хорошую
слышимость звука:
гласные: а, э, и, о, у, ы.
Сонарные (звучные) - чье качество определяется характером звучания голоса, который играет
главную роль в их образовании, а шум участвует в минимальной степени:
Для дальнейшего анализа проведем информационные образы звуков различных групп (см. рисунки).
Разница образов и звуков различных видов велика, что значительно облегчила бы задачу
разделения звуков, если бы не присутствие нескольких затрудняющих работу факторов.
Во-первых, переход между различными звуками, как правило, осуществляется крайне плавно даже
между звуками различных групп (исключение составляют некоторые взрывные согласные). Если же
говорить о звуках одной группы, то становится проблематичным разделять переходные процессы от
произнесения того или иного звука, например, в последовательности, воспринимаемой человеком
как “иау”, звук “а” фактически полностью теряет свой обычный образ в переходе от “и” к “у”. Под
влиянием “и” и “у” несколько уменьшилась частота в “а”, да и сама форма звука несколько
трансформировалась.
Вернемся к отображениям звуков и проанализируем общий вид гласных и сонарных звуков. Легко
выявить некую общую закономерность, которая обусловлена происхождением звуков - звуки этих
видов отдаленно напоминают реакцию некоторой системы на последовательность равноудаленных
импульсов. Действительно, импульсами гласных и сонарных звуков являются колебания истинных и
звуковых связок. Окончательный вид звуковые волны приобретают после прохождения через
носоглотку, которая по своей сути является системой фильтров. Необходимо отметить, что
изменения в напряжении истинных голосовых связок и артикуляции происходят значительно
медленнее, чем колебания голосовых связок.
Заметим, что гласные и сонарные звуки состоят из участков затухания импульсов от основных
(необертонных) колебаний истинных голосовых связок. Для упрощения, будем называть эти участки
доменами.
Использование домен при распознавании речи вполне очевидно. По сути, домен (вспомним, что пока
домен рассматривается в приложении только к сонарным и гласным звукам) содержит в себе
информацию, достаточную для распознавания звука. Если взглянуть на образ протяженно
произнесенной гласной (или сонарного звука), то за исключением небольших по длине участков в
начале и конце образа звук состоит из домен с высокой степенью идентичности, даже для различных
людей многие характеристики, а соответственно, и общий вид домен во многом схожи, что придает
особую универсальность методам распознавания при выделении и распознавании фонем через
домены. Еще одним достоинством домен является относительная простота их выделения. По
определению, домен начинается с максимального значения в определенном диапазоне, после
которого идет затухающий по некоторому закону колебательный процесс. Как дополнительное
условие, которое можно использовать при расчленении речи на домены, можно перечислить:
Структура звонких шумных длительных звуков крайне сходно со структурой сонарных и гласных.
Основным различием является наличие шума. Появление шума строго закономерно для каждого
отдельно взятого звонкого шумного длительного звука, так что принцип деления на домены остается
прежним.
Будем рассматривать шумные длительные звуки как один домен. Это позволит легко выделять
корень этих звуков из общего потока и облегчит их анализ.
Анализ образов шумных мгновенных (взрывных) звуков показывает наличие участков по структуре
схожих с определенным для гласных и сонарных звуков понятием домена. Но наряду с
совокупностью общих признаков прослеживается различие: для вышесказанных участков в шумных
мгновенных звуках отсутствует та строгая идентичность домен между собой. Во всех мгновенных
звуках присутствует момент, сильно облегчающих их выделение из речи - перед произнесением
таких звуков наблюдается непродолжительная по меркам восприятия, но весьма значительная, в
масштабах длительностей домен, пауза. Это помогает выделению домен. Поэтому в зависимости от
различных алгоритмов выделения может быть удобно разбивать такого рода звуки на несколько
домен или же воспринимать их целиком, как один.
При разбиении потока речи на домены мы получаем еще один уровень в распознавании. В общей
иерархии он находится еще ниже, чем уровень распознавания домен. Рассмотрим
функционирование такой системы.
Полученный список уже готов для передачи на уровень распознавания фонем по информационному
потоку, деленному на домены, однако возможно и желательно введение дополнительных проверок и
формирование вспомогательной информации для упрощения распознавания фонем. На уровне
распознавания фонем происходит конкретизация взрывных и глухих шумных длительных звуков.
Далее производится работа по селекции переходных домен и домен, по которым будет
производиться основная работа по распознаванию фонем.
Обобщенно говоря, уровень деления на домены было бы точнее назвать некоторым подуровнем в
распознавании фонем, так как здесь не происходит преобразование вида информационного. Однако,
по своей сути процесс выделения домен сложен и многопланен, поэтому он может рассматриваться
отдельно, со своими внутренними подсистемами и совокупностью данных.
рост, однако этой области почему-то не уделяется достаточно внимания. Рядовой пользователь
страдает от нехватки информации и вынужден учиться лишь на собственном опыте и ошибках. Этой
статьей мы постараемся устранить это досадное недоразумение. Данная статья ориентирована на
рядового пользователя и ставит своей целью помочь ему разобраться в теоретических и
практических основах цифрового звука, выявить возможности и основные приемы его
использования.
Что именно мы знаем о звуковых возможностях компьютера, кроме того, что в нашем домашнем
компьютере установлена звуковая плата и две колонки? К сожалению, вероятно из-за
недостаточности литературы или по каким-либо другим причинам, но пользователь, чаще всего, не
знаком ни с чем, кроме встроенного в Windows микшера аудио входов/выходов и Recorder’а.
Единственное использование звуковой карты, которое находит простой пользователь – это вывод
звука в играх, да прослушивание коллекции аудио. А, ведь, даже самая простая на сегодняшний
день звуковая плата, установленная почти в каждом компьютере, умеет намного больше - она
открывает широчайшие возможности для всех, кто любит и интересуется музыкой и звуком, а для
тех, кто хочет создавать свою музыку, звуковая карта может стать всемогущим инструментом. Для
того чтобы узнать что же умеет компьютер в области звука нужно только поинтересоваться и перед
вами откроются возможности, о которых вы, может быть, даже не догадывались. И все это не так
сложно, как может показаться на первый взгляд.
В соответствии с теорией математика Фурье, звуковую волну можно представить в виде спектра
входящих в нее частот (рис. 1).
Рис 1.
Частотные составляющие спектра - это синусоидальные колебания (так называемые чистые тона),
каждое из которых имеет свою собственную амплитуду и частоту. Таким образом, любое, даже
самое сложное по форме колебание (например, человеческий голос), можно представить суммой
простейших синусоидальных колебании определенных частот и амплитуд. И наоборот, сгенерировав
различные колебания и наложив их друг на друга (смикшировав, смешав), можно получить
различные звуки.
Рис. 3
Теперь о практических проблемах. Во-первых, надо иметь в виду, что память компьютера не
бесконечна, так что каждый раз при оцифровке необходимо находить какой-то компромисс между
качеством (напрямую зависящим от использованных при оцифровке параметров) и занимаемым
оцифрованным сигналом объемом.
Рис. 4
Еще совсем недавно воспроизведение звука в домашних компьютерах было проблемой, так как
компьютеры не оснащались специальными ЦАП. Сначала в качестве простейшего звукового
устройства в компьютере использовался встроенный динамик (PC speaker). Вообще говоря, этот
динамик до сих пор имеется почти во всех PC, но никто уже не помнит как его «раскачать», чтобы он
заиграл. Если вкратце, то этот динамик присоединен к порту на материнской плате, у которого есть
два положения – 1 и 0. Так вот, если этот порт быстро-быстро включать и выключать, то из динамика
можно извлечь более-менее правдоподобные звуки. Воспроизведение различных частот
достигается за счет того, что диффузор динамика обладает конечной реакцией и не способен
мгновенно перескакивать с места на место, таким образом он «плавно раскачивается» вследствие
скачкообразного изменения напряжения на нем. И если колебать его с разной скоростью, то можно
получить колебания воздуха на разных частотах. Естественной альтернативой динамику стал так
называемый Covox – это простейший ЦАП, выполненный на нескольких подобранных
сопротивлениях (или готовой микросхеме), которые обеспечивают перевод цифрового
представления сигнала в аналоговый – то есть в реальные значения амплитуды. Covox прост в
изготовлении и поэтому он пользовался успехом у любителей вплоть до того времени, когда
звуковая карта стала доступной всем.
Первый (рис. 5) - PCM (Pulse Code Modulation - импульсно-кодовая модуляция) - способ цифрового
кодирования сигнала при помощи записи абсолютных значений амплитуд (бывают знаковое или
беззнаковое представления). Именно в таком виде записаны данные на всех аудио CD. Второй
способ (рис. 6) - ADPCM (Adaptive Delta PCM - адаптивная относительная импульсно-кодовая
модуляция) – запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд
(приращениях).
Рис. 6
Во-вторых, можно сжать или упростить данные так, чтобы они занимали меньший объем памяти,
нежели будучи записанными «как есть». Тут тоже имеются два пути.
Кодирование данных без потерь (lossless coding) - это способ кодирования аудио, который позволяет
осуществлять стопроцентное восстановление данных из сжатого потока. К такому способу
уплотнения данных прибегают в тех случаях, когда сохранение оригинального качества данных
критично. Например, после сведения звука в студии звукозаписи, данные необходимо сохранить в
архиве в оригинальном качестве для возможного последующего использования. Существующие
сегодня алгоритмы кодирования без потерь (например, Monkeys Audio) позволяют сократить
занимаемый данными объем на 20-50%, но при этом обеспечить стопроцентное восстановление
оригинальных данных из полученных после сжатия. Подобные кодеры – это своего рода архиваторы
данных (как ZIP, RAR и другие), только предназначенные для сжатия именно аудио.
Говоря о способах хранения звука в цифровом виде нельзя не вспомнить и о носителях данных.
Всем привычный аудио компакт-диск, появившийся в начале 80-х годов, широкое распространение
получил именно в последние годы (что связано с сильным удешевлением носителя и приводов). А
до этого носителями цифровых данных являлись кассеты с магнитной лентой, но не обычные, а
специально предназначенные для так называемых DAT-магнитофонов. Ничего примечательного –
магнитофоны как магнитофоны, однако цена на них всегда была высокой, и такое удовольствие
было не всем «по зубам». Эти магнитофоны использовались, в основном, в студиях звукозаписи.
Преимущество таких магнитофонов было в том, что, не смотря на использование привычных
носителей, данные на них хранились в цифровом виде и практически никаких потерь при
чтении/записи на них не было (что очень важно при студийной обработке и хранении звука). Сегодня
появилось большое количество различных носителей данных, кроме привычных всем компакт
дисков. Носители совершенствуются и с каждым годом становятся более доступными и
компактными. Это открывает большие возможности в области создания мобильных аудио
проигрывателей. Уже сегодня продается огромное количество различных моделей переносных
цифровых плееров. И, можно предположить, что это еще далеко не пик развития такого рода
техники.
4. Преимущества и недостатки цифрового звука
С точки зрения обычного пользователя выгоды много - компактность современных носителей
информации позволяет ему, например, перевести все диски и пластинки из своей коллекции в
цифровое представление и сохранить на долгие годы на небольшом трехдюймовом винчестере или
на десятке-другом компакт дисков; можно воспользоваться специальным программным
обеспечением и хорошенько «почистить» старые записи с бобин и пластинок, удалив из их звучания
шумы и треск; можно также не просто скорректировать звучание, но и приукрасить его, добавить
сочности, объемности, восстановить частоты. Помимо перечисленных манипуляций со звуком в
домашних условиях, Интернет тоже приходит на помощь аудио-любителю. Например, сеть
позволяет людям обмениваться музыкой, прослушивать сотни тысяч различных Интернет-радио
станций, а также демонстрировать свое звуковое творчество публике, и для этого нужен всего лишь
компьютер и Интернет. И, наконец, в последнее время появилась огромная масса различной
портативной цифровой аудио аппаратуры, возможности даже самого среднего представителя
которой зачастую позволяют с легкостью взять с собой в дорогу коллекцию музыки, равную по
длительности звучания десяткам часов.
С точки зрения профессионала цифровой звук открывает поистине необъятные возможности. Если
раньше звуковые и радио студии размещались на нескольких десятках квадратных метров, то теперь
их может заменить хороший компьютер, который по возможностям превосходит десять таких студий
вместе взятых, а по стоимости оказывается многократно дешевле одной. Это снимает многие
финансовые барьеры и делает звукозапись более доступной и профессионалу и простому
любителю. Современное программное обеспечение позволяет делать со звуком все что угодно.
Раньше различные эффекты звучания достигались с помощью хитроумных приспособлений, которые
не всегда являли собой верх технической мысли или же были просто устройствами кустарного
изготовления. Сегодня, самые сложные и просто невообразимые раньше эффекты достигаются
путем нажатия пары кнопок. Конечно, вышесказанное несколько утрировано и компьютер не
заменяет человека – звукооператора, режиссера или монтажера, однако с уверенностью можно
сказать, что компактность, мобильность, колоссальная мощность и обеспечиваемое качество
современной цифровой техники, предназначенной для обработки звука, уже сегодня почти
полностью вытеснило из студий старую аналоговую аппаратуру.
Конечно, цифровая техника тоже имеет свои недостатки. Многие (профессионалы и любители)
отмечают, что аналоговый звук слушался живее. И это не просто дань прошлому. Как мы сказали
выше, процесс оцифровки вносит определенную погрешность в звучание, кроме того, различная
усиливающая цифровая аппаратура привносит так называемые «транзисторные шумы» и другие
специфические искажения. Термину «транзисторный шум», пожалуй, нет точного определения, но
можно сказать, что это хаотичные колебания в области высоких частот. Не смотря на то, что
слуховой аппарат человека способен воспринимать частоты до 20 кГц, похоже, все-таки,
человеческий мозг улавливает и более высокие частоты. И именно на подсознательном уровне
человек все же ощущает аналоговое звучание чище, чем цифровое.
Впрочем, у цифрового представления данных есть одно неоспоримое и очень важное преимущество
– при сохранном носителе данные на нем не искажаются с течением времени. Если магнитная лента
со временем размагничивается и качество записи теряется, если пластинка царапается и к звучанию
прибавляются щелчки и треск, то компакт-диск / винчестер / электронная память либо читается (в
случае сохранности), либо нет, а эффект старения отсутствует. Важно отметить, мы не говорим
здесь об Audio CD (CD-DA – стандарт, устанавливающий параметры и формат записи на аудио
компакт диски) так как не смотря на то, что это носитель цифровой информации, эффект старения
его, все же, не минует. Это связано с особенностями хранения и считывания аудио данных с Audio
CD. Информация на всех типах компакт-дисков хранится покадрово и каждый кадр имеет заголовок,
по которому его возможно идентифицировать. Однако различные типы CD имеют различную
структуру и используют различные методы маркировки кадров. Поскольку компьютерные приводы
CD-ROM рассчитаны на чтение в основном Data-CD (надо сказать, что существуют различные
разновидности стандарта Data-CD, каждый из которых дополняет основной стандарт CD-DA), они
часто не способны правильно «ориентироваться» на Audio CD, где способ маркировки кадров
отличен от Data-CD (на аудио CD кадры не имеют специального заголовка и для определения
смещения каждого кадра необходимо следить за информацией в кадре). Это означает, что если при
чтении Data-CD привод легко «ориентируется» на диске и никогда не перепутает кадры, то при
чтении с аудио компакт диска привод не может ориентироваться четко, что при появлении, скажем,
царапины или пыли может привести к чтению неправильного кадра и, как следствие, скачку или
треску звучания. Эта же проблема (неспособность большинства приводов правильно
позиционироваться на CD-DA) является причиной еще одного неприятного эффекта: копирование
информации с Audio CD вызывает проблемы даже при работе с полностью сохранными дисками
вследствие того, что правильное «ориентирование на диске» полностью зависит от считывающего
привода и не может быть четко проконтролировано программным путем.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие
преобразования стерео сигнала, позволяют реализовать эффект вращения или «объёмности» звука.
• Echo (эхо) Реализуется с помощью временных преобразований. Фактически для получения эха
необходимо на оригинальный входной сигнал наложить его задержанную во времени копию. Для
того, чтобы человеческое ухо воспринимало вторую копию сигнала как повторение, а не как отзвук
основного сигнала, необходимо время задержки установить равным примерно 50 мс. На основной
сигнал можно наложить не одну его копию, а несколько, что позволит на выходе получить эффект
многократного повторения звука (многоголосного эха). Чтобы эхо казалось затухающим,
необходимо на исходный сигнал накладывать не просто задержанные копии сигнала, а
приглушенные по амплитуде.
• Reverberation (повторение, отражение). Эффект заключается в придании звучанию объемности,
характерной для большого зала, где каждый звук порождает соответствующий, медленно
угасающий отзвук. Практически, с помощью реверберации можно «оживить», например,
фонограмму, сделанную в заглушенном помещении. От эффекта «эхо» реверберация отличается
тем, что на входной сигнал накладывается задержанный во времени выходной сигнал, а не
задержанная копия входного. Иными словами, блок реверберации упрощенно представляет собой
петлю, где выход блока подключен к его входу, таким образом уже обработанный сигнал каждый
цикл снова подается на вход смешиваясь с оригинальным сигналом.
• Chorus (хор). В результате его применения звучание сигнала превращается как бы в звучание хора
или в одновременное звучание нескольких инструментов. Схема получения такого эффекта
аналогична схеме создания эффекта эха с той лишь разницей, что задержанные копии входного
сигнала подвергаются слабой частотной модуляции (в среднем от 0.1 до 5 Гц) перед
смешиванием со входным сигналом. Увеличение количества голосов в хоре достигается путем
добавления копий сигнала с различными временами задержки.
Безусловно, как и во всех других областях, в обработке сигналов также имеются проблемы, которые
являются своего рода камнем преткновения. Так, например, при разложении сигналов в спектр
частот существует принцип неопределенности, который невозможно преодолеть. Принцип гласит,
что нельзя получить точную спектральную картину сигнала в конкретный момент времени: либо для
получения более точной спектральной картины нужно проанализировать больший временной
участок сигнала, либо, если нас интересует больше время, когда происходило то или иное
изменение спектра, нужно пожертвовать точностью самого спектра. Иными словами нельзя получить
точный спектр сигнала в точке - точный спектр для большого участка сигнала, либо очень
приблизительный спектр, но для короткого участка.
Механизмы для обработки сигналов существуют как в программном, так и в аппаратном исполнениях
(так называемые эффект-процессоры). Например, вокодеры и гитарные процессоры, хорусы и
ревербераторы существуют в виде аппаратуры, а также в виде программ.
Практическую обработку сигналов можно разделить на два типа: обработка «на лету» и пост-
обработка. Обработка «на лету» подразумевает мгновенное преобразование сигнала (то есть с
возможностью осуществлять вывод обработанного сигнала почти одновременно с его вводом).
Простой пример – гитарные «примочки» или реверберация во время живого исполнения на сцене.
Такая обработка происходит мгновенно, то есть, скажем, исполнитель поет в микрофон, а эффект-
процессор преобразует его голос и слушатель слышит уже обработанный вариант голоса. Пост-
обработка – это обработка уже записанного сигнала. Скорость такой обработки может быть сильно
ниже скорости воспроизведения. Такая обработка преследует те же цели, то есть придание звуку
определенного характера, либо изменение характеристик, однако применяется на стадии мастеринга
или подготовки звука к тиражированию, когда не требуется спешка, а важнее качество и
скрупулезная проработка всех нюансов звучания. Существует множество различных операций над
звуком, которые вследствие недостаточной производительности сегодняшних процессоров нельзя
реализовать «на лету», поэтому такие преобразования проводят лишь в пост-режиме.
Обработка сигнала – это сложная и, главное, ресурсоемкая процедура. Она сравнительно недавно
стала проводиться в цифровых устройствах – раньше различные эффекты звучания и другие
достигались путем обработки звука в аналоговых приборах. В аналоговой аппаратуре звук в виде
электрических колебаний проходит через различные тракты (блоки электрических элементов), чем
достигается изменение фазы, спектра и амплитуды сигнала. Однако такой способ обработки имеет
массу недостатков. Во-первых, страдает качество обработки, ведь каждый аналоговый элемент
имеет свою погрешность, а несколько десятков элементов могут критически повлиять на точность и
качество желаемого результата. А во-вторых, и это, пожалуй, самое главное, почти каждый
отдельный эффект достигается путем использования отдельного устройства, когда каждое такое
устройство может стоить очень дорого. Возможность же использования цифровых устройств имеет
неоспоримые преимущества. Качество обработки сигналов в них намного меньше зависит от
качества аппаратуры, главное – это качественно оцифровать звук и иметь возможность качественно
его воспроизводить, и тогда качество обработки ложится уже только на программный механизм.
Кроме того, для различных манипуляций со звуком не требуется постоянная смена оборудования. И,
самое главное, поскольку обработка ведется программным путем, для нее открываются просто
невероятные возможности, которые ограничены лишь мощностью компьютеров (а она
увеличивается с каждым днем) и фантазией человека. Однако, (по крайней мере сегодня) здесь
имеются и свои неприятности. Так, например, часто, даже для осуществления несложной обработки
сигнала необходимо осуществить его разложение в спектр частот. В этом случае обработка сигнала
на лету может быть затруднена именно из-за ресурсоемкости этапа разложения. Поэтому
преобразования, требующие спектрального разложения, выполняют чаще в пост-режиме.
6. Аппаратура
Немаловажная часть разговора о звуке связана с аппаратурой. Существует много различных
устройств для обработки и ввода/вывода звука. Касательно обычного персонального компьютера
следует подробнее остановиться на звуковых картах. Звуковые карты принято делить на звуковые,
музыкальные и звукомузыкальные. По конструкции же все звуковые платы можно разделить на две
группы: основные (устанавливаемые на материнской плате компьютера и обеспечивающие ввод и
вывод аудио данных) и дочерние (имеют принципиальное конструктивное отличие от основных плат
- они чаще всего подключаются к специальному разъему, расположенному на основной плате).
Дочерние платы служат чаще всего для обеспечения или расширения возможностей MIDI-
синтезатора.
2. Блок синтезатора. Присутствует в музыкальных картах. Выполняется на основе либо FM-, либо
WT-синтеза, либо на обоих сразу. Может работать как под управлением собственного процессора,
так и под управлением специального драйвера.
Еще одна не менее важная характеристика – коэффициент нелинейных искажений или Total
Harmonic Distortion, THD. Этот показатель также критическим образом влияет на чистоту звучания.
Коэффициент нелинейных искажений измеряется в процентах: 1% - «грязное» звучание; 0.1% -
нормальное звучание; 0.01% - чистое звучание класса Hi-Fi; 0.002% - звучание класса Hi-Fi – Hi End..
Нелинейные искажения – результат неточности в восстановлении сигнала из цифрового вида в
аналоговый. Упрощенно, процесс измерения этого коэффициента проводится следующим образом.
На вход звуковой карты подается чистый синусоидальный сигнал. На выходе устройства снимается
сигнал, спектр которого представляет собой сумму синусоидальных сигналов (сумма исходной
синусоиды и ее гармоник). Затем по специальной формуле рассчитывается количественное
соотношение исходного сигнала и его гармоник, полученных на выходе устройства. Это
количественное соотношение и есть коэффициент нелинейных искажений (THD).
Рис. 7
Эта спецификация предназначена для организации локальной сети электронных инструментов (рис.
7). К MIDI-устройствам относятся различные аппаратные и музыкальные инструменты, отвечающие
требованиям MIDI. Таким образом, MIDI-синтезатор – это музыкальный инструмент,
предназначенный обычно для синтеза звука и музыки, а также удовлетворяющий спецификации
MIDI. Давайте разберемся кратко, почему выделен отдельный класс устройств, названный MIDI.
Дело в том, что осуществление программной обработки звука часто сопряжено с неудобствами,
обусловленными различными техническими особенностями этого процесса. Даже возложив
операции по обработке звука на звуковую карту или любую другую аппаратуру, остается множество
различных проблем. Во-первых, зачастую желательно пользоваться аппаратным синтезом звучания
музыкальных инструментов (как минимум потому, что компьютер – это слишком общий инструмент,
часто необходим просто аппаратный синтезатор звуков и музыки, не более). Во-вторых, программная
обработка звука часто сопровождается временными задержками, в то время как при концертной
работе необходимо мгновенное получение обработанного сигнала. По этим и другим причинам и
прибегают к использованию специальной аппаратуры для обработки, а не компьютеров со
специальными программами. Однако при использовании аппаратуры возникает необходимость в
едином стандарте, который позволил бы соединять устройства друг с другом и комбинировать их.
Эти предпосылки и заставили в 1982 году несколько ведущих в области музыкального оборудования
компаний утвердить первый MIDI-стандарт, который впоследствии получил продолжение и
развивается по сей день. Что же в конечном счете представляет собой MIDI-интерфейс и устройства
в него входящие с точки зрения персонального компьютера?
• Аппаратно - это установленные на звуковой карте: синтезатор различных звуков и музыкальных
инструментов, микропроцессор, контролирующий и управляющий работу MIDI-устройств, а также
различные стандартизованные разъемы и шнуры для подключения дополнительных устройств.
• Программно - это протокол MIDI, представляющий собой набор сообщений (команд), которые
описывают различные функции системы MIDI и с помощью которых осуществляется связь (обмен
информацией) между устройствами MIDI. Сообщения можно рассматривать как средство
удаленного управления.
Рамки данной статьи не позволяют нам углубляться в частности описания MIDI, следует отметить
однако, что в отношении синтезаторов звука MIDI устанавливает строгие требования к их
возможностям, примененным в них способам синтеза звука, а также к управляющим параметрам
синтеза. Кроме того, для того, чтобы музыка созданная на одном синтезаторе могла бы быть легко
перенесена и успешно воспроизведена на другом, были установлены несколько стандартов на
соответствие инструментов (голосов) и их параметров в различных синтезаторах: стандарт General
MIDI (GM), General Synth (GS) и eXtended General (XG). Базисным стандартом является GM,
остальные два являются его логическими продолжениями и расширениями.
Надо отметить, что поскольку MIDI-данные – это набор команд, то музыка, которая написана с
помощью MIDI, также записывается с помощью команд синтезатора. Иными словами, MIDI-партитура
– это последовательность команд: какую ноту играть, какой инструмент использовать, какова
продолжительность и тональность ее звучания и так далее. Знакомые многим MIDI-файлы (.MID)
есть нечто иное, как набор таких команд. Естественно, что поскольку имеется великое множество
производителей MIDI-синтезаторов, то и звучать один и тот же файл может на разных синтезаторах
по-разному (потому что в файле сами инструменты не хранятся, а есть лишь только указания
синтезатору какими инструментами играть, в то время как разные синтезаторы могут звучать по-
разному).
Вернемся к рассмотрению звукомузыкальных плат. Поскольку мы уже уточнили, что такое MIDI,
нельзя обойти стороной характеристики встроенного аппаратного синтезатора звуковой карты.
Современный синтезатор, чаще всего, основан на так называемой «волновой таблице» - WaveTable
(вкратце, принцип работы такого синтезатора состоит в том, что звук в нем синтезируется из набора
записанных звуков путем их динамического наложения и изменения параметров звучания), раньше
же основным типом синтеза являлся FM (Frequency Modulation – синтез звука посредством
генерирования простых синусоидальных колебаний и их смешения). Основными характеристиками
WT-синтезатора являются: количество инструментов в ПЗУ и его объем, наличие ОЗУ и его
максимальный объем, количество возможных эффектов обработки сигналов, а также возможность
поканальной эффект-обработки (конечно, в случае наличия эффект-процессора), количество
генераторов, определяющих максимальное число голосов в полифоническом (многоголосном)
режиме и, может быть самое главное, стандарт, в соответствии с которым выполнен синтезатор (GM,
GS или XG). Кстати, объем памяти синтезатора - не всегда величина фиксированная. Дело в том, что
в последнее время синтезаторы перестали иметь свое ПЗУ, а пользуются основным ОЗУ
компьютера: в этом случае все используемые синтезатором звуки хранятся в файле на диске и при
необходимости считываются в ОЗУ.
7. Программное обеспечение
Тема программного обеспечения очень широка, поэтому здесь мы только вкратце обсудим основные
представители программ для обработки звука.
Наиболее важный класс программ – редакторы цифрового аудио. Основные возможности таких
программ это, как минимум, обеспечение возможности записи (оцифровки) аудио и сохранение на
диск. Развитые представители такого рода программ позволяют намного больше: запись,
многоканальное сведение аудио на нескольких виртуальных дорожках, обработка специальными
эффектами (как встроенными, так и подключаемыми извне – об этом позже), очистка от шумов,
имеют развитую навигацию и инструментарий в виде спектроскопа и прочих виртуальных приборов,
управление/управляемость внешними устройствами, преобразование аудио из формата в формат,
генерация сигналов, запись на компакт диски и многое другое. Некоторые из таких программ: Cool
Edit Pro (Syntrillium), Sound Forge (Sonic Foundry), Nuendo (Steinberg), Samplitude Producer (Magix),
Wavelab (Steinberg).
Основные возможности редактора Cool Edit Pro 2.0 (см. Скриншот 1 - пример рабочего окна
программы в многодорожечном режиме): редактирование и сведение аудио на 128 дорожках, 45
встроенных DSP-эффектов, включая инструменты для мастеринга, анализа и реставрации аудио, 32-
битная обработка, поддержка аудио с параметрами 24 бит / 192 КГц, мощный инструментарии для
работы с петлями (loops), поддержка DirectX, а также управление SMPTE/MTC, поддержка работы с
видео и MIDI и прочее.
Скриншот 1
Основные возможности редактора Sound Forge 6.0a (см. Скриншот 2 - пример рабочего окна
программы): мощные возможности не деструктивного редактирования, многозадачная фоновая
обработка заданий, поддержка файлов с параметрами до 32 бит / 192 КГц, менеджер предустановок,
поддержка файлов более 4 Гб, работа с видео, большой набор эффектов обработки,
восстановление после зависаний, предпрослушивание примененных эффектов, спектральный
анализатор и прочее.
Скриншот 2
Основные возможности редактора Cubase 5.1 (см. Скриншот 3 – пример рабочего окна программы в
режиме просмотра MIDI дорожек): редактирование музыки в реальном времени используя
графическое представление информации, высокое разрешение редактора (15360 пульсов на
четверть), практически не лимитированное количество дорожек, 72 аудио канала, поддержка VST32,
4 эквалайзера на канал и другие поканальные эффекты, встроенные инструменты обработки с
использованием аналогового моделирования (виртуальные инструменты, эффект процессоры,
инструменты микширования и записи) и множество других возможностей.
Скриншот 3
Основные возможности редактора Logic Audio 5 (см. Скриншот 4 – пример рабочего окна
программы): работа со звука при точности в 32 бита, высокое временное разрешение событий,
самоадаптируемый микшер аудио и MIDI, оптимизируемый интерфейс пользователя, синхронизация
с видео, виртуально неограниченное число MIDI-дорожек, обработка звука в реальном времени,
полная синхронизация с MTC, MMC, SMPTE, встроенные модули обработки и автоинструменты,
поддержка большого количество аппаратного оборудования, а также множество других
возможностей.
Скриншот 4
Скриншот 5
Обработка звука и написание музыки – это не только творческий процесс. Иногда нужен
скрупулезный анализ данных, а также осуществление поиска огрехов их звучания. Кроме того, аудио
материал, с который приходится иметь дело, не всегда желаемого качества. В этой связи нельзя не
вспомнить о целом ряде программ-анализаторов аудио, специально предназначенных для
осуществления измерительных анализов аудио данных. Такие программы помогают представить
аудио данные удобнее, чем обычные редакторы, а также внимательно изучить их с помощью
различных инструментов, таких как FFT-анализаторы (построители динамических и статических
амплитудно-частотных характеристик), построители сонограмм, и прочих. Одна из наиболее
известных и развитых программ подобного плана – программа SpectraLAB (Sound Technology Inc.),
чуть более простые, но мощные – Analyzer2000 и Spectrogram.
Программа SpectraLAB – наиболее мощный продукт подобного рода, существующий на сегодня (см.
Скриншот 6 – пример рабочего окна программы, на экране: спектральная картина в трез
представлениях и фазовая картина). Возможности программы: 3 режима работы (пост режим, режим
реального времени, режим записи), основной инструментарий – осциллограф, спектрометр
(двухмерный, трехмерный, а также построитель сонограмм) и фазометр, возможность сравнения
амплитудно-частотных характеристик нескольких сигналов, широкие возможности масштабирования,
измерительные инструменты: нелинейных искажений, отношения сигнал/шум, искажений и прочие.
Скриншот 6
Основные возможности реставратора Clean 3.0 (см. Скриншот 8 – рабочее окно программы):
устранение всевозможных потрескиваний и шумов, режим автокоррекции, набор эффектов для
обработки скорректированного звука, включая функцию «surround sound» с наглядным акустическим
моделированием эффекта, запись CD с подготовленными данными, «интеллигентная» система
подсказок, поддержка внешних VST плаг-инов и другие возможности.
Скриншот 8
Трекеры – это отдельная категория звуковых программ, предназначенных именно для создания
музыки. Ранее мы рассмотрели два принципиально отличных способа хранения звуковых данных
(музыки): первый - хранение звука в виде сжатого или несжатого потока аудио, второй - хранение
музыки в виде MIDI-файлов (в виде набора команд MIDI-синтезатору). Структура и концепция
построения трекерных файлов очень похожа на принцип хранения MIDI-информации. В трекерных
модулях (файлы, созданные в трекерах, принято называть модулями), также, как и в MIDI-файлах,
содержится партитура в соответствии с которой должны проигрываться инструменты. Кроме того, в
них содержится информация о том, какие эффекты и в какой момент времени должны быть
применены при проигрывании того или иного инструмента. Однако, принципиальное отличие
трекерных модулей от MIDI-файлов заключается в том, что проигрываемые в этих модулях
инструменты (или, точнее сказать, сэмплы) хранятся в самих модулях (то есть внутри файлов), а не
в синтезаторе (как это происходит в случае с MIDI). Такой способ хранения музыки имеет массу
преимуществ: размер файлов невелик по сравнению с непрерывной оцифрованной музыкой
(поскольку записываются только использованные инструменты и партитура в виде команд), нет
зависимости звучания от компьютера, на котором происходит воспроизведение (в MIDI, как мы
говорили, есть зависимость звучания от используемого синтезатора), имеется большая свобода
творчества, поскольку автор музыки не ограничен наборов инструментов (как в MIDI), а может
использовать в качестве инструмента любой оцифрованный звук. Основные программы-трекеры
Scream Tracker, Fast Tracker, Impulse Tracker, OctaMED SoundStudio, MAD Tracker, ModPlug Tracker.
Программа ModPlug Tracker является сегодня одним из тех трекеров, сумевших стать универсальной
рабочей средой для множества типов трекерных модулей (см. Скриншот 7 – пример рабочего окна
программы, на экране: содержание дорожек одного загруженного модуля и рабочее окно сэмплов
другого модуля). Основные возможности: поддержка до 64 физических каналов аудио, поддержка
почти всех существующих форматов трекерных модулей, импорт инструментов во множестве
форматов, 32-битное внутреннее микширование, высококачественный ресэплирующий фильтр,
поддержка MMX/3dNow!/SSE, автоматическое удаление потрескиваний, расширение басов,
ревербератор, расширение стерео, 6-полосный графический эквалайзер и другие возможности.
Скриншот 7
Например, область распознавания речи еще очень не развита. Давно уже делались и делаются
попытки создать программное обеспечение, способное качественно распознавать речь человека,
однако все они пока не приводят к желаемому результату. А ведь долгожданный прорыв в этой
области мог бы неимоверно упростить ввод информации в компьютер. Только представьте себе, что
вместо набора текста его можно было бы просто надиктовывать, попивая кофе где-нибудь
неподалеку от компьютера. Имеется множество программ якобы способных предоставить такую
возможность, однако все они не универсальны и сбиваются при незначительном отклонении голоса
читающего от заданного тона. Такая работа приносит не столько удобств, сколько огорчений. Еще
куда более сложной задачей (вполне возможно, что и неразрешимой вовсе) является распознавание
общих звуков, например, звучания скрипки в звуках оркестра или выделение партии рояля. Можно
надеяться, что когда-нибудь такое станет возможным, ведь человеческий мозг легко справляется с
такими задачами, однако сегодня говорить о хотя бы малейших сдвигах в этой области рано.
В области синтеза звука также есть пространство для изучения. Способов синтеза звука сегодня
существует несколько, однако ни один из них не дает возможности синтезировать звук, который
нельзя было бы отличить от настоящего. Если, скажем, звуки рояля или тромбона еще более-менее
поддаются реализации, до правдоподобного звучания саксофона или электрогитары добиться еще
так и не смогли – существует масса нюансов звучания, которые почти невозможно воссоздать
искусственно.
Таким образом, можно смело сказать, что в области обработки, создания и синтеза звука и музыки
еще очень далеко до того решающего слова, которое поставит точку на развитии этой отрасли
человеческой деятельности.
Глоссарий терминов
1) DSP – Digital Signal Processor (цифровой сигнальный процессор). Устройство (или программный
механизм) предназначенное для цифровой обработки сигналов.
2) Битрейт – применительно к потокам данных - количество бит в секунду (bits per second).
Применительно в звуковым файлам (например, после lossy-кодирования) – каким количеством бит
описывается одна секунда аудио.
Прежде всего, сам принцип представления звука в цифровой форме предполагает уничтожение
какой-то части информации в нем. Исходная, непрерывная кривая, описывающая амплитуду
звуковой волны, подвергается дискретизации - разбиению на отдельные интервалы (отсчеты),
внутри которых амплитуда считается постоянной; таким образом фиксируются временные
характеристики волны. Затем эти мгновенные значения амплитуды еще раз разбиваются на
конечное число значений - теперь уже по самой величине амплитуды - и выбирается наиболее
близкое из этих дискретных значений; так фиксируются амплитудные характеристики. Если говорить
по отношению к графику (осциллограмме) звуковой волны, то можно сказать, что на него
накладывается некая сетка - крупная или мелкая, которая определяет точность преобразования
волны в цифровую форму.
Мелкость временной сетки - частота дискретизации - определяет прежде всего частотный диапазон
преобразуемого звука. В идеальных условиях для передачи сигнала с верхней частотой F
достаточно частоты дискретизации 2F, в реальных же, приходится выбирать некоторый запас.
Точность же представления самих значений амплитуды - разрядность отсчетов - определяет в
первую очередь уровень шумов и искажений, вносимых при преобразовании. Естественно - снова
для идеального случая, поскольку шумы и искажения вносятся и другими участками схемы.
За прошедшее время ситуация сильно изменилась - значительно возросло качество передачи звука
в студийных и бытовых системах, снова вошли в моду ламповые усилители и схемы, когда-то
признанные неэффективными, но вносящие в звук меньше искажений, чем новые, и многие стали
жаловаться на характерный "цифровой" призвук в музыке на компакт-дисках, причиной которого
явилась недостаточные разрядность отсчетов и прежде всего - частота дискретизации. Дело в том,
что при оцифровке сигнала с частотой дискретизации F необходимо полностью удалить все его
составляющие с частотами выше F/2. Обычные аналоговые проигрыватели и усилители, для
которых гарантировалась передача диапазона до 20 кГц, на самом деле не вырезали из сигнала
более высоких частотных составляющих - их амплитуда просто постепенно спадала, и у
качественных аппаратов этот спад был более пологим, а звук - более естественным и прозрачным.
Однако при глубоком подавлении высших частот - даже тех, что неслышимы сами по себе - общая
звуковая картина меняется достаточно заметно для хорошей аппаратуры и тренированного слуха.
Таким образом, весьма высокие еще для начала 90-х параметры цифрового звука "16 бит/44.1 кГц"
сейчас могут считаться лишь минимально допустимыми для понятий "качественный звук" и "Hi-Fi". В
студийной работе происходит переход на стандарт "24 бита/96 кГц", который по теоретически
достижимому качеству пока заметно перекрывает возможности существующих звуковых систем.
Внутри стандарта "компакт-диск", ограниченного своими 16 разрядами и 44.1 кГц частоты
дискретизации, используется преобразование цифрового звука под большую частоту дискретизации
и разрядность с последующей интерполяцией промежуточных значений. Само по себе это не
улучшает качества звука, однако позволяет заметно снизить погрешности, возникающие из-за
неидеальности ЦАП, фильтров и прочих элементов тракта.
Ответ прост: в современном процессе работы со звуком и музыкой без компьютера не обойтись -
кроме известных направлений чисто акустической музыки, исполняемой "живьем". Другое дело -
нужно правильно определить место компьютера в этом процессе. Было бы неверно полагать, что
можно полностью заменить профессиональную студию с кучей серьезной и дорогой аппаратуры и
звукоинженеров одним недорогим бытовым компьютером с недорогой же звуковой картой. Однако с
их помощью можно начать делать то, что традиционно делалось только в "серьезных" студийных
условиях - у себя дома или в небольшой любительской студии. Можно изучить и освоить
возможности синтезатора, эффект-процессора, приемы воздействия на звук для получения
желаемой его динамики и окраски, научиться записывать, создавать и использовать собственные
звучания, подготавливать и сводить фонограммы. Для любителя и даже профессионала, не
требующего сверхвысокого качества звука, даже этого может оказаться вполне достаточно, а
остальные довольно скоро почувствуют ограниченность простой конфигурации - и весьма легко
смогут заменить ее на более сложную и качественную, причем чаще всего - с гораздо меньшими
потерями, чем при работе только с самостоятельными аппаратами. Вначале это может быть замена
на более серьезную и качественную звуковую карту, затем - на автономные устройства с
компьютерным управлением. Важно то, что при помощи компьютера нужным с программным
обеспечением можно "выжать досуха" практически любой аппарат, для управления которым с его
собственной панели просто-напросто не хватает рук.
Б иты, герцы... Что скрывается за этими понятиями? При разработке стандарта аудио компакт
дисков были приняты значения 44 кГц, 16 бит. Почему именно столько? В чем причина выбора, а
также - почему предпринимаются попытки повысить эти значения до, скажем, 96 кГц и 24 или даже
до 32х битов...
За что отвечает этот параметр? В двух словах - за динамический диапазон. Диапазон одновременно
воспроизводимых громкостей - от максимальной амплитуды (0 дБ) до той наименьшей, которую
позволяет передать разрешение, например - примерно -93 дБ для 16 битного аудио. Как не странно,
это сильно связано с уровнем шумов фонограммы. В принципе, для, к примеру, 16 битного аудио
вполне возможна передача сигналов мощностью и в -120 дБ, однако эти сигналы будет
затруднительно применять на практике из-за такого фундаментального понятия как шум
дискретизации. Дело в том, что при взятии цифровых значений мы все время ошибаемся, округляя
реальное аналоговое значение до ближайшего возможного цифрового. Самая маленькая возможная
ошибка - нулевая, максимально же мы ошибаемся на половину последнего разряда (бита, далее
термин младший бит будет сокращаться до МБ). Эта ошибка дает нам так называемый шум
дискретизации - случайное несоответствие оцифрованного сигнала оригиналу. Этот шум носит
постоянный характер и имеет максимальную амплитуду равную 0.5МБ. Это можно рассматривать как
случайные значения, подмешанные в цифровой сигнал. Иногда это называется шум округления или
квантования.
Остановимся подробнее на том, что понимается под мощностью сигналов, измеряемой в битах.
Самый сильный сигнал в цифровой обработке звука принято принимать за 0 дБ, это соответствует
всем битам, поставленным в 1. Если старший бит (далее СБ) обнулить, получившееся цифровое
значение будет в два раза меньше, что соответствует потере уровня на 6 дБ. Никакими другими
битами кроме СБ нельзя добиться уровня выше -6 дБ. Соответственно - старший бит как бы
отвечает за наличие уровня сигнала от -6 до 0 дБ, поэтому СБ - это бит 0 дБ. Предыдущий бит
отвечает за уровень -6 дБ, ну а самый младший, таким образом - за уровень (число_бит-1) * 6 дБ. В
случае 16 битного звука, МБ соответствует уровень в -90 дБ. Когда мы говорим 0.5МБ, мы имеем в
виду не -90/2, а половину шага до следующего бита - то есть еще на 3 дБ ниже, -93 дБ.
Возвращаемся к выбору разрешения оцифровки. Как уже было сказано, оцифровка вносит шум на
уровне 0.5МБ, это говорит о том, что запись, оцифрованная в 16 бит, постоянно шумит на -93 дБ.
Она может передавать сигналы и тише, но шум все равно остается на уровне -93 дБ. По этому
признаку и определяется динамический диапазон цифрового звука - там, где соотношение
сигнал/шум переходит в шум/сигнал (шумов больше, чем полезного сигнала), находится граница
этого диапазона снизу. Таким образом, главный критерий оцифровки - сколько шума мы можем
себе позволить в восстановленном сигнале? Ответ на этот вопрос зависит отчасти от того, сколько
шума было в исходной фонограмме. Важный вывод - если мы оцифровываем нечто с уровнем
шумов -80 дБ - нет совершенно никаких причин цифровать это в более чем 16 бит, так как, с одной
стороны, шумы -93 дБ добавляют очень мало к уже имеющимся огромным (сравнительно) шумам -80
дБ, а с другой стороны - тише чем -80 дБ в самой фонограмме уже начинается шум/сигнал, и
оцифровывать и предавать такой сигнал просто не нужно.
Но это только на первый взгляд: с помощью специальной техники, называемой shaped dithering,
можно изменить частотный спектр шумов дискретизации, почти полностью вынести их в область
более 7-15 кГц. Мы как бы меняем разрешение по частоте (отказываемся от воспроизведения тихих
высоких частот) на дополнительный динамический диапазон в оставшемся отрезке частот. В
сочетании с особенностями нашего слуха - наша чувствительность к выкидываемой области высоких
частот на десятки дБ ниже чем в основной области (2-4 кГц) - это делает возможным относительно
бесшумную передачу полезных сигналов дополнительно еще на 10-20 дБ тише, чем -93 дБ - таким
образом, динамический диапазон 16 битного звука для человека составляет около 110 дБ. Да и
вообще - одновременно человек просто не может слышать звуки на 110 дБ тише чем только что
услышанный громкий звук. Ухо, как и глаз, подстраивается под громкость окружающей
действительности, поэтому одновременный диапазон нашего слуха составляет и совсем
сравнительно мало - около 80 дБ. Поговорим о dithring-е подробнее после обсуждения частотных
аспектов.
Для компакт дисков выбрана частота дискретизации 44100 Гц. Бытует мнение, что это означает, что
воспроизводятся все частоты до 22.05 кГц, однако это не совсем так. Однозначно можно сказать
лишь то, что частот выше 22.05 кГц в оцифрованном сигнале нет. Реальная же картина
воспроизведения оцифрованного звука всегда зависит от конкретной техники и всегда не настолько
идеальна, как хотелось бы, и как соответствует теории. Все зависит от конкретного ЦАПа.
Разберемся сначала, что нам хотелось бы получить. Человек среднего возраста (скорее молодой)
может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. Звуки выше и
ниже воспринимаются, но не составляют акустических ощущений. Звуки выше 16 кГц ощущаются как
раздражающий неприятный фактор - давление на голову, боль, особо громкие звуки приносят такой
резкий дискомфорт, что хочется покинуть помещение. Неприятные ощущения настолько сильны, что
на этом основано действие охранных устройств - несколько минут очень громкого звука высокой
частоты сведут с ума кого угодно, и воровать что либо в такой обстановке становится решительно
невозможно. Звуки ниже 30 - 40 Гц при достаточной амплитуде воспринимаются как вибрация,
исходящая от объектов (колонок). Вернее будет даже сказать так - просто вибрация. Человек
акустически почти не определяет пространственное положение настолько низких звуков, поэтому в
ход уже идут другие органы чувств - осязательные, мы чувствуем такие звуки телом.
Для передачи звука как он есть было бы неплохо сохранить весь хоть как либо воспринимаемый
диапазон от 10 Гц до 20 кГц. С низкими частотами в теории в цифровой записи проблем совершенно
никаких нет. На практике же - все ЦАПы, работающие по дельта-технологии, имеют потенциальный
источник проблем. Таких устройств сейчас 99%, поэтому проблема так или иначе имеет место быть,
хотя откровенно плохих устройств почти нет (лишь самые дешевые схемы). Можно считать, что с
низким частотами все обстоит благополучно - в конце концов, это лишь вполне решаемая проблема
воспроизведения, с которой успешно справляются хорошо сконструированные ЦАПы ценой более
$1.
С высокими частотами все немного хуже, по крайней мере точно сложнее. Почти вся суть
усовершенствований и усложнений ЦАПов и АЦП направлена как раз на более достоверную
передачу высоких частот. Под "высокими" подразумеваются частоты сравнимые с частотой
дискретизации - то есть в случае 44.1 кГц это 7-10 кГц и выше. Поясняющий рисунок:
На рисунке изображена частота 14 кГц, оцифрованная с частотой дискретизации 44.1 кГц. Точками
обозначены моменты взятия амплитуды сигнала. Видно, что на один период синусоиды приходится
около трех точек, и чтобы восстановить исходную частоту в виде синусоиды, надо проявить
некоторую фантазию. Саму синусоиду рисовала программа CoolEdit, она и проявляла фантазию -
восстанавливала данные. Аналогичный процесс происходит и в ЦАПе, этим занимается
восстанавливающий фильтр. И если сравнительно низкие частоты представляют собой почти
готовые синусоиды, то форма и, соответственно, качество восстановления высоких частот лежит
целиком на совести восстанавливающей системы ЦАПа. В CoolEdit очень хороший
восстанавливающий фильтр, но и он не справляется в экстремальном случае - например, частота 21
кГц:
Видно, что форма колебаний (синие линии) далека от правильной, да и свойства появились, которых
ранее не было. Это и составляет основную проблему при воспроизведении высоких частот.
Проблема, однако, не так страшна, как может показаться. Во всех современных ЦАП используется
технология пересэмплирования (multirate), которая заключается в цифровом восстановлении до в
несколько раз более высокой частоты дискретизации, и в последующем переводе в аналоговый
сигнал на повышенной частоте. Таким образом проблема восстановления высоких частот
перекладывается на плечи цифровых фильтров, которые могут быть очень качественными.
Настолько качественными, что в случае дорогих устройств проблема полностью снимается -
обеспечивается неискаженное воспроизведение частот до 19-20 кГц. Пересэмплирование
применяется и в не очень дорогих устройствах, так что в принципе и эту проблему можно считать
решенной. Устройства в районе $30 - $60 (звуковые карты) или музыкальные центры до $600,
обычно аналогичные по ЦАПу этим звуковым картам, отлично воспроизводят частоты до 10 кГц,
сносно - до 14 - 15, и кое-как остальные. Этого вполне достаточно для большинства реальных
музыкальных применений, а если кому-то нужно большее качество - он найдет его в
профессионального класса устройствах, которые не то чтобы сильно дороже - просто они сделаны с
умом.
Идея dithering-а заключается в том, чтобы подмешать в сигнал шум. Как не странно это звучит - для
того чтобы уменьшить шумы и неприятные эффекты квантования, мы добавляем свой шум.
Рассмотрим пример - воспользуемся возможностью CoolEdit-а работать в 32х битах. 32 бита - это в
65 тысяч раз большая точность, нежели 16 бит, поэтому в нашем случае 32х битный звук можно
считать аналоговым оригиналом, а перевод его в 16 бит - оцифровкой. Изображение показывает 32х
битый звук - музыка, записанная на таком тихом уровне, что самые громкие моменты достигают
лишь -110 дБ:
Это с запасом гораздо тише динамического диапазона 16 битного звука (1МБ 16 битного
представления равняется единице по шкале справа), поэтому если просто округлить данные до 16
бит - мы получим полную цифровую тишину.
Добавим в сигнал белый шум с уровнем в 1МБ - это -90 дБ (примерно соответствующий по уровню
шумам квантования):
Как видно, какие-то данные остались. Там, где исходный сигнал имел больший уровень, больше
значений 1, где меньший - нулей. Чтобы услышать то, что мы получили, усилим сигнал на 14 бит (на
78 дБ). Результат можно скачать и послушать (dithwht.zip, 183 кб).
Мы слышим этот звук с огромными помехами в -90 дБ (до усиления для прослушивания), тогда как
полезный сигнал составляет всего -110 дБ. Мы уже имеем передачу звука с уровнем -110 дБ в 16
битах. В принципе, это и есть стандартный способ расширения динамического диапазона,
получающийся часто чуть ли не сам собой - шума везде хватает. Однако само по себе это довольно
бессмысленно - уровень шумов дискретизации так и остается на прежнем уровне, а передавать
сигнал слабее шума - занятие не очень понятное с точки зрения логики...
Более сложный способ - shaped dithering. Идея в том, что раз мы все равно не слышим высоких
частот в очень тихих звуках, значит следует основную мощность шума направить в эти частоты, при
этом можно даже воспользоваться большим шумом - я воспользуюсь уровнем в 4МБ (это два бита
шума). Усиленный результат после фильтрации высоких частот (мы не услышали бы их в
нормальной громкости этого звука) - ditshpfl.zip, 1023 кб (к сожалению, звук перестал
архивироваться). Это уже вполне хорошая (для запредельно низкой громкости) передача звука,
шумы примерно равняются по мощности самому звуку с уровнем -110 дБ! Важное замечание: мы
повысили реальные шумы дискретизации с 0.5МБ (-93 дБ) до 4МБ (-84 дБ), понизив слышимые
шумы дискретизации с -93 дБ до примерно -110 дБ. Отношение сигнал/шум ухудшилось, но шум
ушел в высокочастотную область и перестал быть слышимым, что дало существенное улучшение
реального (воспринимаемого человеком) отношения сигнал/шум. Практически это уже уровень
шумов дискретизации 20 битного звука. Единственное условие этой технологии - наличие частот для
шума. 44.1 кГц звук дает возможность размещать шум в неслышимых на тихой громкости частотах
10-20 кГц. А вот если оцифровывать в 96 кГц - частотная область для шума (неслышимая
человеком) будет настолько велика, что при использовании shaped dithering 16 бит реально
превращаются и во все 24.
Таким образом, shaped dithering позволяет существенно понизить и без того низкие шумы
дискретизации 16 битного звука, спокойно расширив таким образом полезный (бесшумный)
динамический диапазон на всю область человеческого слуха. Поскольку сейчас уже всегда при
переводе из рабочего формата 32 бит в конечный 16 бит для CD используется shaped dithering -
наши 16 бит совершенно достаточны для полной передачи звуковой картины.
Единственное что - эта технология действует только на последней стадии - подготовке материала к
воспроизведению. Во время обработки качественного звука просто необходимо оставаться в 32х
битах, чтобы не применять dithering после каждой операции, более качественно кодируя результаты
обратно в 16 бит. Но если уровень шума фонограммы составляет более -60 дБ - можно без
малейших зазрений совести вести всю обработку в 16 битах. Промежуточный dithering обеспечит
отсутствие искажений округления, а добавленный им шум в сотни раз слабее уже имеющегося и
поэтому совершенно безразличен.
Q: 32х или 24х или даже 18 битные ЦАП лучше чем 16 битные?
A: В общем случае - нет. Качество преобразования нисколько не зависит от битности. В AC'97
кодеке (современная звуковая карта до $50) используется 18 битный кодек, а в картах за $500,
звук которых с этой ерундой даже сравнивать нельзя - 16 битный. Это не имеет абсолютно
никакого значения для воспроизведения 16 битного звука.
Стоит также иметь в виду, что большинство ЦАПов обычно реально воспроизводят меньше бит,
чем берутся. Например, реальный уровень шумов типичного дешевого кодека составляет -90 дБ,
что составляет 15 бит, и даже если он сам 24х битный - вы не получите никакой отдачи от
'лишних' 9 бит - результат их работы, даже если он имелся, потонет в их же собственном шуме.
Большинство же дешевых устройств просто игнорируют дополнительные биты - они просто
реально не идут в расчет в их процессе синтеза звука, хотя и поступают на цифровой вход ЦАПа.
Q: А для записи?
A: Для записи - лучше иметь АЦП большей разрядности. Опять же, большей реальной
разрядности. Разрядность ЦАПа должна соответствовать уровню шумов исходной фонограммы,
или просто быть достаточной для достижения желаемо низкого уровня шума.
Также удобно бывает иметь разрядность с запасом, чтобы использовать повышенный
динамический диапазон для менее точной регулировки уровня записи. Но помните - вы должны
всегда попадать в реальный диапазон кодека. В реальности 32х битный АЦП, к примеру, почти
полностью бессмысленнен, так как младший десяток бит будут просто непрерывно шуметь -
настолько малого шума (под -200 дБ) просто не бывает в аналоговом музыкальном источнике.
Требовать от звука повышенной разрядности или частоты дискретизации, по сравнению с CD,
лучшего качества - не стоит. 16 бит / 44 кГц, доведенные до предела с помощью shaped dithering,
вполне способны полностью передать интересующую нас информацию, если дело не идет о
процессе звукообработки. Не стоит тратить место на лишние данные готового материала, также как
не стоит ожидать повышенного качества звука от DVD-Audio с его 96 кГц / 24 бит. При грамотном
подходе при создании звука в формате стандартного CD мы будем иметь качество, которое просто
не нуждается в дальнейшем улучшении, а ответственность за правильную звукозапись конечных
данных давно взяли на себя разработанные алгоритмы и люди, умеющие правильно их
использовать. В последние несколько лет вы уже не найдете нового диска без shaped dithering и
других приемов доведения качества звукопередачи до предела. Да, ленивым или просто криворуким
будет удобнее давать готовый материал в 32х битах и 96 кГц, но по идее - стоит ли это в несколько
раз больших аудио данных?...
Начну, как и в прошлый раз, с основного тезиса: звук, записанный любителем в условиях домашней
компьютерной студии, хотя, конечно, и не сравнится по качеству с результатами работы
профессиональных студий, но может быть приближен к ним.
Пишу, а краем уха слушаю, что там бубнит телевизор. Вот фильм, отрекомендованный в анонсе, как
"суперпроект". Царь Петр при смерти, борьба за престол. Страсти бушуют... По другим каналам
следователь Турецкий отыскивает похищенные раритетные фолианты, знатоки тряхнули стариной и
снова ведут свое следствие, потому что, оказывается, все еще "кто-то кое-где у нас порой честно
жить не хочет"… Такие разные истории, но что-то общее в них есть. Это общее - звук. Плохой звук.
Ужасный звук, записанный профессионалами в профессиональных студиях. Особенно в
"суперпроекте": когда на мгновения стихают стоны умирающего царя и крики приближенных,
отчетливо проступают фоновые звуки, даже становится слышно, как работают лентопротяжные
механизмы камер.
1. Ясно, что в нашей стране фильмы давно уже не переозвучивают в звуковой студии. Наверное,
денег на это нет. Каким записан звук на съемочной площадке, таким и идет в смонтированную ленту.
3. Некоторые из тех людей, кто занимаются записью звука для телефильмов, не умеют применять
приборы динамической обработки.
Как раз о динамической обработке мы сейчас поговорим. Тема эта сложная, но если вы
сосредоточитесь, то обязательно все поймете, и звук в ваших проектах станет профессиональным.
Ну не профессиональным, а любительским, но таким, что все им заслушаются. Сомневающимся
предлагаю оценить работы читателей, записанные на диске, который сопровождает новую книгу
"Sonar. Секреты мастерства". Кстати, ничто не мешает вам попробовать свои силы. В музыкальном
сборнике на следующем подобном диске вполне может оказаться и ваша композиция.
Когда мы ведем обычный разговор, мощность потока энергии приблизительно равен 10 мкВт.
Мощность самых громких звуков скрипки может составлять 60 мкВт, а мощность звуков органа - от
140 до 3200 мкВт.
Порогу слышимости соответствует интенсивность звука Iзв0 = 10-12 Вт/м2 или звуковое давление
pзв0 = 2Ч10-5 Па.
Верхний предел определяется значениями Iзв. макс. = 1 Вт/м2 или pзв. макс. = 20 Па. При
восприятии звука такой интенсивности у человека появляются болевые ощущения.
Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то
более громкий звук заглушает (поглощает) слабые звуки. Происходит так называемая маскировка
звуков, и ухо воспринимает только один, более громкий, звук. Сразу после воздействия на ухо
громкого звука снижается восприимчивость слуха к слабым звукам. Эта способность называется
адаптацией слуха.
- 45 дБ для хора
При записи уровни необходимо регулировать. Объясняется это тем, что исходные (необработанные)
сигналы зачастую имеют большой динамический диапазон (например, до 80 дБ у симфонической
музыки), а в домашних условиях аудиопрограммы прослушиваются в диапазоне порядка 40 дБ.
Ручной регулировке уровней присущ недостаток. Время реакции звукорежиссера составляет около 2
с даже если партитура композиции ему заранее известна. Это приводит к погрешности в
поддержании максимальных уровней музыкальных программ до 4 дБ в обе стороны.
В конце концов, мода, диктующая свои условия во всех сферах человеческой деятельности, в том
числе и в звукозаписи, требует насыщенного, плотного звучания современной музыки, которое
достигается резким сужением ее динамического диапазона.
Основной канал в схеме с прямой регулировкой включает в себя усилители звуковых частот, линию
задержки и регулируемый элемент. Последний под воздействием управляющего напряжения
способен изменять свой коэффициент передачи. Основной канал в схеме с обратной регулировкой
содержит в себе все перечисленные элементы за исключением линии задержки.
Линия задержки, имеющаяся в основном канале схемы с прямой регулировкой, позволяет каналу
управления работать с некоторым упреждением. Всплеск уровня сигнала будет обнаружен им
раньше, чем сигнал достигнет регулируемого элемента. Поэтому существует принципиальная
возможность устранения нежелательных переходных процессов. Перепады уровня могут быть
обработаны практически идеально. Однако фазочастотная характеристика аналоговой линии
задержки отлична от линейной. Различие фазовых сдвигов для разных спектральных составляющих
сигнала приводит к искажению формы широкополосного сигнала при прохождении линии задержки.
Цифровые линии задержки лишены этого недостатка, но для их применения сигнал необходимо
сначала оцифровать. В виртуальных устройствах обработки сигнал обрабатывается в цифровой
форме, а проблемы с алгоритмической реализацией функциональных элементов отсутствуют.
Временные характеристики
Кроме величины опорного (порогового) напряжения, как правило, регулировать можно время
интегрирования сглаживающей цепи. При малом времени интегрирования канал управления
фактически является пиковым измерителем уровня, при большом - среднеквадратическим. В
высококачественных аппаратных устройствах динамической обработки (и во всех программных)
имеется возможность изменения времени реакции канала управления на события двух типов:
1. Превышение порогового значения при возрастании уровня сигнала (момент включения устройства
динамической обработки).
2. Спад уровня сигнала ниже порогового значения (момент выключения устройства динамической
обработки).
В основном канале, как правило, можно также изменять коэффициенты передачи усилителей и
время срабатывания регулирующего элемента при его включении и выключении. Чтобы реализовать
сложные алгоритмы динамической обработки, нужно использовать не один, а несколько основных
каналов и каналов управления.
На рисунке приведен пример резкого увеличения уровня сигнала (звуковая волна вверху) и
результата отработки скачка уровня компрессором. Заметна задержка в срабатывании компрессора
после появления скачка и запаздывание с выключением после завершения пика сигнала.
Проявление инерционности устройства динамической обработки
Начну, как и в прошлый раз, с основного тезиса: звук, записанный любителем в условиях домашней
компьютерной студии, хотя, конечно, и не сравнится по качеству с результатами работы
профессиональных студий, но может быть приближен к ним.
Пишу, а краем уха слушаю, что там бубнит телевизор. Вот фильм, отрекомендованный в анонсе, как
"суперпроект". Царь Петр при смерти, борьба за престол. Страсти бушуют... По другим каналам
следователь Турецкий отыскивает похищенные раритетные фолианты, знатоки тряхнули стариной и
снова ведут свое следствие, потому что, оказывается, все еще "кто-то кое-где у нас порой честно
жить не хочет"… Такие разные истории, но что-то общее в них есть. Это общее - звук. Плохой звук.
Ужасный звук, записанный профессионалами в профессиональных студиях. Особенно в
"суперпроекте": когда на мгновения стихают стоны умирающего царя и крики приближенных,
отчетливо проступают фоновые звуки, даже становится слышно, как работают лентопротяжные
механизмы камер.
1. Ясно, что в нашей стране фильмы давно уже не переозвучивают в звуковой студии. Наверное,
денег на это нет. Каким записан звук на съемочной площадке, таким и идет в смонтированную ленту.
3. Некоторые из тех людей, кто занимаются записью звука для телефильмов, не умеют применять
приборы динамической обработки.
Как раз о динамической обработке мы сейчас поговорим. Тема эта сложная, но если вы
сосредоточитесь, то обязательно все поймете, и звук в ваших проектах станет профессиональным.
Ну не профессиональным, а любительским, но таким, что все им заслушаются. Сомневающимся
предлагаю оценить работы читателей, записанные на диске, который сопровождает новую книгу
"Sonar. Секреты мастерства". Кстати, ничто не мешает вам попробовать свои силы. В музыкальном
сборнике на следующем подобном диске вполне может оказаться и ваша композиция.
Порогу слышимости соответствует интенсивность звука Iзв0 = 10-12 Вт/м2 или звуковое давление
pзв0 = 2Ч10-5 Па.
Верхний предел определяется значениями Iзв. макс. = 1 Вт/м2 или pзв. макс. = 20 Па. При
восприятии звука такой интенсивности у человека появляются болевые ощущения.
Если ухо человека воспринимает одновременно два или несколько звуков различной громкости, то
более громкий звук заглушает (поглощает) слабые звуки. Происходит так называемая маскировка
звуков, и ухо воспринимает только один, более громкий, звук. Сразу после воздействия на ухо
громкого звука снижается восприимчивость слуха к слабым звукам. Эта способность называется
адаптацией слуха.
- 45 дБ для хора
Ручной регулировке уровней присущ недостаток. Время реакции звукорежиссера составляет около 2
с даже если партитура композиции ему заранее известна. Это приводит к погрешности в
поддержании максимальных уровней музыкальных программ до 4 дБ в обе стороны.
В конце концов, мода, диктующая свои условия во всех сферах человеческой деятельности, в том
числе и в звукозаписи, требует насыщенного, плотного звучания современной музыки, которое
достигается резким сужением ее динамического диапазона.
Основной канал в схеме с прямой регулировкой включает в себя усилители звуковых частот, линию
задержки и регулируемый элемент. Последний под воздействием управляющего напряжения
способен изменять свой коэффициент передачи. Основной канал в схеме с обратной регулировкой
содержит в себе все перечисленные элементы за исключением линии задержки.
Линия задержки, имеющаяся в основном канале схемы с прямой регулировкой, позволяет каналу
управления работать с некоторым упреждением. Всплеск уровня сигнала будет обнаружен им
раньше, чем сигнал достигнет регулируемого элемента. Поэтому существует принципиальная
возможность устранения нежелательных переходных процессов. Перепады уровня могут быть
обработаны практически идеально. Однако фазочастотная характеристика аналоговой линии
задержки отлична от линейной. Различие фазовых сдвигов для разных спектральных составляющих
сигнала приводит к искажению формы широкополосного сигнала при прохождении линии задержки.
Цифровые линии задержки лишены этого недостатка, но для их применения сигнал необходимо
сначала оцифровать. В виртуальных устройствах обработки сигнал обрабатывается в цифровой
форме, а проблемы с алгоритмической реализацией функциональных элементов отсутствуют.
Временные характеристики
Кроме величины опорного (порогового) напряжения, как правило, регулировать можно время
интегрирования сглаживающей цепи. При малом времени интегрирования канал управления
фактически является пиковым измерителем уровня, при большом - среднеквадратическим. В
высококачественных аппаратных устройствах динамической обработки (и во всех программных)
имеется возможность изменения времени реакции канала управления на события двух типов:
1. Превышение порогового значения при возрастании уровня сигнала (момент включения устройства
динамической обработки).
2. Спад уровня сигнала ниже порогового значения (момент выключения устройства динамической
обработки).
В основном канале, как правило, можно также изменять коэффициенты передачи усилителей и
время срабатывания регулирующего элемента при его включении и выключении. Чтобы реализовать
сложные алгоритмы динамической обработки, нужно использовать не один, а несколько основных
каналов и каналов управления.
На рисунке приведен пример резкого увеличения уровня сигнала (звуковая волна вверху) и
результата отработки скачка уровня компрессором. Заметна задержка в срабатывании компрессора
после появления скачка и запаздывание с выключением после завершения пика сигнала.
Проявление инерционности устройства динамической обработки
Чудак неутомимо скупал все те участки земли, где воспроизводилось многократное или чем-либо
иным замечательное эхо. Первым его приобретением было четырехкратное эхо в Джорджии,
затем он купил шестикратное в Мэриленде, а вслед за этим тринадцатикратное в Мэне. И
пошло-поехало. Оказалось, что в торговле эхо цены нарастают как шкала каратов в торговле
бриллиантами. За однократное эхо нужно приплатить только 10 долларов к стоимости земли,
где оно обитает, за двукратное $30, за пятикратное $950, а за десятикратное $13 000…
Однажды более чем за $3000 000 он приобрел один из двух холмов, участвующих в формировании
шестидесятипятикратного эха, но к этому времени появился еще один коллекционер, который
купил второй холм. Началась судебная тяжба за право использовать эхо, живущее между
холмами. История кончилась разорением и смертью героя рассказа.
Дело было в середине девятнадцатого века. А в наши дни коллекционирование эхо - не столь
дорогостоящее и не столь недоступное занятие. Компьютер, звуковая карта да несколько
программ - вот и все, что для этого нужно.
статей, посвященных компьютерной реализации звуковых эффектов, речь пойдет об имитации эха.
Но сначала я хочу познакомить вас с еще одним из эффектов, основанных на задержке сигнала =
дилэем.
Дилэй применяется, прежде всего, в том случае, когда запись голоса или акустического
музыкального инструмента, выполненную с помощью единственного микрофона, "встраивают" в
стереофоническую композицию. Этот эффект служит основой технологии создания стереозаписей.
Но дилэй может применяться и для получения эффекта однократного повторения каких-либо звуков.
Какая именно задержка должна быть выбрана? Ответ на этот вопрос определяется несколькими
факторами. Прежде всего, следует руководствоваться эстетическими критериями, художественной
целью и здравым смыслом. Для коротких и резких звуков время задержки, при котором основной
сигнал и его копия различимы, меньше, чем для протяженных звуков. Для произведений,
исполняемых в медленном темпе, задержка может быть больше, чем для быстрых композиций.
При определенных соотношениях громкостей прямого и задержанного сигнала может иметь место
психоакустический эффект изменения кажущегося расположения источника звука на
стереопанораме. Согласитесь, что, например, "перескоки" рояля с места на место по ходу
прослушивания произведения очень трудно обосновать как с эстетических позиций, так и с точки
зрения верности воспроизведения реального звучания. Как и любой эффект, дилэй нужно применять
в разумных пределах и не обязательно на протяжении всей композиции.
Разумеется, для применения цифровой линии задержки сигнал должен быть сперва преобразован в
цифровую форму. А после прохождения копией сигнала линии задержки происходит цифро-
аналоговое преобразование. Исходный сигнал и его задержанная копия могут быть раздельно
направлены в различные стереоканалы, но могу быть и смешаны в различных пропорциях.
Суммарный сигнал может быть направлен либо в один из стереоканалов, либо в оба.
Основное отличие эффекта эхо (Echo) от простой задержки состоит в том, что задержанные копии
сигнала подвергаются дополнительной обработке: изменяется их спектр. Звук, обработанный
эффектом Echo более натурален по сравнению с обработанным эффектом Delay. В природе эхо
образуется в результате переотражения звуковых волн от препятствий (например, от домов, стен
помещения, гор и т. п.). Различные спектральные составляющие звука (как и любого другого
волнового явления, например, света) различным образом отражаются от препятствий. Чем ниже
частота (больше длина волны), тем легче волна преодолевает препятствия, огибая его.
Высокочастотной волне, наоборот, очень сложно преодолеть любую, даже самую простую преграду.
Такая волна не проходит сквозь препятствие, а отражается от него и частично поглощается,
превращаясь, в конечном счете, в тепловую энергию. Но нельзя упускать из вида и тот факт, что
высокочастотные звуковые волны при распространении в воздухе затухают быстрее низкочастотных.
Подводя итог этим рассуждениям, можно предположить, что эхо содержит смещенный во времени
исходный сигнал, у которого будут ослаблены и низкие, и высокие частоты. Как именно они
изменятся, зависит уже от конкретных условий распространения звука (расстояние до препятствия,
его материал и т. п.).
В группах Left Channel и Right Channel находятся элементы настройки задержек для каждого из
стереоканалов.
С помощью регулятора Delay или непосредственно в поле ввода, расположенном справа от него, вы
можете задать время задержки в миллисекундах.
Аналогичные элементы интерфейса, но на этот раз под названием Mixing позволяют задавать в
процентах уровень задержанного сигнала, добавляемого в исходный. Состояние флажка Invert
определяет, будет ли инвертирована фаза подмешиваемого сигнала.
Традиционно для Cool Edit Pro в окне этого эффекта имеется список предварительных установок
Presets, однако я не стану его комментировать. Словами не описать все предусмотренные варианты
микширования в различных пропорциях исходных сигналов левого и правого каналов с
задержанными сигналами. Будет лучше, если вы сами опробуете и оцените пресеты этого и других
эффектов.
Командой Effects > Delay Effects > Dinamic Delay… программы Cool Edit Pro 2 открывается окно
эффекта Dinamic Delay (рис. 2).
Рис. 2. Окно эффекта Dinamic Delay программы Cool Edit Pro 2
По существу, в окне Dinamic Delay реализован дилэй, однако имеющиеся средства управления
позволяют динамически с помощью графиков изменять значения двух важнейших параметров
эффекта: задержку (координатное поле Delay) и коэффициент обратной связи (координатное поле
Feedback).
Перечисленные три параметра жестко связаны друг с другом. У вас есть возможность независимо
задать только один из них (любой), два остальных рассчитываются программой.
В поле Stereo Curve Difference вводится величина временного сдвига между соответствующими
парами графиков в правом и левом каналах. Положительное число соответствует запаздыванию
пары "правых" графиков, отрицательное - пары "левых". Обращаем ваше внимание на то, что сами
сигналы правого и левого каналов при этом не претерпевают никаких дополнительных задержек.
С помощью окна эффекта Echo (рис. 3) программы Cool Edit Pro 2 можно смоделировать условия
возникновения и развития эха. Окно открывается командой Effects > Delay Effects > Echo….
Рис. 3. Окно эффекта Echo программы Cool Edit Pro 2
Initial Echo Volume - уровень, с которым эхо будет подмешиваться к исходному сигналу.
Группа Successive Echo Equalization - эквалайзер, с помощью которого можно изменять спектр
задержанного сигнала.
Флажок Continue echo beyond selection следует установить в том случае, если желательно оставить
постепенное затухание эха за пределом выделенного фрагмента композиции. При установленном
флажке Lock Left/Right соответствующие регуляторы левого и правого каналов объединяются. Если
установить флажок Echo Bounce, то звучание эха будет акцентировано.
Командой Effects > Delay Effects > Multitap Delay… программы Cool Edit Pro 2 открывается окно
эффекта Multitap Delay (рис. 4).
Рис. 4. Окно эффекта Multitap Delay программы Cool Edit Pro 2
Эффект Multitap Delay - комбинация дилэя, эха, фильтра и реверберации (о ней мы поговорим в
следующий раз).
На диаграмме в верхней части окна Multitap Delay наглядно отображается алгоритм обработки звука
эффектом. Алгоритм состоит из циклов. Каждому циклу на графике соответствует линия со стрелкой
на конце. Цифры, отображаемые у начала линии, означают смещение эха относительно исходного
звука. Цифры над линией означают задержку сигнала в цепи обратной связи.
Представленный на рис. 4 алгоритм эффекта, состоит из двух циклов. Например, в первом из них
однократный дилэй формируется задержкой сигнала на 214 мс, а эхо получается за счет подачи
задержанного сигнала в цепь обратной связи, время задержки которой, в свою очередь, составляет
170 мс.
Не очень понятно? Ничего удивительного, ведь и сам эффект комплексный, сложный. Разобраться в
нем поможет аналогия с классическим магнитофонным ревербератором. В нем задержка
осуществляется за счет того, что сигнал, записанный на ленту одной магнитной головкой,
воспроизводится второй не в то же мгновение, а спустя время, необходимое для протяжки ленты от
головки к головке. Если в ревербераторе есть две магнитные головки - записывающая и
воспроизводящая, - то можно реализовать и простейший дилэй, и эхо.
Пусть скорость движения ленты и расстояние между головками такие, что задержка сигнала
составляет 214 мс. Дилэй реализуется, если на выход устройства подавать необработанный
(входной) сигнал и сигнал, снятый с головки воспроизведения. Реверберация (или, в зависимости от
величины задержки, многократное эхо) получится, если задержанный сигнал (меньшего уровня)
возвращать на головку записи. При этом получится многократное эхо, но задержка между каждым
"отражением" звука будет составлять также 214 мс. Теперь представим себе, что в воображаемый
магнитофон добавлена еще одна записывающая головка. Причем от этой головки до
воспроизводящей головки лента перемещается за 170 мс и на нее подается не входной сигнал, а
сигнал с воспроизводящей головки (задержанный сигнал). Получится полный аналог той схемы,
которая представлена на рис. 4: однократная задержка на 214 мс и многократное эхо с повторением
через 170 мс.
Иначе говоря, один цикл эффекта как бы соответствует магнитофону, имеющему две записывающие
головки и одну воспроизводящую. На рис. 4 алгоритм состоит из двух циклов - это уже 5 головок
(общей является одна записывающая головка). Всего может быть создано до 10 циклов, каждый с
собственной задержкой, обратной связью, и установками параметров фильтрации. Чтобы
аппаратным путем с помощью магнитофона получить тот же результат, понадобилось бы 29
магнитных головок.
Если один цикл помещен внутри другого (это видно на диаграмме), будет реализована многократный
дилэй.
Выберите вариант схемы эффекта в списке Presets. После этого в списке Delay Units отобразятся
параметры каждого из циклов задержки. С помощью регуляторов группы Delay или соответствующих
им полей ввода можно подстроить следующие параметры каждого цикла:
Изменение положений двух первых регуляторов отображается на графиках циклов. Отмечу, что все
регуляторы поля ввода и опции управляют параметрами текущего цикла: того, который в данное
время выделен в списке Delay Units.
Очередную строчку в этот список добавляют путем нажатия кнопки Add New. Если уже существовал
хотя бы один цикл, то вновь созданный цикл будет иметь те же параметры. Если ни одного цикла не
существовало, то после нажатия кнопки Add New нужно еще щелкнуть на любом элементе группы
Delay, чтобы появился график цикла. Чтобы удалить цикл, необходимо выделить его в списке Delay
Units и нажать кнопку Remove.
В группах Low-Cut Filters и High-Cut Filters содержатся поля, в которых вводят частоту среза (Cutoff) и
усиление (Boost) фильтра, вырезающего нижние частоты (Low-Cut Filter), и фильтра, вырезающего
верхние частоты (High-Cut Filter), соответственно. Правда, если в полях Boost ввести значения,
превышающие 0, то соответствующие частоты будут не вырезаться, а усиливаться. Но мы не
рекомендуем этого делать потому, что может возникнуть явление, аналогичное самовозбуждению
акустической системы: уровень каждого очередного задержанного сигнала будет выше, чем
предыдущего. Иногда для получения эффекта незатухающего и даже возрастающего эха со
специфическим тембром, возможно, вы и захотите ввести в полях Boost положительные числа.
Замечу, однако: чтобы смоделировать самовозбуждение акустической системы, можно установить
значение параметра Feedback, превышающим 100%.
Переключателями Left Channel, Right Channel и Both Channels выбираются обрабатываемые каналы
- левый, правый или оба.
Дилэй в SONAR 2
В программе SONAR 2 также имеется несколько встроенных аудиоэффектов, реализующих задержку
и эхо. Остановлюсь лишь на двух из них.С помощью эффекта Delay можно сымитировать задержку
звука и его переотражение при распространении в пространстве с препятствиями. Вы можете задать
задержку и/или число повторений и изменить время задержки и уровень сигнала, поступающего в
цепь обратной связи, а также выбрать параметры модуляции времени.
Команда Process > Audio Effects > Cakewalk > Delay… вызывает окно диалога Delay, вкладка Settings
которого изображена на рис. 5.
Рис. 5. Вкладка Settings окна диалога эффекта Delay программы SONAR 2
Регулятор Dry Mix (%) предназначен для управления уровнем громкости необработанного сигнала,
ретранслируемого на выход эффекта, а регулятор Wet Mix (%) - обработанного сигнала на выходе
эффекта. Если выключатель Link этой группы опций выключен, то регулировать эти параметры
можно независимо друг от друга, если же включен, - то увеличение значения одного параметра
приведет к уменьшению значения другого, и наоборот.
Left Delay (ms) и Right Delay (ms) - регуляторы интервала времени между повторениями сигналов
левого и правого каналов соответственно. При высоких значениях этих параметров реализуется
эффект задержки, а при малых и средних (приблизительно до 80 мс) - эффект эха. Максимальная
задержка составляет 5 с. Если выключатель Link не активен, то регулировку этих двух параметров
можно выполнить независимо друг от друга. В противном случае регуляторы Left Delay (ms) и Right
Delay (ms) будут объединены в группу, и задержка для обоих каналов будет одинаковой.
Cross Feedback Mix (%) - регулятор коэффициента перекрестной обратной связи. От ее величины
зависит кажущаяся ширина распределения эффекта по стереопанораме.
Left Feedback Mix (%) и Right Feedback Mix (%) - регуляторы уровня сигналов обратной связи левого
и правого каналов соответственно.
LFO Rate (Hz) - регулятор частоты модуляции времени задержки сигналов (в герцах). За счет
модуляции времени задержки имитируется отражение звуковых колебаний от движущихся (точнее,
колеблющихся) предметов. Максимальная частота модулирующего сигнала 20 Гц.
Команда Process > Audio Effects > Cakewalk > FxDelay… вызывает окно диалога FxDelay, вкладка
Settings которого изображена на рис. 6.
Рис. 6. Вкладка Settings окна диалога эффекта FxDelay программы SONAR 2
Обратимся теперь к интерфейсу эффекта. В окне FxDelay вы видите много элементов, назначение
которых уже знакомо по эффекту FxChorus (см. статью "Сирены поют хором", Магия ПК №12/2002).
Здесь также имеются четыре столбца VOICE 1 - VOICE 4, и в каждом из них расположены знакомые
элементы:
• Слайдер и поле ввода группы MIX LEVEL, предназначенные для регулирования пропорции между
уровнями исходного и обработанного эффектом сигналов в выходном миксе
• Слайдер и поле ввода группы OUTPUT LEVEL, обеспечивающие регулирование уровня выходного
сигнала
• Кнопка BYPASS, направляющая сигнал в обход эффекта
А вот набор параметров, которые можно выбрать независимо для каждого из голосов в окне данного
эффекта, конечно же, не тот, что в окне FxChorus. Это и понятно. Хоть хорус с дилэем и основаны на
задержке сигнала, но имитируют они совсем разные реальные явления: хорус - биения,
возникающие в результате нелинейного взаимодействия близких по частоте колебаний, а дилэй -
многократное отражение звуковых волн от препятствий. Поэтому в эффекте FxDelay разработчики
программы предоставили вам возможность выбора следующих параметров каждого из голосов:
• DELAY (MS) - времени задержки сигнала данного голоса относительно исходного сигнала. С
помощью поля ввода и слайдера coarse задержка задается грубо, а с помощью аналогичных
элементов fine - уточнятся.
• FEEDBACK - величины коэффициента обратной связи, определяющая количество повторений
задержанного сигнала
• PAN - панорамы голосаЭффект также сопровождается большим количеством разнообразных по
назначению и звучанию "заводских" пресетов, к которым вы, без сомнения, скоро добавите и
немало пресетов собственных.
Дилэй в Cubase SX
В профессиональной виртуальной студии Cubase SX фирмы Stainberg эффектов, основанных на
задержке сигнала, не счесть. Среди них есть и два дилэя, отличающиеся оригинальным
интерфейсом. Помните, я рассказывал, как получить эффект многократного эха с помощью
многоголовочного магнитофона? А вот и он сам.
Рис. 7. Окно симулятора магнитофонного дилэя программы Cubase SX
Еще один дилэй программы Cubase SX называется DoubleDelay. В нем, как и в предыдущем, можно
регулировать величину задержки, значение коэффициента обратной связи, произвольно
панорамировать обработанный сигнал, а также синхронизировать задержку с темпом музыкальной
композиции. Однако здесь предусмотрено только два канала задержки. Зато изменения положений
ручек регулировки наглядно отображаются на двух графиках.
В общем, если вы подобно герою рассказа Марка Твена решите в свое удовольствие или для
продажи, заняться коллекционированием эхо, проблем, подобных тем, что погубили его, у вас не
будет. Если же после прочтения статьи остались вопросы, обращайтесь к книгам "Cool Edit Pro 2.
Секреты мастерства" и "Виртуальная звуковая студия SONAR" либо на форумы нашего сайта.
* Марк Твен. Рассказ коммивояжера. Собрание сочинений в восьми томах. Том 1. - М.: Издательство
"Правда", 1980. - С. 230.
стороны, не хитрая, но с другой стороны - сложно сделать так, чтобы результат был именно такой,
какой нам хотелось получить. Разные цифровые фильтры фильтруют сигналы совершенно по
разному, и надо хорошо понимать, какой фильтр где применять. Единственный неправильно
примененный (не по назначению) фильтр, как правило, наносит звуку непоправимый ущерб.
Малозаметный на глаз или при беглом прослушивании, но в дальнейшем - просто ощущаемый как
смазанный или звенящий звук, и устранить его затем невозможно.
Наш тестовый сигнал - тишина, резко переходящая в простой тон ноты ля основной октавы, 440 Гц.
Одно замечание. Резкое (неплавное) изменение характера колебаний - то место, где из тишины
появляется тон - содержит все возможные частоты сразу, то есть на сонограмме это выглядело бы
яркой вертикальной линией. Слышится это место как легкий звонкий щелчок.
Этот участок, содержащий все частоты, мы и будем пытаться фильтровать, для наглядности. Задача
будет такая: оставить все частоты до примерно 600 Гц, и убрать все более высокие. В идеале мы не
должны затронуть ни сам тон, ни тишину перед ним, вместе с тем сгладить переход, сделать рывок
не таким резким - то есть убрать из него все высокие частоты, которые дают резкие скачки
амплитуды. Пример очень искусственен, но хорошо показывает особенности разных фильтров.
Так получилось, что я буду в основном ругать фильтры. Будет гораздо лучше, если вы поймете, что
любой частотный фильтр, сильно изменяющий частотную картину - это прежде всего страшно, а уж
потом - полезно. В цифровой фильтрации очень важно знать меру - слишком сильна свобода выбора
как угодно жесткого фильтра, что не всегда полезно. Я даже несколько сгущаю краски - на самом
деле, всё не так плохо, как могло показаться, и если я говорю 'ужасные последствия' - это еще не
значит, что уши завянут сразу же, нет. Просто в обработке звука любая потеря - это всё же потеря,
которая когда-нибудь скажется, и поэтому - будем стараться терять как можно меньше.
И заодно - простая истина: цифровые фильтры всегда лучше аналоговых. В крайнем случае - они их
моделируют, в лучшем случае - предлагают такие возможности, которые просто нельзя получить в
аналоговой схеме.
• FFT фильтр
• IIR фильтры
• FIR фильтры
FFT фильтр
Самый простой в использовании, гибкий, понятный, наглядный, мощный... и опасный из всего
семейства, смертельный для звука инструмент в неумелых руках.
Идея фильтра проста. Разложить сигнал на частотные составляющие, умножить отдельные частоты
на требуемое изменение частотного распределения, синтезировать сигнал обратно. Чаще всего в
реализациях этого типа фильтра применяется сглаживающее окно и работа с перекрывающимися
FFT блоками.
Идея фильтра заманчива своей простотой. Но проблемы есть, и они огромны. Основная проблема -
блок FFT обработки представляет собой одно целое. Определенная частота - результат FFT - при
обратном синтезе пронизывает весь блок, и её нельзя просто так, без последствий, выкинуть или
усилить... От слов - к делу:
Исходный сигнал
Как видно, результат - как минимум странный. Обратите внимание на следующие искажения:
• Пре-эхо. В месте щелчка частоты больше 600 Гц в FFT разложении отвечали не за полезный сигнал,
а за то, чтобы синтезировать резкий переход. Этих частот не стало. Резкого перехода - тоже.
• Изменение амплитуды тона 440 Гц (с FFT = 1024). Причина - хоть и использовалась оконная
сглаживающая функция, частота 440 Гц не попала в FFT сетку с шагом ~43 Гц, которая
получилась от размера разложения 1024. Вывод - частоты выше 600 Гц тоже пошли на
представление частоты 440 Гц. Их не стало - амплитуда уменьшилась. На самом деле не только
амплитуда уменьшилась, а еще и форма колебаний изменилась - но этого на рисунке не
рассмотреть. Без наличия всех частот полноценный синтез исходной частоты, которая прошла
мимо FFT сетки, невозможен.
• В здоровом блоке (с FFT = 8192) очень сильно изменилась амплитуда колебаний рядом с переходом.
Обратите внимание на ошибочный рост амплитуды уже после установления тона. В большие FFT
блоки особенно нельзя сильно вмешиваться - размах блока таков, что что там характеризует одна
определенная частота - только богу известно. Вспомните так называемый спектральный шум...
В общем, в пределах одного FFT блока возможны серьезные искажения временных и амплитудных
параметров. Из этого вывод: нужно делать блок как можно меньше.
Минусы этого подхода: При уменьшении сетки частот ощутимо затрагиваются уже все частоты - и
фильтрованные, и нет. Это происходит из-за того, что частот, не попадающих в FFT сетку,
становится больше. Это плохо. При уменьшении FFT уменьшается разрешение по частотам - это
тоже плохо. Если мы, например, хотим работать с басом и нам есть разница между 100 и 110 Гц - мы
вынуждены использовать блоки с размером как минимум 4096, что уже достаточно для появления
неприятных эффектов.
Не рекомендуется делать блоки меньше 1024 - разрешение по частоте настолько падает, что смысл
применения именно этого фильтра вообще теряется. Зато из-за малого разрешения по частоте
появляется некая шершавость обработки, особенно на стыках блоков - будут появляться артефакты.
Для разнообразия - еще одна картинка. Убираем на этот раз все частоты меньше 600 Гц - то есть
наш основной тон должен уйти.
FFT = 1024
Мы выделили сам щелчок. Видно, что даже с таким маленьким размером FFT имеет место эхо с двух
сторон. Оно сильно возрастает при переходе на большие размеры FFT.
Уже вполне можно спросить - а зачем он вообще такой нужен? Дело в том, что и этот фильтр бывает
нужен, безопасен, более того - незаменим. Но вы должны абсолютно точно понимать, что вы
делаете. Например, вполне безопасны такие операции:
• Работа в области низких частот (ориентировочно - до 1 кГц). Даже сильные изменения АЧХ не
принесут очень плохих последствий.
• Фильтры для вырезания определенных частот (например, 50 Гц) в ноль. Узкие участки воздействия
почти не дают побочных эффектов, так как задевают лишь несколько частот разложения.
• Легкий эквалайзер. И вообще любая легкая обработка. Не забывайте только, что вы так или иначе
разглаживаете сигнал во времени в пределах FFT блока. Сильнее ли, слабее - но это происходит,
и тем сильнее, чем сильнее ваше вмешательство. Обширные по частоте уровни вмешательства с
более 3-5 дБ воздействием - опасны.
• Всегда ставить максимальный размер FFT. Нужный размер определяется интуитивно, в зависимости
от того, что вы делаете. :-)
• Использовать Triangluar или Hamming оконную функцию. Рекомендация - Blackman или Blackman-
Harris.
• Использовать FFT фильтр как эквалайзер. Для изменения тональной окраски всегда найдутся менее
вредные операции.
• Использовать этот фильтр на одних данных несколько раз, слегка изменяя время начала обработки.
Комбинируйте все операции в одну!
• Использовать его как жесткий обрезающий фильтр высоких частот. Почти всегда есть варианты
лучше (один хороший вариант - вообще этого не делать :).
• Для экстремальной фильтрации - когда результат обработки как факт более важен, чем возможные
неприятности.
• Для фильтрации определенных узких частот.
• Если важно сохранить фазовую информацию. FFT отличается большим уважением к фазе сигналов.
Помните, однако, что нам самим для восприятия фаза не очень важна.
• Для многого другого - если вы понимаете, что делаете.
IIR фильтры
От Infinite Impulse Response - что-то вроде 'бесконечная отдача импульса'. В теории, влияние этих
фильтров не прекращается никогда, лишь затихая во времени. На практике оно, конечно,
прекращается, но всё равно - эти фильтры оставляют наибольший шлейф последствий. Не
обязательно плохих, просто - изменения сигнала идут всегда, вне зависимости от того, есть что
фильтровать или нечего в данный конкретный момент фильтрации. Это проще будет посмотреть на
примерах.
• 'Научные' фильтры. Chebushev, Butterworth, Bessel, т.д. - это и есть собственно IIR фильтры. В таких
диалогах обычно имеется контроль над всеми параметрами.
• Параграфические фильтры - где задаются отдельные пики воздействия в виде {частота, ширина
воздействия, усиление/ослабление в дБ}, а также иногда фильтрация по краям диапазона (high-
shelf и low-shelf). Обычно здесь применяются фильтры второго порядка Butterworth или Bessel (см.
ниже).
• Параметрические фильтры типа low-pass, high-pass, band-pass - где указываются области частот и
ослабления нежелательных сигналов. Порядок фильтра обычно устанавливается автоматически -
и это может привести к очень неприятным последствиям.
Начнем с того, что эти фильтры также опасны. Не так сильно, однако, как FFT, но всё же. Один IIR
фильтр - это фильтр, который воздействует на какой-то диапазон частот: или только частоты ниже
определенной границы, или только выше, либо между двумя заданными частотами. У IIR фильтра
есть такой параметр, как порядок. Чем он больше, тем сильнее граница по частоте между тем, на что
влияет фильтр, и тем, на что он не влияет. Иногда можно задавать параметр напрямую (CoolEdit -
научные фильтры), иногда он автоматическим образом зависит от желаемой резкости перехода
(SoundForge, parametric EQ). Вместе с тем, чем выше порядок фильтра, тем сильнее проявляются
искажения фазы, которые резко нарастают вблизи границ фильтрации. Разные типы фильтров
(Chebushev, Bessel, ...) обладают разными свойствами на границах перехода, но в этом обзоре -
только общие тенденции.
К примерам. Напоминаю - убираем все частоты выше 600 Гц.
Исходный сигнал
Видно, что фильтр 2-го порядка справился так себе: во первых, относительно слабо убрал высокие
частоты - переход остался довольно резким, а во вторых затронул и 440 Гц. Его частотная
характеристика слишком плавная для точной фильтрации. Фильтры более высокого порядка
справились лучше, но сигнал заметно уплыл вправо, появилась задержка. Это - не что иное, как
фазовые искажения. Сигнал 440 Гц, хоть и не изменяя своей амплитуды, приобрел фазовый сдвиг,
да такой здоровый, что его уже можно называть задержкой. Проблема в том, что этот фазовый сдвиг
разный для разных частот - если бы в сигнале была частота 100 Гц, она бы почти не сдвинулась во
времени. Фазовые искажения - большой и почти единственный серьезный минус IIR фильтров.
• Без нужды использовать IIR фильтры высокого порядка. Фазовые искажения такого масштаба - очень
неприятная штука.
Во многих программах, например в SoundForge, надо быть особо осторожным - там не задается
порядок фильтра, а задается лишь желаемая резкость перехода. Если вы скажете ему в
параметрическом эквалайзере что-то вроде того, что хотите уменьшить частоты от 49 до 51 Гц на
60 дБ, при этом не трогая частоты уже 48 и 52 Гц - он вам вломит фильтр такого огромного
порядка, что вы потом свой звук вообще не узнаете.
• Слабые фильтры (с порядком 2 - 3) - хорошее средство для уменьшения высоких или низких частот с
определенной частоты. Что и применяется в параграфических эквалайзерах (high-shelf и low-
shelf).
• В принципе, с помощью этих фильтров не очень высокого порядка можно слегка (на пару дБ)
вырезать определенные частоты. Стоит разобраться, какие искажения вам более
предпочтительны - фазовые задержки (IIR) или временные (FFT фильтрация).
• Для фильтрации частот вне слышимой области (или в не очень важной области). Фазовые искажения
на далеком расстоянии от границы фильтрации минимальны, поэтому если вы работаете с
файлом в 192 кГц и хотите убрать все частоты выше 57 кГц (ну хочется вам.. :) - можете смело
использовать там IIR фильтр 30-го порядка.
• В виде слабых фильтров второго порядка (параграфические эквалайзеры) - изменять тональную
окраску звука там, где требуется точность по частоте (эти фильтры можно настроить очень точно
даже в области низких частот).
• Ими удобно, например, гасить резонансы чего-то с чем-то. Или убирать DTFM частоты (специальные
Notch фильтры) - обычно для этого используется фильтры с порядками 2 - 6.
FIR фильтры
От Finite Impulse Response - 'конечная отдача импульса'. Эти фильтры реализованы через процесс,
называемый сверткой (convolution): есть таблица размера n, которая комбинирует (складывает)
последние n точек функции в одну выходную точку, умножая каждую из них на определенное число -
весовой коэффициент. Таблица свертки строится один раз в начале по требуемому частотному
воздействию.
[На самом деле влоб делать свертку очень медленно. Применяется другой процесс, для больших
сверток в сотни раз более быстрый, но полностью аналогичный этому - FFT, умножение в частотном
пространстве, обратный синтез].
Эти фильтры обычно применяются в диалогах типа эквалайзера. Иногда каждому движку
(регулятору усиления определенной частоты) соответствует свой фильтр, воздействующий на
определенные частоты, иногда - синтезируется таблица свертки на основе всех движков сразу, то
есть применяется один сложный фильтр.
FIR фильтры - то, ради чего стоило вообще придумывать цифровую фильтрацию. Это наиболее
безопасный и надежный из всех процессов, имеющий лишь одно слабое место - трудно
управляемые параметры фильтрации. Сделать фильтр именно до мелочей такой, какой нам нужно,
особенно в области низких частот, может оказаться излишне трудоемким, что приведет к очень
медленной обработке. Для этого придется использовать слишком большие размеры свертки, а это
замедлит до трудно терпимой скорости даже в сотни раз ускоренный процесс. Однако сверхсильная
точность не всегда нужна, а очень хорошую точность обработки за приемлемое время он всё же
обеспечивает.
Кроме слабой управляемости к недостаткам можно отнести невысокую скорость работы фильтров с
большой сверткой (более точных фильтров). В принципе, сделав огромную свертку, мы получим
именно такой фильтр, как мы хотим, но фильтровать он будет почти вечно. В этом, а не в чем либо
другом, кроется причина того, что эти фильтры используются лишь в эквалайзерах - там не нужна
особая точность, важны лишь общие тенденции, которые неплохо соблюдаются и с маленькими
свертками.
Исходный сигнал
Можно убедится в том, что фильтр совершенно не затронул те сигналы, которые не должен был
затрагивать. Правильно сконструированный FIR фильтр не влияет на фазу. В общем можно сказать
так: эти фильтры делают именно то, что должны делать, и ничего более.
Во многих программах есть параметр 'точность' (accuracy), иногда она даже напрямую измеряется в
точках (points) - числе элементов свертки, или convolution length (size). Этот параметр влияет только
на точность фильтра. Это не качество, это то, с какой точностью фильтр выполняет ваш заказ.
Если вы воздействуете на глубокий бас (около 40-50 Гц) - вам потребуются большие свертки (около
4000 точек) или самое качественное значение. Если вы работаете лишь с частотами выше 5 кГц -
вам хватит свертки в 500 точек, которая будет работать значительно быстрее. Если вы хотите влиять
на басы и поставите свертку 200 точек - единственное, что пойдет не так - фильтр просто не будет
воздействовать на басы должным образом, вот и всё. Потери качества обработки не будет, будет
лишь потеря смысла.
• Ответ очень простой. Если вы можете сделать то, что вам нужно, с помощью FIR фильтра - делайте
это. Более корректного отношения к необрабатываемым сигналам другими фильтрами не
добиться.
Целесообразно действовать так: сначала с помощью любых фильтров понять, что вам нужно, а
потом попытаться воплотить это с помощью FIR фильтров. Это наиболее качественная и корректная
настраиваемая фильтрация из всех возможных. Именно на таких фильтрах работают качественные
цифровые эквалайзеры, тогда как аналоговые - на IIR, единственных фильтрах, которые можно
реализовать в аналоговой схеме.
Единственное что - не пытайтесь применить FIR фильтры для точной фильтрации. Они могут это
делать, так же идеально как и обычную обработку, но слишком медленно. Для работы с конкретными
заданными частотами приходится использовать FFT или IIR фильтрацию.
Введение
Несмотря на то, что MP3 остается форматом de facto сжатия музыки на компьютере, существует
большое количество других, менее известных стандартов сжатия. Часть из них устарела и
практически не используется, некоторые появились недавно и еще не успели занять свою нишу.
Здесь я остановлюсь лишь на форматах, использующих сжатие с потерями (lossy compression), как
позволяющих добиться наибольшей степени компрессии аудиоданных.
Что значит "сжатие с потерями"? Лишь то, что файл, кодированный данным способом, а затем снова
декодированный в wave файл будет бинарно отличаться от первоначального файла (т.е.
содержимое файлов будет различным), хотя разница может быть малозаметна или совершенно
незаметна на слух. Каким же образом удается добиться подобного результата? На эти вопросы
отвечает психоакустика (см. например, подборку статей журнала «Звукорежиссер» за 1999-2000 г.г.),
относительно новая наука, занимающаяся изучением того, как человеческий мозг воспринимает звук.
Дело в том, что далеко не всякая звуковая информация воспринимается нами. Например, мы можем
достаточно отчетливо слышать шаги по асфальтовой дорожке в отсутствие посторонних звуков, но
те же самые шаги совершенно неслышны, если рядом проезжает легковой автомобиль. Это так
называемый эффект маскировки: тихий звук становится совершенно неслышим, если рядом
расположен источник громкого звука. Данный эффект, наряду с некоторыми другими используется в
психоакустических моделях современных кодеков. Сочетание обычных методов компрессии данных
и знания того, какая информация воспринимается нашим мозгом, а какая нет, позволяет добиться
степени сжатия музыки 1:10 при приемлемом качестве звучания.
ADPCM использует очень простой алгоритм сжатия, который обеспечивает высокую скорость
кодирования на слабых компьютерах, но абсолютно неприменим для хранения музыки. Крайне
низкое качество звучания при приемлемой степени сжатия привели к тому, что в данный момент для
сжатия музыки данный кодек почти не используется. Исключением являются компьютерные игры,
создатели которых нередко используют ADPCM WAV файлы для хранения саундтреков.
MP3
MPEG (от Motion Picture Expert Group – группа экспертов по движущимся изображениям) 1 Layer III
(реже MPEG 2 Layer III), также иногда именуемый людьми некомпетентными MPEG 3 (такого
формата не существует) уже долгие годы является для многих пользователей единственной
ассоциацией со словосочетанием "компьютерная музыка". Разработанный в конце 80х годов,
нетребовательный к ресурсам (воспроизведение MP3 файлов возможно даже на компьютерах с
процессорами 486) формат, позволявший сжимать музыку до 10 раз без катастрофических потерь
качества быстро прижился на домашних компьютерах. Хотя еще недавно большинство
кодировщиков были платными, сейчас несложно найти проигрыватели и кодировщики,
распространяемые по лицензии freeware. Через некоторое время стало ясно, что "CD качество" при
битрейте в 128 Кб/с невозможно, по крайней мере с данным стандартом, так
как с оснащением компьютеров более совершенными звуковыми картами и акустическими
системами позволяло выявить недостатки подобного кодирования. Вполне закономерным стало
повышение битрейта и совершенствование кодеков: технологии VBR и Joint Stereo
(комбинированное стерео) позволяли значительно сократить размер файла при повышении
качества. Современные кодировщики позволяют достичь качества звучания, на слух неотличимого
от компакт диска на битрейтах в диапазоне 192-256 Кб/с даже на высококачественной аппаратуре.
Тем не менее, в некоторых редких случаях (при наличии хорошего слуха и аппаратуры) даже
битрейта 320Кб/с бывает недостаточно. Трудность заключается в том, что сам по себе формат MP3
имеет недостатки, от которых практически невозможно избавиться. Одним из них является так
называемый эффект преэхо, из-за которого кодирование определенных сигналов сопряжено со
значительными трудностями. На практике же использование постоянного битрейта 320Кб/с зачастую
оказывается избыточным и чаще всего приводит к бессмысленной трате места.
Качество звучания MP3 файла может сильно зависеть от выбранных кодировщика и проигрывателя.
Для создания MP3 файлов идеально подходит бесплатный LAME (кодировщики Fraunhofer являются
платными и позволяют достичь сравнимого с LAME качества, а кодеры Xing, Blade и большинство
других не заслуживают внимания), а для воспроизведения – одна из последних версий Winamp 2.
MP3pro
Данный формат был создан вовсе не для того, чтобы "убить" или "заменить" MP3, позволяя лишь
добиться приемлемого качества звучания на низких битрейтах. Если "классический" битрейт в 128
Кб/с некоторыми слушателями и воспринимается, как дающий качество, близкое к идеальному, то
даже незначительное его понижение вызывает появление большого количества отчетливо
слышимых искажений. Для передачи музыки в интернет используются обычно именно низкие
битрейты, которые являются далеко не сильной стороной "обычного" MP3. Здесь MP3pro и
проявляет себя с лучшей стороны: частичная совместимость с MP3 (то есть MP3pro файлы, будут
проигрываться и обычными MP3 плеерами, не поддерживающими нового формата, но со
значительным ухудшением качества) и новая технология SBR, восстанавливающая высокие частоты
способны в немалой степени посодействовать продвижению нового формата на просторах
глобальной сети. Для хранения музыки высокого качества MP3pro совершенно не годится: даже при
использовании максимально доступного для большинства кодеков битрейта 96 Кб/с слышны
искажения, хотя по сравнению со многими другими форматами, поддерживающими низкие битрейты
результаты работы кодека MP3pro заметно лучше. При повышении битрейта качество файлов
падает по сравнению с остальными форматами и уже при битрейтах 128Кб/с разумнее использовать
MP3 или OGG Vorbis.
Не думаю, что у MP3pro есть большое будущее: слишком узкая сфера применения (в основном
Интернет и портативные MP3 проигрыватели) плюс лицензирование, требующее от разработчиков
вложения немалых средств наверняка будут иметь решающее значение в конкурентной борьбе.
«Ложкой дегтя» при использовании формата может стать отсутствие доступных бесплатных
кодировщиков: демонстрационный кодер/проигрыватель Thomson имеет очень ограниченные
возможности и очень неудобен в работе, Jet Audio и MusicMatch Jukebox имеют слишком большой
размер и также неудобны.
Небольшое замечание: плагин воспроизведения MP3pro/MP3 файлов для Winamp, даже в последней
версии содержит ошибки, что может изрядно испортить впечатление от его использования.
MPEGplus/Musepack (MP+/MPC/MPP)
Данный кодировщик похож по принципу действия на MPEG Layer II (MP2), но использует более
совершенный алгоритм. В отличие от большинства других современных кодеков целью создателей
Musepack было вовсе не стремление получить максимально возможное качество на низких
битрейтах: лучше всего формат показывает себя на средних и высоких битрейтах (типичный битрейт
файлов обычно находится в диапазоне 160-180Кб/с). Великолепная психоакустическая модель,
использующая VBR кодирование позволяет добиться прекрасного качества звучания. В результате
кодек показывает результаты более высокие, чем большинство его соперников на аналогичных
битрейтах. Скорость работы кодировщика достаточно высока: на создание MPC файла тратится
примерно в два раза меньше времени, чем на создание MP3 файла при помощи lame с
аналогичными настройками.
Качество файлов, получаемых при сжатии в MPC значительно превышает качество аналогичных
файлов MP3. При использовании настройки --normal кодировщика я ни разу не смог отличить
кодированный файл от оригинала в ABX тесте. Более того, MPC файлы, созданные таким образом
звучат лучше, чем высококачественные MP3 файлы с битрейтом 320Кб/с (разумеется, в тех редких
случаях, когда данное сравнение можно проводить). Следует сказать, что именно пресет normal
является "изюминкой" формата. Данный режим, вопреки названию, дает результат, абсолютно
неотличимый от оригинала на слух, причем разницу не ощущают даже люди, обладающие
прекрасным слухом и качественным оборудованием.
Если совместимость с MP3 для вас не слишком важна, а качество итогового файла желательно
получить максимально высоким, выбор Musepack может оказаться идеальным решением.
Использование этого формата является реальной альтернативой использованию сжатия без потерь
для кодирования музыки с компакт дисков тем, кто уже разочаровался в возможностях формата MP3.
AAC
Формат Advanced Audio Coding (расширенное аудио кодирование), также известный как MPEG2 nbc
(not backwards compatible, не обратно совместимый) является преемником формата MP3. Сочетая в
себе алгоритмы кодирования MPEG2/MPEG4 AAC имеет более широкие, чем MP3 возможности:
возможность кодирования нескольких звуковых каналов с частотой дискретизации до 96Кгц и более
высокое, чем у MP3 соотношение качество/размер делают его весьма привлекательным как для
создания музыкальной коллекции, так и для кодирования многоканальных звуковых дорожек.
Качество звучания файлов, сжатых при помощи AAC оценивается как отличное.
Если вы хотите получить относительно небольшого размера файлы с очень хорошим качеством,
следует обратить внимание на этот формат. Он прекрасно подойдет как для архивного хранения
музыки (без заметной потери качества), так и для создания небольшой высококачественной
музыкальной коллекции. На данный момент уже есть несколько моделей аппаратных
проигрывателей, имеющих поддержку формата AAC.
Тем не менее в использовании AAC есть свои трудности: алгоритмы кодирования, используемые в
данном формате достаточно сложны, поэтому для создания AAC файла требуется значительное
количество времени и системных ресурсов.
TwinVQ (VQF)
VQF (Vector Quantisation Format, формат с векторной квантизацией), является частью спецификации
MPEG4. Как формат сжатия музыки VQF ныне мертв. Любой посетитель сайта VQF.com будет
встречен следующей не слишком оптимистичной надписью: "VQF.com is now shut down. The VQF
format is now out-of-date. We feel it is negligent to continue representing the format as a "cutting edge" one
when it is no longer such. This site may reopen with the release of 192kbps VQF. Until that point, however,
it will remain closed." Так что же представляло собой данное детище Yamaha? VQF был форматом
сжатия музыки, изначально ориентированным на использование низких битрейтов. По заявлениям
разработчиков качество звучания VQF файла с битрейтом 80 Кб/с близко к 128Кб/с MP3 (по ряду
причин данный битрейт является "камнем преткновения" разработчиков алгоритмов кодирования
звука), а битрейт 96Кб/с дает более высокие результаты. Психоакустическая модель VQF
существенно отличалась от всех использовавшихся до этого, позволяя получать более высокое
качество, чем прежде. Несмотря на данные достоинства, практическое использование формата
было несколько затруднено по ряду причин: воспроизведение VQF файлов требовало большей
мощности процессора, чем MP3; поиск по файлу осуществлялся медленно, а кодирование одной
композиции проходило достаточно долго. Разница в размере файлов по сравнению с MP3 никак не
могла компенсировать все недостатки формата, а отсутствие поддержки высоких битрейтов лишь
усугубило положение. Еще в 2000 году разработчики заявляли о своих планах по разработке кодера,
способного создавать VQF файлы с вдвое большим битрейтом (соответственно, с более высоким
качеством), но с тех пор мало что изменилось: последняя версия программы Nero Burning ROM
содержит плагин, позволяющий создавать VQF файлы с битрейтом до 192Кб/с. О других
программах, поддерживающих VQF2 мне ничего не известно.
WMA
Формат Windows Media Audio был разработан всенародно любимой Microsoft в качестве очередного
"заместителя" MP3. Помимо обычных для разработчиков обещаний "качество звука, как у MP3, но
при вдвое меньшем размере файла" создатели позаботились о защите данных внутри музыкально
файла. На практике для рядового пользователя это оборачивалось невозможностью редактировать
теги уже готового WMA файла, а также множеством проблем, связанных с так называемыми
защищенными WMA файлами (например, записанный дома файл нельзя было воспроизвести на
рабочем компьютере). Для того чтобы проиграть защищенный файл часто требовалось загрузить из
интернет специальный сертификат, обычно позволявший прослушивать композицию в течение
ограниченного времени, по окончании которого вам нужно было либо заплатить за использование
файла и получить возможность слушать его в дальнейшем, либо купить компакт диск с
понравившейся композицией. Формат постоянно совершенствуется, постепенно появляется
поддержка более высоких битрейтов (до 160 Кб/с в новых версиях кодека).
Качество звучания WMA файла вполне сравнимо с качеством MP3 файла с тем же битрейтом,
иногда превышая MP3 на низких битрейтах. Немалым плюсом можно считать то, что кодировщики
WMA уже встроены в Windows, а последние версии Windows Media Player позволяют кодировать
компакт диски сразу же в новый формат. На некоторых интернет сайтах, посвященных сжатию
музыки можно встретить призывы не использовать WMA из-за его относительно низкого качества
звучания. Лично я через некоторое время отказался от использования данного формата, т.к. на
битрейтах 64 и 96Кб/с искажения и артефакты отчетливо слышны даже на не слишком качественной
аппаратуре, а повышения качества по сравнению с аналогичными файлами MP3 на более высоких
битрейтах я не заметил. Так что заявления Microsoft о том, что WMA 64Кб/с это «CD качество»
советую рассматривать не более, чем глупую шутку. На своем сайте Microsoft регулярно проводит
тестирование новых версий кодека (преимущественно на битрейтах до 128 Кб/с), противопоставляя
им устаревшие или низкокачественные кодировщики MP3. Неудивительно, что WMA выходит в
подобных тестах победителем.
В данное время формат WMA наряду с MP3 поддерживается большим числом производителей
портативных аппаратных проигрывателей, что является несомненным плюсом.
Liquid Audio
Еще один закрытый коммерческий формат. Используя современные высококачественные алгоритмы
AAC и ATRAC он позволяет получить результат по качеству звучания превосходящий аналогичный
MP3 файл. Кроме самого аудиотрека внутри LQT файла может храниться дополнительная
информация: сведения об исполнителе и альбоме, тексты песен, графика и т.д. Содержимое файла
шифруется во избежание нелегального копирования.
Недостатком для домашнего использования может являться сложность декодирования файлов LQT
в wave (для последующей записи на CD-R/RW) и отсутствие бесплатных кодировщиков. Для
кодирования музыки дома лучше подойдет "обычный" AAC.
OGG Vorbis
Еще до выхода финальной версии кодировщика не утихал шум вокруг этого нового формата сжатия
музыки. Заявления разработчиков выглядят заманчивыми: полная открытость формата и его
свобода от различных патентов (в отличие от MP3 и многих других форматов), поддержка широкого
диапазона частот дискретизации (8-48 Кгц) и битрейтов (от 16 до 256 Кб/с на канал), возможность
кодирования не только стерео сигнала, но и нескольких каналов аудио данных, высокое качество
звучания и многое другое. Считается, что битрейта 160-190 Кб/с достаточно для обеспечения
звучания, на слух неотличимого от компакт диска. Лично у меня никаких нареканий по поводу
качества не возникало за все время использования формата. По умолчанию многие кодировщики
(например, oggdrop) используют специальный режим настройка качества, регулируемый
безразмерной шкалой от 0.1 до 10. Обычно 4-5 дает очень хороший результат на большинстве
звуковых файлов, а a файл, созданный с параметром –q6 практически неотличим от оригинала.
Использование данной шкалы намного удобнее ручной настройки множества параметров
кодировщика, так как определенным диапазонам шкалы уже соответствуют оптимальные настройки
кодера.
По умолчанию для создания Ogg Vorbis файлов используется кодирование в режиме VBR,
позволяющем достичь более высокого соотношения качество/размер за счет оптимального выбора
битрейта в зависимости от характера музыки, хотя возможно использование постоянного битрейта.
Информация об исполнителе, названии композиции и т.д. хранится в Unicode, что позволяет
избежать в тэгах проблем с символами, отличными от латиницы, да и сама по себе организация
тэгов реализована более грамотно, чем в ID3V2 (достаточно новый формат тэгов MP3/AAC файлов).
У разработчиков поистине наполеоновские планы: сделать OGG единственным форматом для
хранения музыки и передачи ее через Интернет, вытеснив все остальные "коммерческие" форматы.
Не знаю, сумеет ли Vorbis потеснить позиции MP3, но то, что у него есть для этого весьма веские
основания - несомненно. По качеству звучания OGG файлы превосходят MP3 на аналогичных
битрейтах, а на низких битрейтах (до 64Kb/s) способны соревноваться с MP3pro.
Качество Звучания
Качество звучания - параметр исключительно субъективный и может варьироваться в широких
пределах для различных людей. Если речь идет о так называемом архивном кодировании музыки,
когда нежелательны слышимые различия между оригинальным файлом и файлом полученным
путем декодирования сжатого звукового файла, то подразумевается, что музыка будет
воспроизводиться на высококачественной Hi-Fi (или даже Hi-End) аппаратуре, а вовсе не на
компьютерных колонках стоимостью $15-20. Современные кодеки позволяют добиться звучания
кодированного файла, неотличимого на слух от компакт диска даже на хорошей аппаратуре при
степени компрессии примерно 1:5. Для повседневного же прослушивания музыки на компьютере
обычно выбирают более высокую (до 1:10 или даже 1:20) степень сжатия звука, в результате чего
удается создавать файлы меньших размеров за счет понижения качества. Субъективно оно может и
не измениться: в частности, обычные компьютерные колонки нередко вносят заметно больше
искажений, чем алгоритм кодирования.
Иногда при сравнении качества кодировщиков или форматов пользователи или разработчики
употребляют термин "качество MP3". Под этим словосочетанием часто подразумевается звучание
MP3 файла с постоянным битрейтом 128Кб/с, сжатого при помощи одного из кодировщиков
Fraunhofer (создатели формата MP3). Битрейт 128 Кб/с выбран не случайно. Он является тем
разумным пределом, когда его понижение ведет к слишком ощутимой разнице в звучании исходного
и кодированного файлов, а размер получаемого в результате кодирования файла подходит для
выкладывания музыкальных файлов в Интернет.
Нередко аргументом в пользу более высокого качества звука называется битрейт файла. Данный
подход не совсем корректен, так как качество звучания файла одного и того же формата может в
большой степени зависеть от настроек кодировщика и используемой программы кодирования.
Гораздо более корректным будет указание типа кодировщика, его версии и использованных
настроек. К тому же многие современные кодеки позволяют производить кодирование в режиме VBR,
а при одинаковом среднем битрейте VBR файл обычно имеет заметно более высокое качество, чем
CBR или ABR файлы.
Относительно настроек кодеров можно сказать, что в большинстве случаев пользователь не ощутит
разницы между файлом, сжатым с использованием пресета normal/standard (используется во многих
кодеках) и изначальным файлом.
Еще раз оговорюсь, что на различных типах музыки различные кодировщики с различными
настройками могут демонстрировать разные результаты.
Заключение
Оптимальным вариантом для создания домашней коллекции музыки является mp3. Данный формат
наиболее распространен, а наличие большого числа бесплатных кодировщиков и проигрывателей
под большинство современных операционных систем будет содействовать тому, что он останется
лидером по популярности в ближайшие годы. К тому же подавляющее большинство аппаратных mp3
проигрывателей поддерживают только этот формат. К недостаткам MP3 можно отнести низкий
коэффициент качество/размер.
VQF так и не смог отвоевать у mp3 позиции и уступил свое место более совершенным разработкам.
Несмотря на то, что VQF файлы еще можно встретить в Интернет архивах, использование этого
формата для кодирования музыки в данный момент неактуально: для тех же целей можно
использовать MP3pro или OGG Vorbis.
WMA как закрытый коммерческий стандарт вряд ли сможет вытеснить MP3, тем более, что обычному
пользователю возможность работы с тегами и декодирования файла в WAV (с целью последующей
записи на CD-R/CD-RW диск) обычно дороже защиты музыкального файла и сомнительного
выигрыша в размере. На данный момент единственным аргументом в пользу WMA являются
наличие аппаратных проигрывателей, все же остальные «достоинства» формата носят
исключительно рекламный характер.
OGG Vorbis только начал набирать популярность, хотя уже на данный момент он имеет
значительное число поклонников. Данный формат можно порекомендовать всем, для кого размер
итогового файла имеет решающее значение.
Musepack, - не слишком популярный, но весьма неплохой формат для хранения высококачественной
музыки может успешно заменить MP3 любителям качественного звука, позволяя добиться
непревзойденных результатов. На данный момент Musepack является форматом, позволяющим
добиться максимально высокого качества при использовании сжатия с потерями.
Что же касается wav файлов, сжатых кодеком ADPCM, то использование этого кодека для хранения
музыки крайне нежелательно.
Глоссарий:
Битрейт (bitrate) – количество бит, необходимых для кодирования 1 секунды звука. Так, битрейт
несжатого файла формата 44.1КГц 16 бит, стерео (компакт диск) будет 16*44100*2=1411200 или
1411.2 кб/с (kbps)
Частота дискретизации, частота выборки (sample rate, sampling rate) При преобразовании
аналогового звука в цифровой сигнал сэмплируется, т.е. преобразуется в дискретные значения,
диапазон значений для 16 бит будет от –32768 до 32767.
Кодирование с постоянным битрейтом (CBR, constant bitrate) – режим кодирования, при котором
битрейт остается неизменным независимо от характера музыки. Основной задачей кодировщика в
этом случае будет необходимость получения максимально высокого качества файла при
неизменном потоке.
Кодирование с переменным битрейтом (VBR, variable bitrate) – режим кодирования, при котором
кодировщику задается желаемый уровень качества. При кодировании кодек сам выбирает
необходимый битрейт для сжатия каждого фрагмента записи, при этом диапазон используемых
битрейтов может быть очень большим. Данный режим позволяет добиться максимального
соотношения качество/размер, однако размер итогового файла часто сложно предсказать (например,
при сжатии musepack –normal средний битрейт файла может быть как 140, так и 210). Недостатком
VBR является невозможность использования его для Интернет трансляций при малой ширине
канала.
Joint Stereo – один из способов кодирования стереосигнала, при котором учитываются схожесть
сигналов правого и левого каналов. Правильно спроектированная модель JS позволяет получить
более высокие результаты, чем кодирование каждого из каналов отдельно.
SBR (spectral band replication) – технология, позволяющая восстанавливать высокие частоты за счет
информации, содержащийся в других областях спектра и небольшого потока дополнительных
данных. Позволяет повысить качество звучания файлов при использовании низких битрейтов.
DRM (digital rights management) – набор средств, призванных защитить запись от нелегального
копирования.
Преэхо (preecho) - артефакт, часто отчетливо слышимый при кодировании четких резких звуков
(например, звука хайхэтов ударных установок). Проявляется в том, что эхо появляется перед звуком,
вызвавшим его.
Пресет (preset) – Современные кодировщики могут быть достаточно сложны в настройке (например,
lame или psytel). Для того, чтобы избавить пользователя от необходимости запоминать длинные
последовательности ключей и параметров, необходимых для создания файла большинство
современных кодировщиков имеет пресеты: заранее заготовленные и оптимизированные наборы
установок, которые гораздо легче запомнить. Например, пресет r3mix соответствует следующиму
набору параметров командной строки lame: “ --nspsytune --vbr-mtrh -V1 -mj -h -b96 --lowpass 19.5 --
athtype 3 --ns-sfb21 2 -Z --scale 0.98 ”
ABX тест – один из способов сравнения файлов, сводящий к минимуму случайные совпадения и
исключающий влияние так называемого «эффекта пустышки». См. www.pcabx.com для получения
подробной информации по методике тестирования.
Полезные ссылки:
• http://www.mp3dev.org/ - сайт, на котором можно найти немало полезной информации по
технологиям сжатия звука, базирующихся на стандартах MPEG: MP3, AAC, VQF.
• http://www.mp3prozone.com/ - сайт, посвященный формату mp3pro.
• http://www.xiph.org/ - сайт, на котором можно найти много информации по новому формату ogg
vorbis.
• http://www.stud.uni-hannover.de/%7eandbusch/audiocoder_eng.html - страничка разработчика
формата mpegplus, содержащая подробную информацию о данном формате.
• http://www.Musepack.org - неплохой сайт для начального знакомства с форматом Musepack.
• www.r3mix.net - сайт, посвященный различным технологиям сжатия звука. Хорошая подборка
ссылок на другие ресурсы. Сайт достаточно давно не обновлялся, но его материалы все еще
актуальны.
• http://www.inf.ufpr.br/~rja00/ - rare wares - множество бесплатных программ для кодирования музыки,
которые не всегда легко найти в других источниках: кодировщики и декодировщики различных
форматов, графические оболочки (фронтенды) к популярным кодировщикам и т.д.
• www.hydrogenaudio.org - лучший форум, посвященный различным технологиям кодирования звука.
В форуме часто можно встретить достаточно известных людей, например Peter Pawlowski, автора
множества плагинов к Winamp 2/3.
Автор выражает благодарность Илье Палопеженцеву за помощь в подготовке материала.
Р ассмотрим интересную и очень познавательную проблему - умножение частот колебаний в
аналоговой схеме. Это приходится делать довольно часто. А как это сделать? Я, помнится, в
детстве часто задавался этим вопросом. И не мог придумать вразумительного ответа... Меня в
очередной раз попросили объяснить, и я подумал - вдруг, даже наверняка, это покажется кому-то
любопытным?
Будем умножать. Второй шаг довольно оригинален - я, помнится, сильно радовался, когда узнал его
принцип: вносим в сигнал искажения. В обычной аналоговой схеме для этого применяется любой
нелинейный элемент - например, диод. Я применяю эмуляцию включения диода параллельно
сигналу - он не пропускает ток даже в прямом направлении (т.е. в нашем случае не искажает сигнал)
до определенной амплитуды (т.е. до определенного напряжения на нем), но начинает пропускать его
после некой точки. Кстати, специфический диод, используемый в таком режиме, называется
стабилитрон - средство ограничения напряжения на определенном уровне. Короче говоря, срубили
сигнал выше определенного уровня - весь "излишек" стекает через диод:
Таким образом мы получили сильные гармонические искажения сигнала - то, чего стараются
избегать в звуковых схемах. Появились четные гармоники исходной частоты - т.е. частоты 200 Гц,
300 Гц и т.д. Мы уже умножили! Умножитель частоты - на единственном диоде. Одна проблема -
непонятно, на сколько, собственно, умножили. Частот у нас получилось до чертиков - и нужных, и не
нужных:
Теперь надо решить, на сколько мы будем умножать. Вот я пометил на рисунке вторую гармонику -
то есть мы будем умножать на два. Например. И тут вскрывается сильное ограничение
элементарных умножителей частот - они работают лишь в определенном диапазоне. Поясняю: наш
следующий шаг - построить фильтр, который уберет все частоты, кроме красного отрезка (на
рисунке). Но сам этот фильтр рассчитан на определенный диапазон результирующих частот. Т.е.
если мы вместо частоты 100 Гц дадим на вход 103 Гц, то на выходе, как и нужно, получится ровно
206 Гц - т.е. главное условие, синхронность исходной частоте, выполнено. А вот если дадим 201 Гц -
он вообще не будет умножать, так и оставит 201 Гц. Если подать 49 Гц - то умножит на четыре
вместо двух, дав нам 196 Гц. Т.е. он будет выдавать ту гармонику, которая попала в результирующий
диапазон, а какая она по счету - не важно. Может быть, в этот диапазон вообще ничего не попадет -
тогда на выходе будет тишина.
Это очень халявная фильтрация, и, несмотря на это, получились вполне сносной формы синусоиды
:). Вывод - моя комбинация действий умножает частоту, лежащую в рамках от 90 до 110 Гц, ровно в
два раза (до 180 - 220 Гц), причем частота получается хорошо синхронизированной по фазе с
исходной - ровно то, что нужно в цифровых схемах. На реализацию такой штуки в аналоговой схеме
потребуется: диод и два простейших активных фильтра - два транзистора, несколько резисторов и
конденсаторов. Элементарный умножитель частоты строится на десятке простейших аналоговых
элементов!
А если стоит задача умножить на десять? На сто? Смотрите на спектр - сотая гармоника слишком
слаба. Эта проблема очень даже актуальна - есть такой элемент, называется кварцевый резонатор.
Кварц в просторечии. Единственный дешевый способ получить некую фиксированную частоту с
большой точностью. Он, будучи включенным в контур, выдает тактовые колебания с частотой, к
примеру, 14.31816 мГц, а Pentuim III работает на частоте 800 мГц. А таких кварцев нет... Умножить
надо в полусотню раз. На самом деле эта проблема имеет еще более простое решение. Есть такое
понятие, как резонансный фильтр, который в простейшем своем виде представляет собой
банальный колебательный контур. Поскольку частота кварца нам известна, т.е. известна довольно
точно и частота, которую мы в итоге хотим получить, мы можем использовать вместо обрезающего с
двух сторон фильтра использовать один резонансный фильтр, примерно настроенный на итоговую
частоту, который огромным образом усилит все частоты, даже примерно соответствующие его
частоте - т.е. выхватит в том числе нужную нам гармонику. Мы уже имеем дело не с умножителем
частоты от n до k в m раз, а с умножителем лишь частоты n в m раз - зато с качественным выходом,
поскольку сигнал после резонансного фильтра имеет очень чистый спектральный состав, т.е. форма
колебаний практически идеальна. Такой умножитель частот строится и того проще - достаточно трех
элементов: диод, конденсатор, индуктивность, ну и несколько резисторов для схемотехнических
нужд.
П родолжаем обсуждать проблему записи звука в домашней студии. У вас уже есть микрофон
(см. урок 7). Он подключен к микрофонному входу звуковой карты непосредственно (если микрофон
динамический) или через согласующий усилитель, объединенный с блоком питания (если микрофон
конденсаторный). При записи вокала понадобятся также наушники - с их помощью исполнитель
будет слушать аккомпанемент. Для получения записи высокого качества, конечно, в будущем
понадобится еще и микшер. Воздержусь пока от рекомендаций в отношении того, какую модель
микшера выбрать. Очень хочется посоветовать достойное устройство отечественного производства,
но поиски такового еще не завершены. Да отсутствие микшера - и не препятствие для обучения
компьютерной звукозаписи. Для начала достаточно освоить основы технологии этого увлекательного
занятия, а уж потом можно постепенно вникать во всевозможные тонкости, добиваясь повышения
качества записанного звука.Вообще-то для записи и редактирования звука предназначены
специальные программы - звуковые редакторы, например, Cool Edit Pro. Возможностей такого
редактора было бы достаточно, если бы вы решили записывать речь. Им можно было бы обойтись
также и при записи вокала, если в вашем распоряжении уже есть "минусовая" фонограмма будущей
песни, сохраненная в WAV-файле. И он, конечно, пригодится вам, когда дело дойдет до "чистки"
вокальной партии. Но многие музыканты приступают к записи вокала сразу же после того, как в MIDI-
редакторе (секвенсоре) создадут MIDI-треки с аккомпанементом. И это довольно разумно. Ведь
воспроизведение MIDI-треков занимает меньшую часть ресурсов компьютера по сравнению с
воспроизведением оцифрованного звука. В принципе, MIDI-инструменты никогда не поздно
переписать на аудиотреки. И даже желательно в конце концов сделать это для того, чтобы
появилась возможность обработать каждый инструмент разными звуковыми эффектами. И все же,
получается, что неизбежен этап одновременной работы с аудио- и MIDI-треками, поэтому без
универсального музыкального редактора не обойтись. Разумеется, в качестве такого редактора мы
будем рассматривать Sonar как чрезвычайно мощный и гибкий аудио- и MIDI-редактор, одинаково
доступный и начинающим, и опытным музыкантам.
Создаем аудиотрек
Загрузите в программу файл с той MIDI-композицией, к которой собираетесь дописывать вокальную
партию. Откроется главное окно программы Sonar - окно треков и клипов. В правой его секции клипы,
в левой - MIDI-треки с их атрибутами. Вам нужно создать аудиотрек для записи пения. Для этого в
меню Insert выберите команду Audio Track. К существовавшим ранее MIDI-трекам (на рисунке их 11)
добавится аудиотрек (под номером 12). Он пока чист. Чтобы работать было удобно, можно
увеличить масштаб отображения треков по вертикали кнопкой Zoom In Vertical, расположенной в
нижней части вертикальной линейки прокрутки.
Для созданного трека нужно задать ряд его параметров - выбрать атрибуты. Доступ к атрибутам
осуществляется с помощью элементов интерфейса, расположенных на поле трека. Не все из
представленных здесь возможностей понадобятся вам при записи звука с микрофона. Например, не
будем использовать пока аудиоэффекты. Кстати говоря, исходную запись целесообразно выполнить
без какой-либо обработки эффектами и в таком виде хранить, а экспериментировать с ее копией.Не
станем также изменять предусмотренные по умолчанию начальные значения уровня громкости
(Vol=0.0) и панорамы (Pan=C, будет ощущение, что источник звука расположен в центре). Вот без
чего нельзя обойтись, так это без портов ввода и вывода.
В левой верхней части панели микшера находится кнопка, щелкнув на которой, вы откроете меню. В
нем нужно выбрать физический источник записываемого сигнала. Если микрофон подключен к
микрофонному входу звуковой карты, вам нужно выбрать пункт Microphone, если же к микшеру,
который в свою очередь включен в линейный вход звуковой карты, выберите пункт Line-In.
Рис. 4. Меню выбора физического источника записываемого сигнала
Спет куплет
Куплет, припев, куплет, припев. Стоп. И сразу же сохраним проект, содержащий новые данные.
Записано!На аудиотреке появилась какая-то картинка: так выглядит звуковая волна, рожденная
голосом исполнителя и зафиксированная программой.
Рис. 5. Треки проекта после записи аудиоданных
Всплески колебаний - это мой голос: " Как прожить без тебя, не зная, все же живы - апрель и я…". А
вот в промежутках между словами заметен шум. Ничего удивительного, проза жизни: шумит кулер,
охлаждающий процессор. Запись-то выполнялась в совершенно неприспособленном для этого
помещении, да и микрофон располагался в полуметре от системного блока. Конечно, если вы
постараетесь и выполните все рекомендации, приведенные в статье "Я хочу, чтобы песня звучала"
(см. урок 7), то сможете получить и менее зашумленный аудиотрек, но вряд ли в домашних условиях
в принципе удастся обеспечить действительно малый уровень шума в помещении. Иными словами,
с записанным шумом обязательно придется бороться.Можно, конечно, поручить эту работу
специализированному звуковому редактору Cool Edit Pro, в котором предусмотрены изощренные
средства подавления шума. В таком случае аудиотрек нужно вычленить из состава проекта Sonar -
экспортировать его в WAV-файл командой File > Export Audio. Затем следует загрузить файл в Cool
Edit Pro, хорошенько поработать с ним, сохранить результаты работы и, наконец, импортировать
подчищенный трек обратно в проект Sonar командой File > Import Audio.Однако кое-что из
инструментов, необходимых для борьбы с шумом, есть и непосредственно в Sonar. Командой Edit >
Audio > Remove Silence открывается окно виртуального гейта.
Рис. 6. Окно виртуального гейта
Гейт - это один из приборов динамической обработки звука. Если уровень сигнала превышает
заданный порог, то этот сигнал проходит через гейт, если не превышает - не проходит. Порог и ряд
временных параметров гейта можно подобрать такими, что шум в паузах, уровень которого много
меньше, чем уровень полезного сигнала, "останется за бортом", а сигнал (слова) почти не претерпит
искажений.
Словарик
MIDI-трек - трек, ассоциированный с MIDI-портами ввода и вывода.
Классический спектр
Начнем с разложения в ряд Фурье периодического сигнала. Всякая периодическая функция может
быть представлена в виде разложения в ряд по тригонометрическим функциям
(1)
Таким образом, периодическая функция s(t) представлена суммой слагаемых, каждое из которых
есть не что иное, как синусоидальное колебание с амплитудой ck и начальной фазой k.
(2)
(3)
Формула (2) называется интегралом Фурье в комплексной форме. В данном случае предполагается,
что эта функция непериодическая, поэтому она может быть представлена только суммой бесконечно
большого числа бесконечно близких по частоте колебаний с бесконечно малыми амплитудами.
Ряд Фурье представляет периодическую функцию суммой хотя и бесконечного числа синусоид, но с
частотами, имеющими определенные дискретные значения, тогда как интеграл Фурье представляет
непериодическую функцию суммой синусоид и косинусоид с непрерывной последовательностью
частот. Иногда говорят, что в составе непериодического сигнала есть колебания всех частот. В
случае непериодического сигнала говорить об амплитудах отдельных спектральных составляющих
нет смысла, т. к. это бесконечно малые величины. На самом деле параметр G(w) выражает не
непосредственно амплитуду, а так называемую спектральную плотность. Обычно эту деталь
опускают и называют G(w) комплексным спектром непериодической функции, а абсолютное
значение этой величины - просто спектром.
В специальной литературе можно найти теоремы, позволяющие облегчить спектральные
преобразования сигналов, а также соотношения и графики, описывающие спектры сигналов
различной формы.
Текущий спектр
Каноническое определение спектра основывается на преобразовании Фурье, причем
интегрирование по времени выполняется в бесконечных пределах и спектр зависит только от
частоты. Однако бесконечная длительность какого-либо процесса - это абстракция, не имеющая
ничего общего с реальностью.
В основу этих рассуждений было положено понятие периодической функции. На самом деле
периодическая функция - лишь весьма полезная математическая абстракция, поскольку всякий
природный процесс имеет начало и конец.
Реальный циклический процесс принято называть периодическим, если он длится достаточно долго.
Мерилом длительности служит число "периодов", которое должно быть на много больше единицы.
Периодичность процесса проявляется лишь с течением времени, когда прорисовываются его
характерные черты. Текущий спектр и отражает это развитие процесса.
Спектр процесса (за короткий отрезок времени) однороден, так как короткий отрезок процесса - это
просто короткий одиночный импульс. Если в дальнейшем происходит периодическое повторение
некоторого цикла явления, то в текущем спектре начинают формироваться максимумы на основной
частоте и ее гармониках. Эти пики становятся все более острыми и высокими, а значение
спектральной плотности в интервалах между максимумами убывает и при t сплошной текущий спектр
вырождается в линейчатый спектр периодического процесса.
Конечно, и при достаточно большой (не обязательно бесконечной) длительности процесса пики
делаются настолько узкими, что их можно трактовать как линии.
Таким образом, периодический процесс - это предел, к которому может стремиться с течением
времени реальный повторяющийся процесс. Аналогично и спектр (в его классическом определении)
такого процесса есть предел, к которому стремится текущий спектр при увеличении времени
интегрирования до бесконечности.
Таким образом, текущий спектр в большей степени отражает свойства сигналов, проявляющиеся в
реальных условиях их генерирования и обработки, нежели спектр, полученный на бесконечном
временном интервале.
Мгновенный спектр
Текущий спектр - только мостик от частотного к временному описанию процесса. Представьте себе,
что вы анализируете текущий спектр от начала до конца музыкального произведения, не слыша его.
Вполне возможно, вы получите такой график спектральной функции, что в среднем за время анализа
спектр будет выглядеть относительно широким, исходя из чего придете к следующему выводу:
произведение исполняется одновременно на нескольких инструментах. В тембре звучания одних
инструментов преобладают низкочастотные, других - средне- и высокочастотные составляющие.
Потом вы выводите сигнал на акустическую систему и… оказывается, что это запись дуэта мужчины
и женщины в сопровождении фортепиано. На самом деле тембр звука периодически меняется. Пока
звучит баритон, в нем преобладают бархатные низкочастотные составляющие, а когда диалог
продолжает сопрано, кажется, что звенит колокольчик. Но все эти нюансы оказались усреднены,
сглажены, завуалированы в ходе спектрального анализа.
Для чего же нужны тогда все эти измерения спектра, если они не дают достоверной картины
реального развития тембра музыкального произведения? На основе такого анализа трудно
построить детальную стратегию последующей обработки фонограммы. Все дело в том, что не только
спектр, вычисленный на бесконечном временном интервале, но и текущий спектр - слишком грубый
инструмент в случаях анализа нестационарного процесса. Для того чтобы сблизить частотное и
временное представления сигнала, было введено понятие мгновенный спектр. Мгновенный спектр -
это спектр отрезка процесса длительностью T, непосредственно предшествующего данному моменту
времени t.
В программах для анализа и преобразования аудиоданных встречаются, как минимум, два варианта
отображения мгновенного спектра. Первый вариант - спектр представляется в виде
последовательности слоев изображения, "скользящих" вдоль оси времени. В каждом слое построена
одна реализация графика, причем предшествующие слои не стираются.
Характерный пример дает программа Spectrum Analyzer Professional, созданная для анализа спектра
сигналов, не только формируемых любым аналоговым источником, подключенным к входу звуковой
карты, но и сохраненных в WAV-файлах. На рис. 3 показано окно анализатора спектра, в котором
отображается мгновенный спектр последовательности прямоугольных импульсов. Выбран режим
отображения спектра Lines (в виде сплошной линии).
Рис. 3. Отображение мгновенного спектра в координатах "частота-спектральная плотность"
Правда, и такая форма отображения мгновенного спектра не очень удобна. После того как
изображение заполнит собой всю вертикаль координатного поля, различать отдельные сечения
спектра станет очень трудно.
Более наглядная форма отображения текущего спектра (рис. 5) используется в программе Cool Edit
Pro. По горизонтальной оси отображается время, по вертикальной - частота, а спектральная
плотность обозначается цветом: белым цветом - максимальный уровень спектральной функции,
черным - минимальный. Промежуточным значениям спектра соответствуют другие цвета. Отдельно
отображаются спектры сигналов левого и правого каналов.
Рис. 5. Цветовое отображение мгновенного спектра
Как вычисляется одна единственная точка графика спектра? Исчерпывающий ответ на этот вопрос
дают формулы. Чтобы их вид не приводил вас в состояние священного трепета, попытаюсь
разъяснить обычными словами то, что записано математическими символами.
Сначала выбирается частота f0. Реальный или виртуальный генератор формирует синусоиду этой
частоты и условно-единичной амплитуды. Исследуемый сигнал нормируется по амплитуде. Начиная
с какого-то определенного момента t0, с шагом Dt (чем он меньше, тем лучше) в моменты времени t0,
t1, t2, t3,…, ti,…, tN-1 с этой синусоидой и исследуемым сигналом проделываются следующие
операции:
Данная процедура вычисления спектрального коэффициента одновременно есть не что иное, как
вычисление взаимокорреляционной функции исследуемого сигнала и синусоиды заданной частоты.
Иными словами, в процессе вычисления спектральной составляющей выясняется степень сходства
исследуемого сигнала со стандартным (базисным) сигналом, в данном случае с синусоидой. Можно
сказать и так: выясняется, в какой пропорции синусоида "содержится" в исследуемом сигнале.
Измерение текущего спектра и мгновенного спектра по такой процедуре вполне осуществимо, если
исследуемый сигнал уже записан и в вашем распоряжении есть цифровой анализатор спектра,
способный сколь угодно долго хранить результаты промежуточных вычислений.
Все значительно сложнее, когда анализ ведется в реальном времени. Допустим, что одна
спектральная составляющая вычислена. Изменяем частоту синусоиды и хотим приступить к
вычислению следующей спектральной составляющей. Но анализируемый фрагмент сигнала остался
в прошлом. Его не повторить. Поэтому вторая спектральная составляющая будет вычислена для
второго фрагмента сигнала, третья - для третьего и т. д. Это уже не текущий спектр, а разрозненный
набор отдельных спектральных коэффициентов. Каждый из них в ничтожно малой степени
характеризует разные и, возможно, не связанные между собой фрагменты сигнала. Иными словами,
вместо того, чтобы в деталях рассмотреть одну картину, мы увидели по одной точке на каждой из
картин Эрмитажа.
Проблема состоит в том, что прибор, анализирующий спектр, как и человек, обладают конечной
памятью. Былые события, подробности хода любого процесса постепенно стираются из нее. Это
означает, что чем более удалены в прошлое отсчеты анализируемого сигнала, тем меньший вклад
они вносят в накопление той самой суммы произведений отсчетов, которая, в конце концов,
определяет значение спектрального коэффициента.
Тот спектральный анализ, о котором шла речь до сих пор, соответствует спектральному окну
прямоугольной формы: весовая функция равна единице в пределах спектрального окна и равна
нулю вне его. При анализе текущего спектра начало спектрального окна совпадает с началом
отсчета времени, а конец приходится на текущий момент времени. Текущее время идет вперед,
правая граница спектрального окна смещается, поэтому каждому конкретному моменту времени
завершения анализа соответствует своя ширина спектрального окна. Если вычисляется мгновенный
спектр, то спектральное окно скользит вдоль оси времени, не изменяя своей ширины.
Список сообщений
Если ноты - язык общения музыкантов, то список сообщений - это привычная среда работы
программистов.
Каждое сообщение (Event) занимает в списке одну строчку и, по существу, представляет собой
указание, которое должен выполнить музыкальный компьютер в определенный момент времени.
Что ж это за такой страшный зверь - сообщение? На самом деле MIDI-сообщения - это всего лишь
закодированные числами команды органам управления синтезатором - контроллерам. Наиболее
часто встречаются команды Note On (включить звучание определенной ноты в такой-то момент
времени с такой-то громкостью) и Note Off (выключить звучание ноты в такой-то момент времени).
Вы помните, что все MIDI-ноты пронумерованы от 0 до 127.
Кроме этих команд MIDI-сообщения могут содержать указания о смене инструмента, перестройке
частотного фильтра, нажатии педали, виде и глубине эффекта, а также многое другое. Соответствие
чисел командам стандартизировано. Правда, одновременно имеют хождение целых три стандарта:
GM, GS и XG (см. "Магия ПК", 2001 № 3). Смысл основных команд в них, к счастью, совпадает.
"Магия ПК" - это интересно, а вот магия стереотипов - страшное дело. Все привыкли думать, что байт
- это 8 бит. Однако в байте MIDI-сообщения один бит не является значащим, это бит статусный,
говорящий о том, какая информация передается - MIDI-команда или MIDI-данные. По этой причине
вес младшего бита старшего байта (MSB) составляет не 256, а 128. Вот и весь секрет, о котором и
вы теперь будете знать. Правда, это только один из сотен секретов успешной работы над музыкой с
помощью компьютера. Еще парочку тайн я выдам сегодня, а о других - в следующих выпусках
журнала.
Список сообщений - это таблица. В ячейках таблицы содержится время выполнения сообщения, его
тип и параметры. Редактирование содержания таблицы производится мышью с помощью меню и
полей ввода.
С помощью окна Event Manger вы можете избирательно выводить на экран сообщения любых
необходимых типов (рисунок дает наглядное представление о типах сообщений, поддерживаемых
программой Cakewalk Pro Audio).
А если, скажем, вы захотите поместить над нотным станом символы табулатур (сообщения типа
Chord), то достаточно вызвать окно редактора аккордов, а уж в нем найдется любое разрешенное
теорией гармонии звукосочетание, представленное в графическом виде.
Рис. 3. Редактор аккордов
Можно сказать, что все прочие MIDI-сообщения обеспечивают соответствие звуковой карты или
синтезатора минимальным требованиям, а NRPN и особенно Sysx наращивают ваши возможности
управления звуком сверх предусмотренных стандартом.
О том, какие системные сообщения "понимает" ваш синтезатор, можно узнать, прочитав его
техническое описание. Для их редактирования пересылки и приема в Cakewalk Pro Audio
предназначено специальное окно Sysx, представленное на рисунке.
Пользуясь этим окном, вы можете либо манипулировать банками системных сообщений, либо
редактировать содержание отдельного системного сообщения. Во втором случае вам опять
придется иметь дело с последовательностью шестнадцатеричных чисел.
Рис. 5. Редактирование содержания системного сообщения
А вот и еще один из обещанных секретов. Системное сообщение обязательно должно начинаться с
шестнадцатеричного числа F0 и заканчиваться числом F7. Это границы системного сообщения. А его
"начинка" определяется типом синтезатора и смыслом передаваемой информации. Например,
сообщение F0 43 10 4C 02 01 00 13 00 F7 правильно поймет только синтезатор звуковой карты
стандарта XG (принадлежность синтезатора к детищам славной фирмы Yamaha закодирована
числами 43 10 4C). И означает оно, что для эффект-процессора выбран вариант реверберации,
имитирующий акустическую обстановку мрачного подземелья.
А теперь раскрою третий даже не секрет, а небольшой такой секретик. Системные сообщения часто
хранятся в MIDI-файлах и загружаются вместе с ними. Почти наверняка в начале каждого файла,
"скачанного" из INTERNET, хранится сообщение о системном сбросе. Так вот, подобные сообщения
для звуковых карт, соответствующих стандартам GM, GS и XG, различны. И если вдруг при
воспроизведении очередная отлично знакомая вам MIDI-композиция звучит не похоже на саму себя,
очень может быть, что в предыдущей композиции содержалось сообщение о сбросе для другого
стандарта, а не того, что поддерживается вашей звуковой картой. Как с этим бороться? Либо
записывайте в начало всех ваших композиций одно из системных сообщений GMSYSTEM.SYX, GS-
RESET.SYX, XG-RESET.SYX (то, которому соответствует ваша звуковая карта), либо посылайте его
в реальном времени перед воспроизведением очередной композиции с помощью окна Sysx.
• Найдете материал о сообщениях, которыми можно изменить диапазон колеса перестройки тона,
переключить тип реверберации и хоруса в MIDI-устройствах фирм Roland и Yamaha, в звуковых
картах SB Live! и Turtle Beach Tropez Plus
• Узнаете, что такое регистрируемые и нерегистрируемые параметры, и как с их помощью управлять
контроллерами, в явном виде недоступными
• Познакомитесь с методикой безошибочного вычисления номера контроллера по его младшему и
старшему значащим байтам с использованием калькулятора MS Windows для перевода чисел из
шестнадцатеричной в десятичную систему счисления и обратно
Треки и клипы
У каждой из рассмотренных форм компьютерного представления музыки есть свои достоинства. Все
вместе они позволяют эффективно решить любую проблему понотного редактирования. Но в любом
музыкальном редакторе профессионального уровня музыкальная информация может быть
представлена не только отдельными нотами или сообщениями, но и в виде блоков сообщений.
Такими блоками могут считаться треки и клипы.
Трек - это группа сообщений, направляемая в определенный канал и порт вывода - MIDI или аудио.
А клип - это группа сообщений, с которой можно производить операции редактирования, как с
единым целым.
На рисунке вы видите окно Track программы Cakewak Pro Audio. Его левая часть - это секция треков.
Для каждого их них нужно задать несколько атрибутов: номер и имя трека; его состояние (заглушен
или звучит, солирует, подготовлен к записи); порты ввода и вывода; закрепленные MIDI-инструмент
и MIDI-канал; громкость; панораму, интервал транспонирования, смещение событий относительно
тактовой сетки.
В одном предельном случае клип - это одно сообщение, в другом - вся композиция или как мы
говорим, весь сонг. Но практическое применение находят только клипы, объединяющие в себе часть
композиции. Примеры клипов:
Или: записали один куплет и один припев песни, выделили это в клип и размножили в необходимом
количестве экземпляров.
Еще один пример. Записали солирующую партию в исполнении фортепиано. Захотелось найти
какой-то оригинальный тембр. Вот он - синтезированный звук плачущей флейты! Но у этого звука
большое время атаки, он медленно нарастает. Создается впечатление запаздывания. Хорошо бы
сделать так, чтобы ноты этой партии брались с небольшим опережением. Если вы не работаете с
клипами, то станете передвигать каждую ноту, на что уйдет уйма времени. Да еще придется делать
это не один раз. А вот после объединения партии в клип, все ноты вы сможете переместить одним
легким движением руки с мышью.
И MIDI-, и аудиотреки в окне Track можно разбить на клипы. Клип можно скопировать, вырезать,
мышью перенести в любое место партитуры. Можно применить к выделенному клипу любую
обработку, MIDI или аудиоэффекты (о них я обязательно расскажу в будущем). Несколько клипов
можно объединить в один.
Особенно интересна технология связанного копирования клипов, когда любое изменение в одном из
связанных клипов автоматически распространяется на все остальные. Очень это удобно при
редактировании однотипных фрагментов, скажем, куплетов.
Клипы и треки - это, по сути дела, инструменты дирижера. Причем, виртуальные оркестранты этому
дирижеру подчиняются безоговорочно, замысел его понимают абсолютно и воплощают в музыке
идеально.
До новых встреч!
цифровой музыки в полном качестве, и посвящен в частности таким форматам, как MP3, и
вопросам и о его качестве тоже. Если вы попали сюда, не зная, что такое MP3 или CD-R, зачем они
нужны и как их использовать - вы ошиблись адресом, ибо это FAQ для самых продвинутых
пользователей и слухачей. (И, возможно, для тех, кто отчаялся что-либо понять в круговороте
противоречивых мнений по этой простой, в общем то, проблеме?...)
Я чрезвычайно рад приветствовать тебя на этой странице, уважаемый читатель. Здесь, по большей
части, собраны ответы не технического, а глубоко субъективного плана - хотя в других местах сети
эти ответы часто выдаются за техническую истину... Сразу предостерегаю вас от такой ошибки в
интерпретации. Данный документ несет мои ответы на вопросы психологического, музыкального,
технического плана. Я, конечно, попытаюсь непредвзято аргументировать свою позицию, когда это
возможно.
Audio-CD
Можно ли получить абсолютную копию звука Audio-CD в обычный wav-файл ("сграбить" - англ.
"grab")?
Да. Любой современный (и даже не очень) CD-ROM сможет считать аудио-данные 1:1 и записать их, с
помощью специальной программы (грабера) в .wav файл с параметрами 44.1 кГц/16 бит/стерео, который
будет абсолютно полным отражением данных, имеющихся на CD.
Если ты даже не смотрел {MP3enc, Lame, Bladeenc, OGG Vorbis, *.* AAC, впишите_сюда_своё}, то
почему ты уверен, что Producer 2.1 лучше всех?
Я не утверждаю, что Producer 2.1 лучше всех. Я даже почти уверен в обратном - прогресс за три года с
момента его выхода наверняка сдвинулся. Но Producer - это то, в чем лично я уверен - не в качестве, а
просто уверен. Меня устраивает его качество, дизайн и функциональная простота, вот и весь ответ. Пока я
не смог убедится в том, что какой-либо кодек обеспечивает лучшее (две оговорки - в среднем, и с моей
точки зрения) качество кодирования, хотя смотрел я многие.
Не исключено, что я забыл упомянуть еще что-то. Каждый из этих программ выдает существенно
отличающийся друг от друга результат, но всех их объединяет одно - при создании этих программ
искренне преследовалась цель создать кодек с максимальным качеством звучания. Ищите своего
любимца среди этих программ, мой же выбор, повторюсь - MP3 Producer 2.1.
И, пожалуйста, оставьте все споры по поводу того, какой из этих кодеков лучший. Вы представить
себе не можете, как это всё надоело... Просто молча пользуйтесь этим форматом и всё. Или не
пользуйтесь - но тоже, пожалуйста, молча.
Формат сжатия MP3 - высокие потоки (256 и 320 кбит/с) и 'полное' качество
Значит, отличить всё же можно. Почему тогда ты говоришь в своей статье - 'MP3-256 не
изменяет параметры звука хоть сколь заметным человеку образом'?
Дело в том, что мы слушаем материал не в режиме сравнения с оригиналом. Мы просто слушаем и
смотрим, какое впечатление он на нас производит. И вот что парадоксально - еще ни один тест,
поставленный для выяснения того, дает ли MP3-256 достаточное качество, не дал отрицательного ответа.
Это очень важно понимать: ни один из более чем десяти профессиональных слепых тестов и
нескольких десятков любительских тестов (в том числе моих) не дал повода считать MP3-256
недостаточным качеством.
Ключ к пониманию качества MP3-256 лежит полностью в плоскости психологии. Потери, вносимые
кодированием, достаточно легко воспринимаются в режиме активного сравнения с оригиналом, гораздо
сложнее - в режиме активного слепого сравнения, и вообще не воспринимаются в режиме сравнения
реальным прослушиванием музыкальных композиций целиком.
А чем воспроизводить?
А вот это действительно больной и очень правомерный вопрос. Я не буду приводить аргументы - я лишь
скажу, что для воспроизведения нужно использовать декодер от Fraunhofer. Вы сами легко поймете, какими
средствами пользуется ваш плеер. Приношу извинения тем, кто любит другие декодеры - NAD, Sonique,
mp123 и т.д. Я считаю их применение глубоко неправильным. Спорить не буду.
Мой личный подход - все мои MP3 файлы имеют расширение .wav и RIFF заголовок, что позволяет
воспроизводить их любыми проигрывателями, грамотно поддерживающими формат WAV. Декодирование
любого такого файла осуществляет ACM кодек от Fraunhofer, установленный в системе, что вполне
соответствует моим желаниям.
Однозначно можно сказать только одно: пользоваться встроенным в Winamp декодером крайне
нежелательно. Также преступлением над звуком следует считать любые эквалайзеры, особенно -
встроенные в MP3 плеер (декодер). Если вам нужна простейшая тональная регулировка - воспользуйтесь
ручками вашей аппаратуры, а если вам нужен именно эквалайзер - значит, что-то не так: MP3-256 и крайне
халявный и всегда некачественный эквалайзер декодера или плеера логически не очень совместимы.
Немного философии
Тебя не смущает, что все твои записи закодированы в MP3-256, и в один прекрасный момент ты
обнаружишь их некачественность?
Нет, меня это не смущает. Даже если вдруг выяснится, что я смогу легко с закрытыми глазами отличить
MP3-256, это не составит для меня никакой катастрофы, потому что и этого качества выше крыши
достаточно для того, чтобы наслаждаться музыкой. Еще раз повторяю: музыкой. 12 нот, гармонии там
всякие..
Я понял - тебя просто не волнует качество звука. Может, ты просто не слышишь разницы?
Вряд ли можно так сказать. Мне в высшей степени важно иметь хороший звук, и я прекрасно представляю
себе, что такое качество звучания. Моё отличие от тех, кто ставит его на главное и необходимое место
музыкального восприятие, заключается в том, что мне не нужно теоретически идеальное качество. Мне
достаточно практически идеального. Вопрос подхода...
Если MP3-256 оставляет, как ты говоришь, практически оригинал, можно ли использовать его в
студии?
Категорическое НЕТ. Даже не думайте о том, что какой-либо алгоритм сжатия звука с потерями можно
использовать при работе над материалами, которые пойдут в тираж или на CD. Этого делать ни в коем
случае нельзя - и совершенно не важно, дает ли формат гарантию полного качества или нет. Необратимо
терять что-либо, пусть и не важное человеку в реальных условиях, можно только на конечной стадии,
перед прослушиванием, но никогда - при подготовке записей для несжатого носителя, который должен
обеспечивать максимальное возможное качество. Да, если у вас есть планы выпустить материал в формате
MP3 - в этом, в принципе, нет ничего страшного. Но: несколько раз подумайте: не придется ли с этого MP3
потом делать Audio-CD? И если придется - не сжимайте его в MP3, а сделайте CD сами.
Детали
MP3 -- потоковый формат. Это означает, что передача данных происходит потоком независимых
отдельных блоков данных -- фреймов. Для этого исходный сигнал при кодировании разбивается на
равные по продолжительности участки, именуемые фреймами и кодируемые отдельно. При
декодировании сигнал формируется из последовательности декодированных фреймов.
Высокая степень компактности MP3 по сравнению с PCM 16Bit Stereo 44.1kHz (CD Audio) и ему
подобными форматами при сохранении аналогичного качества звучания достигается с помощью
дополнительного квантования по установленной схеме, позволяющей минимизировать потери
качества.
Последнее, в свою очередь, достигается учетом особенностей человеческого слуха, в том числе
эффекта маскирования слабого сигнала одного диапазона частот более мощным сигналом
соседнего диапазона, когда он имеет место, или мощным сигналом предыдущего фрейма,
вызывающего временное понижение чувствительности уха к сигналу текущего фрейма. Также
учитывается неспособность большинства людей различать сигналы, по мощности лежащие ниже
определенного уровня, разного для разных частотных диапазонов.
Термин битрейт в общем случае обозначает общую величину потока, количество передаваемой за
единицу времени информации, и поэтому не связан с внутренними тонкостями строения потока, его
смысл не зависит от того, содержит ли поток моно или стерео, или пятиканальное аудио с текстом на
разных языках, или что-либо еще.
Кстати, несмотря на то, что в формате MP3 действительно при определенных условиях может
кодироваться и пятиканальное аудио, рассмотрение всех случаев, кроме стерео, по понятным
причинам не включено в данный обзор. Весь обзор построен вокруг и около процесса кодирования
CD Audio.
Для MP3 также написано множество удобного программного обеспечения. Этот факт отражает
второе, не менее важное преимущество -- на ближайшие годы, а возможно, и на все десятилетие,
MP3 стал стандартом де факто, настолько много сделано в него вложений пользующимися им
сторонами, в том числе и цифровыми радиостанциями.
MP3 довольно долго оставался неизвестным, но несколько лет назад начался взрывной рост его
популярности, столь же быстро начали появляться залежи нелегальных MP3 файлов. Сейчас
налажено производство аппаратных MP3 поееров, а карманных, и для автомобилей. Таким образом,
MP3 стал первым массово признанным форматом хранения аудио после CD-Audio.
Несмотря на то, что MP3 появился достаточно давно, более новые форматы, претендующие на его
место, появившиеся к настоящему моменту, все на поверку оказались любительскими. Они могут
быть или не быть хороши по сравнению с MP3 на низких битрейтах, это зависит от трека и
особенностей слуха конкретного человека, но на место MP3 256kbs... 320kbs претендовать не
способны.
Возможно, 'монополия' MP3 в сфере компьютеров на низких битрейтах все же будет отчасти
сломлена новым форматом от Microsoft -- WMA. Но пока рано говорить об этом. С другой стороны,
появление Microsoft на данном рынке со столь сильной разработкой означает быстрое отсеивание
оказавшимися неудачными ветвей AAC и VQF. Впрочем, остается надежда, что AAC еще будет
доработан.
Начало кодирования
Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на
несколько, представляющих отдельные частотные диапазоны, сумма которых эквивалентна
исходному сигналу.
Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы
можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины
маскирующего эффекта. При этом учитывается, что потеря одного бита ведет к внесению шума
квантования величиной порядка 6 dB.
Завершение кодирования
После завершения работы психоакустической модели формируется итоговый поток, который
дополнительно кодируется по Хаффману, на этом кодирование завершается.
Замечание
На практике схема несколько сложнее. Например, необходимо согласовываться с требованиями
битрейта. В зависимости от кодера это приводит при повышении битрейта к разного рода
релаксациям при отборе сохраняемой части исходного сигнала, а при понижении -- наоборот, к
ужесточению критериев.
Dual Channel -- Каждый канал получает ровно половину потока и кодируется отдельно как моно
сигнал. Рекомендуется главным образом в случаях, когда разные каналы содержат принципиально
разный сигнал -- скажем, текст на разных языках.
Stereo -- Каждый канал кодируется отдельно, но кодер может принять решение отдать одному
каналу больше места, чем другому. Это может быть полезно в том случае, когда после отброса части
сигнала, лежащей ниже порога слышимости или полностью маскируемой, оказалось, что код не
полностью заполняет выделенный для данного канала объем, и кодер имеет возможность
использовать это место для кодирования другого канала. В документации к mp3enc замечено, что
этим, например, избегается кодирование "тишины" в одном канале, когда в другом есть сигнал.
Joint Stereo (MS Stereo) -- Стереосигнал раскладывается на средний между каналами и разностный.
При этом второй кодируется с меньшим битрейтом. Это позволяет несколько увеличить качество
кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его
ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг
практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD,
особенно если CD сам был записан в свое время с аудиоленты. С другой стороны, уже совершена
(первая ?) попытка написать программу для автоматической коррекции фазового сдвига, адрес
страницы автора -- http://www.chat.ru/~lrsp. Возможно, она немного поможет любителям кодировать
оцифровки с аудиокассет с битрейтом порядка 128kbs.
Режим выставлен по умолчанию продукцией FhG IIS, а также кодером Lame, для битрейтов от
112kbs до 192kbs.
Joint Stereo (MS/IS Stereo) -- Вводит еще один метод упрощения стереосигнала, повышающий
качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных
диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в
разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.
В отличие от всех предыдущих, этот метод приводит к потере фазовой информации, но выгоды от
экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких
битрейтах.
Этот режим по умолчанию используется продукцией FhG IIS для высоких частот на битрейтах от
96kbs и ниже (другими качественными кодерами этот режим практически не используется).
Но, как уже говорилось, при применении данного режима происходит потеря фазовой информации,
также теряется любой противофазный сигнал.
Чтобы не суметь отличить MP3 128kbs от оригинала, нужно либо не иметь слуха, либо взять
аппаратуру похуже. И то, что на большинстве компьютерных систем с момента покупки стоит ужасно
шумная звуковая плата от ESS, известно всем хорошо. Только мне с некоторых пор кажется, что
дело еще и в постоянном отравлении некачественным звуком, и, как следствие, временной (но
постоянно возобновляемой) потере чувствительности. Мы слишком часто слушаем то, что слушать
не стоило бы, и дело не только характеристиками компьютерной техники -- MP3 128kbs при
нормальном слухе не понравится и на ESS. Конечно, по сравнению с дребезгом колонок уличного
киоска под аккомпанемент трамвая звучание MP3 128kbs может казаться весьма неплохим, но это не
нормально.
Что со всем этим делать ? Да просто берегите уши от лишних истязаний, оно полезно. А что до
карты -- простая малошумная карта и относительно приличные наушники стоят не так уж много.
Поэтому в обзоре не учитываются шумы компьютера и карты -- эти трудности вполне преодолимы.
Другое небольшое заблуждение состоит в том, что уровень шумов декодированного сигнала сильно
связан с уровнем качества MP3. Но это заблуждение развевается очень быстро -- заметить, что
качество MP3 зависит от других причин, легче легкого. Как правило, уровень шумов очень низок на
любых битрейтах, это скорее характеристика плеера.
Кроме того, в большинстве учебников прямо говорится о неспособности человека слышать частоты
выше 16kHz. Но во-первых, это просто неверно, многое зависит от мощности сигнала и от возраста
слушателя. Во-вторых, человек -- существо, не лишенное оригинальности. Даже когда он не слышит
такие звуки с помощью уха осознанно, он все же ощущает их. И это влияет на восприятие. Поэтому
обрезание частот выше 16kHz можно считать обоснованным на низких битрейтах, когда оно
позволяет намного лучше закодировать более низкие диапазоны, но нельзя не брать в расчет, когда
речь заходит о высоких битрейтах, приближающих качество сигнала к уровню CD Audio. Да, кстати, у
детей частотный порог слышимости куда выше 16kHz.
Немного о программах
Новых пользователей в заблуждение вводит повсеместная реклама очень продаваемых, но в то же
время очень по сравнению с другими посредственных кодеров от XingTech. По поводу их
недостатков я еще пройдусь ниже.
На втором месте по объему рекламы мы видим кодеры от самого уважаемого производителя, FhG
IIS, но они тоже обладают определенными недостатками, к тому же дороги, поэтому дешевые и
быстрые кодеры от XingTech сегодня на вершине популярности.
Из плееров же, как не составляет труда заметить, наиболее популярен и раскручен плеер Winamp.
Еще недавно он не блистал высоким качеством звука, да и сейчас снова не блещет, но недавно на
протяжении нескольких версий в нем использовался декодер от FhG IIS, и при условии его установки
( например, их версии 2.22 ) вопрос с выбором плеера практически отпадает.
Кроме того, есть и другие хорошие плееры, могущие поспорить в Winamp, некоторые из них
упомянуты во второй части обзора.
Профессионалы, аудиофилы, а также все, кто заботится о создании качественной копии, вполне
соответствующей про качеству оригиналу, применяют только высокие битрейты. С другой стороны,
наиболее многочисленная часть любителей MP3 применяет его для кодирования "популярной"
музыки, главное отличительное свойство которой -- недолговечность, способность быстро
устаревать и становиться неинтересной, поэтому такие MP3 и хранятся недолго, и требования к их
качеству гораздо более низкие, что приводит к использованию низких битрейтов.
В Интернет, как правило, можно найти только MP3, закодированные с битрейтом 128kbs (и/или
кодерами от XingTech, о которых ниже). Этот битрейт, являясь "любимым" битрейтом FhG IIS, был
признан также оптимальным для использования в Интернет. В принципе, на эту роль больше
подошел бы битрейт 112kbs по разным соображениям, но он оказался маловат для достаточно
качественного кодирования, и дополнительно закрепился битрейт 128kbs, несколько превышающий
по качеству 112kbs, и который позже стал основным в Интернет.
Если отвлечься ненадолго от кодирования собственно CD Audio, то можно заметить, что поток
величиной порядка 112kbs довольно удобен, например, для прямых трансляций на большие
расстояния. В этом случае MP3 хорошо окупается, по сравнению с передачей того же сигнала
другими способами. На странице FhG IIS можно почитать более подробно об этом. Также MP3
используется на цифровых радиостанциях, но там требования к качеству на полпорядка выше.
Выбирать основной для себя битрейт вам самим, в зависимости от потребностей. Я сам, когда
начинал разбираться с MP3, изначально искал именно и только полноценную замену CD Audio, с
меньшим объемом, но с как минимум не меньшим качеством, и такую возможность MP3 в общем-то
дает.
В общем же из результатов всех известных мне тестов можно сделать следующие выводы. Во-
первых, битрейт 256kbs для абсолютного большинства пользователей совершенно достаточен. Но
для уверенности в качестве все же необходимо использовать 320kbs, что я сам и делаю. При этом
получаем в четыре с половиной раза меньший файл, что приятно. Во-вторых, MP3 160kbs... 192kbs в
большинстве случаев вполне достаточны для хранения вспомогательного аудио на компьютере,
например, для использования в компьютерных играх. Иначе говоря, для случаев, когда внимание
отвлечено. Хотя производители игр, настроенные радикально, предпочитают 128kbs.
И, наконец, немного о собственно MP3 128kbs, пользующемся такой популярностью. В свое время он
был широко разрекламирован FhG IIS, но при его использовании мы имеем скорее качество
аудиокассеты, записанной на подозрительного происхождения магнитофоне, хотя и с очень низким
уровнем шумов. Романтически настроенные разработчики даже почти официально назвали это 'CD-
качеством', что очень далеко от истины. Впрочем, это давняя традиция -- ADPCM тоже в свое время
называли форматом, дающим только неслышимые искажения.
На самом деле различие между качеством звука на битрейтах 128kbs и 256kbs... 320kbs
принципиально, так как первый к качеству уровня CD, собственно, никакого отношения не имеет, в
отличие от двух последних. Разумеется, для тех, кому качество средней аудиокассеты кажется
великолепным, данная оценка неверна, также она не столь категорична для случаев, когда внимание
сильно отвлечено. Но в целом, думаю, все ясно.
Но для кодеров XingTech качество так и не поднялось на уровень FhG IIS/ISO-based кодеров. Оно
безусловно повысилось, но для серьезного кодирования музыки эти кодеры остаются непригодны, да
и не для этого они создавались -- в частности, в данных кодерах практикуется искажение сигнала,
дающее эффект "лучшей слышимости высоких", что действительно часто может оказаться приятно,
но высококачественное кодирование по определению подразумевает отсутствие подобных
искажений. И не зря.
Определенный оптимизм вызывает другая реализация VBR, уже на основе исходного кода ISO ( на
самом деле от кода ISO он ушел уже очень далеко ). Речь идет о кодере Lame. Несмотря на свое
довольно своеобразное названи