Вы находитесь на странице: 1из 12

ТОЧНЫЙ СПЕКТРАЛЬНЫЙ АНАЛИЗ ЗВУКОВОГО СИГНАЛА

Иванов Артём Николаевич


студент группы МРА1901 МТУСИ
ivanovvv3333@yandex.ru
Литвин Семён Анатольевич
МТУСИ, к.т.н., доцент кафедры ТиЗВ
simon.litvin@gmail.com

К вещательному сигналу, в основном, относятся как к случайному


процессу. Впрочем, статистические свойства звукового вещательного
сигнала на больших длительностях слушателей мало интересуют. У
человека, при анализе звукового вещательного сигнала на уровне звуковых
объектов идёт восприятие эмоциональной и звуковой информации. Принято
считать, что смысловая информативность звукового вещательного сигнала,
то есть его распознаваемость и разборчивость, определяются, в основном,
спектром сигнала, а эмоциональная информативность - огибающей уровня
сигнала. Каждое отдельное звучание на длительности всего своего
существования имеет более-менее стабильную громкость и спектр, в
противном случае их восприятие посредством достаточно инерционного
периферического слухового анализатора человека было бы невозможно.
Можно сделать вывод, что спектральный анализ лучше проводить на
длительности звучания каждых отдельных звучаний с точностью, близкой к
точности, обеспечиваемой слуховым анализатором на этой длительности.
Участки изменения спектрального анализа или нарастания звука,
которые соответствуют началу нового звукового объекта – атаки,
представляют особую значимость. Если избавиться от атак из речевого
сигнала, то такой сигнал станет неразборчивым, в случае с музыкальным
сигналом результат будет аналогичным – понять, на каком инструменте
сыграно произведение будет тяжело даже для музыканта. Отсюда можно
сделать вывод, что именно спектр атак необходимо анализировать с
большей внимательностью. Примерно 5 мс составляет минимальная
длительность нарастания звукового вещательного сигнала, зафиксированная
в каналах передачи. Отсюда понятно, что умение анализировать именно на
этой длительности и выделять атаки, при изучении спектров звукового
вещательного сигнала будет полезно и необходимо.
В процессе анализа звукового вещательного сигнала стремятся
описать поведение каждой его спектральной составляющей, для чего их
необходимо отделить друг от друга. Для вокализованной речи частотный
разнос между составляющими определяется основным тоном и составляет
от 75 до 350 Гц. Для спектральных составляющих невокализованной речи
разнос еще меньше. Примерно такими же свойствами обладает и
музыкальный сигнал, который исторически возникал как подобие голосу.
Точность анализа определяется длительностью анализируемой
последовательности, используемой для формирования оценки, –
непрерывной при цифровой фильтрации и дискретной при использовании
ортогональных преобразований. В настоящее время ни один из
существующих способов спектрального анализа не обеспечивает
необходимой точности, разработчики и исследователи не всегда об этом
помнят, интерпретируя результаты спектрального анализа. Так, при анализе
речевого сигнала невозможность обеспечить необходимую разрешающую
способность на длительности большинства фонем приводит к ошибкам в
оценке результатов анализа. При высоких порядках используемых
фильтров анализ производится для нескольких фонем одновременно, что,
возможно, и приводит к большой вариативности описаний одних и тех же
фонем – в зависимости от их сочетаний.
Одной из важных характеристик речевого сигнала является
частотная и фазовая модуляция его составляющих. Речевой и музыкальный
сигналы во многом схожи с голограммой и несут смысловую информацию
каждой своей компонентой. При узкополосной фильтрации и глубоком
ограничении снижается разборчивость и распознаваемость, в основном
ухудшая качество сигнала. В данном случае остается единственная
информационная характеристика - фазовая (или частотная) модуляция, но
используя существующие методы спектрального анализа выявить её
затруднительно. В связи с этим продолжение исследований и разработок в
этой области будет актуально.
Как видим, задача максимального согласования спектральной оценки
со свойствами слухового анализатора определяет совокупность требований
к способу представления звукового сигнала в частотной области. В итоге, в
соответствии с имеющийся моделью звуковосприятия, можно
сформулировать следующие основные требования к анализатору спектра
звукового вещательного сигнала:
• производить анализ лучше всего на нерегулярной шкале частот,
обеспечивая:
- точность вычисления амплитуды – 0,4 дБ;
- разрешающую способность – не хуже 20 Гц;
- точность вычисления частоты – 1,5 % от абсолютного значения
частоты – в области ниже 500 Гц и 3% – в области выше 500 Гц;
- точность вычисления фазы – 8º;
• производить анализ с длительностью сигнала не выше 8 мс;
• желательно формировать непрерывную оценку исследуемого
узкополосного сигнала, что позволит выявлять его модуляционные
характеристики;
• необходимо обеспечить максимальную концентрацию энергии в
полосе оценки;
• желательно добиться устранения из сигнала частот, найденных в
процессе последовательного анализа и соответствующих спектральным
составляющим с максимальной амплитудой;
• желательна обратимость оценки, то есть возможность создания
исходного сигнала из представленного в частотной области – с
искажениями, соответствующими требованиям ГОСТ 11515–91.
Особый интерес, при оценке звуковых вещательных сигналов,
вызывают периодические компоненты, для выявления которых
используется классическое преобразование Фурье. Но при реализации ДПФ
или его быстрого алгоритма вычисления конечная длительность интервала
наблюдения влияет на различимость тонов и точность оценок параметров
сигнала.
Помимо результатов БПФ-анализа самого сигнала, используется
параллельный анализ набора сигналов, транспонированных по частоте в
пределах бина (частотного разноса между двумя ближайшими
коэффициентами ДПФ). Конкретно – максимальный по амплитуде
коэффициент из набора, относящегося к коэффициенту с данным номером,
принимается в качестве коэффициента оценки. При этом оценка
формируется на нерегулярной частотной шкале с максимальной
концентрацией энергии в каждой частной оценке.
Основные итоги оценивания при использовании различных окон
приведены в Табл. 1; в данной таблице так же, в столбце «сочетание окон
Хэмминга и прямоугольного», указаны их значения при использовании для
формирования оценки информации, полученной из набора сдвинутых по
частоте сигналов. Оценки приведены для разного числа сдвигов: 16, 32, 64.
В Табл. 1 использованы следующие характеристики:
- максимальный уровень боковых лепестков (по отношению к
главному лепестку) – один из важнейших параметров, чем он ниже, тем
меньше смещение спектральных оценок;
- скорость спада боковых лепестков (дБ/октава);
- когерентное усиление – оценивает отношение суммы отсчетов
сигнала, умноженных на окно, к их сумме (прямоугольное окно);
- эквивалентная шумовая полоса – ширина полосы пропускания
прямоугольного фильтра с тем же максимальным усилением по мощности,
который накапливает ту же мощность шума, что и данное окно, величина,
обратная когерентному усилению;
- полоса по уровню 3 и 6 дБ;
- паразитная АМ спектра – равна отношению когерентного
усиления тона, расположенного посредине между двумя бинами ДПФ, к
когерентному усилению тона, совпадающего с одним из бинов ДПФ,
является важным фактором, влияющим на обнаружимость слабых сигналов;
- максимальные потери преобразования – сумма максимальных
потерь из-за паразитной АМ спектра для данного окна (в дБ) и потерь
преобразования, определяемых формой окна, тоже один из важнейших
параметров, чем они ниже, тем выше обнаружимость слабых сигналов;
- корреляция перекрывающихся участков – вводится для
уменьшения потерь информации в результате наложения окна в начале и
конце анализируемой последовательности.

Таблица 1
Результаты оценивания спектра при использовании различных окон.

Окна
прям треуг Хем- сочетание окон
Параметры оуго ольно минг Хемминга и
льно е а прямоугольного
е
Число сдвигов 0 16 32 64
Максимальный уровень –13 –27 –43 –43 –43 –43
боковых лепестков, дБ
Скорость спада боковых –6 –12 –18 –6 –6 –6
лепестков, дБ/октава
Когерентное усиление 1,00 0,5 0,54 1,00 1,00 1,00
0
Эквивалентная шумовая 1,00 1,3 1,28 1,00 1,00 1,00
полоса, бин 3
Полоса по уровню 3,0 дБ, бин 0,89 1,2 1,30 1,30 1,30 1,30
8
Паразитная АМ, дБ 3,92 1,8 1,78 0,02 0,00 0,002
2 74 8

Продолжение таблицы 1

Максимальные потери 3,91 3,0 3,10 3,91 3,91 3,91


преобразования, дБ 8
Полоса по уровню
1,21 1,7 1,81 1,81 1,81 1,81
6,0 дБ, бин 8
Корреляция
перекрывающихся 50,0 25, 23,5 50,0 50,0 50,0
участков с 50%-ным 0
перекрытием, %

В наше время передовые методы анализа дают возможность изучить


реальную частотную характеристику с учетом обработки вещательного
сигнала. Желаемая характеристика может быть получена путем
сравнительного анализа сигналов на входе и выходе прибора. Лучше всего
себя проявил метод анализа с многократным сдвигом спектра.
Представилась возможность оценивать коэффициент передачи
аудиопроцессоров напрямую по реальному сигналу. Пример такой оценки
изображен на Рис. 1. Ярко выражена многополосность обработки
аудиопроцессором OPTIMOD (кривая 1), которая не проявляется при
измерении на тестовых сигналах. Так же на Рис. 1. изображена АЧХ
отечественного АП АРГО(кривая 2) на фоне шаблона допустимых
разбросов, задаваемого ГОСТ 11515–91.
Рис. 1. АЧХ аудиопроцессоров OPTIMOD и АРГО на фоне шаблона.

Оценка формируется с помощью сдвига спектра, может


производиться в два этапа:
1. формируется положение спектральных составляющих на шкале
частот с использованием окна, снижающего влияние боковых лепестков;
2. оценивание их параметров на прямоугольном окне.
Первым окном определяются параметры, характеризующие
разрешающую способность анализа с помощью сдвига, а вторым –
параметры оценки. В Табл. 1. приведены данные, полученные с
использованием прямоугольного окна и окна Хемминга.
По приведенным в Табл. 1. результатам измерений тестовых
сигналов на ПК, используя при формировании спектральной оценки
информацию о промежуточных ее значениях между бинами, полученную в
результате анализа набора транспонированных сигналов, удается:
- более точно определять частоты спектральной составляющей –
максимальная погрешность для однокомпонентного сигнала составит
величину, обратно пропорциональную удвоенному количеству сдвигов, в
частности при N = 256, F = 16 кГц и 64 сдвигах ошибка не превышает 0,49
Гц;
- более точно определять амплитуды при тех же условиях до
0,03% (в этом случае ошибка округления будет отсутствовать, так как
гармонический тестовый сигнал синтезирован непосредственно в ходе
проведения оценки);
- фактически избавиться от паразитной АМ;
- реализовать теоретически достижимую разрешающую
способность окна, приведенную в Табл. 1, которая при БПФ-оценке
реализуется только при определенном сочетании фаз и частот спектральных
составляющих, для составляющих с произвольными параметрами.
Так же, возникает возможность формирования оценки,
соответствующей фазе спектральной составляющей (для приведенных выше
условий), с точностью до 0,02 рад.
Следует понимать, что на данный момент ни один из известных
способов спектрального оценивания не обеспечивает согласования
полученной оценки со свойствами периферического слухового анализатора
и перечисленным выше требованиям.
Именно этим можно объяснить малую эффективность алгоритмов
кодирования с представлением звукового сигнала в частотной области.
СПИСОК ЛИТЕРАТУРЫ

1. ГОСТ 11515-91. Каналы и тракты звукового вещания. Основные


параметры качества. Методы измерения. М.: 1991
2. Автоматические регуляторы уровня радиовещательных
сигналов / сост.: В.Ф. Еса- ков, А.В. Никонов). – М.: Радио и связь, 1983. –
104 с.
3. Акустика: Справочник / А.П. Ефимов, А.В. Никонов, М.А.
Сапожков, В.И. Шоров /
Под ред. М.А. Сапожкова. – 2-е изд. – М.: Радио и связь, 1989. – 336 с.
4. Алябьев С.И., Воднев В.А., Попов О.Б. Цифровая передача и
обработка сигналов ЗВ в трактах формирования и первичного
распределения программ: Учебное пособие // МИС. – М., 1989, – 82 с.
5. Вакман Д.Е., Вайнштейн А.А. Амплитуда, фаза, частота –
основные понятия теории колебаний // УФН, 1977, т. 123, вып. 4, с. 657–682.
6. Ватсон Ч. Неопределенность: информационное маскирование и
емкость оперативной слуховой памяти. Auditory processing of complex
sounds. London. 1987, p. 267–277, пер. 66355.
7. Гилки Роберт Х. Сравнение спектральной и временной
информации при маскировании акустических сигналов. Auditory processing
of complex sounds. London.1987, p. 26–35, пер. 66334.
8. Горон И.Е. Радиовещание. – М.: Связь, 1979. – 368 с.