Вы находитесь на странице: 1из 71

Кафедра телекомунікацій

Дисципліна: «Технології радіо- і


телевізійного мовлення»
Лекція №14 «Алгоритми компресії
сигналів звукового мовлення»

Викладач:
Авдєєнко Гліб Леонідович , старший викладач кафедри
ТК
Питання до розгляду:

1. Краткая характеристика стандартов компрессии


сигналов зукового вещания семейства MPEG
2. Алгоритм сжатия MUSICAM
3. Алгоритм сжатия MPEG-1 ISO/IEC 11172-3
4. Алгоритм компрессии MPEG-2 ISO/IEC 13818-3
5. Алгоритм компрессии MPEG-2 AAC
6. Алгоритм компрессии MPEG-4 ISO/IEC 14496-3
(MPEG-4)
1. Краткая характеристика алгоритмов компрессии сигналов
зукового вещания семейства MPEG
Стандарт MPEG-1 ISO/IEC 11172-3 рекомендуется для
кодирования высококачественных моно- и двухканаль-
ных стереофонических сигналов, он предусматривает
использование трех значений частот дискретизации
звуковых сигналов равных 32, 44,1 и 48 кГц.

Стандарт MPEG-2 ISO/IEC 13818-3 — это обратно


совместимая с MPEG-1 версия метода кодирования
звуковых сигналов различных форматов: 1/0, 2/0. 3/1,
3/2, 5.1, сигналов систем Dolby (Dolby Stereo, Dolby
Surround и Dolby Pro Logic и т.п.). Она использует
(дополнительно к уже имеющимся значениям в MPEG-1)
частоты дискретизации, равные 16, 22,05 и 24 кГц.
Стандарт MPEG-2 ISO/IЕС 13818-7 ААС предназначен
для высококачественного в соответствии с требованиями
EBU кодирования звуковых сигналов в полной полосе
частот (до 20 кГц) при скоростях передачи около
64 кбит/с.

Стандарт MPEG-4 ISO/IEC 14496-3 ориентирован на


мультимедиа приложения. Он спроектирован так, чтобы
расширить возможности между мультимедиа
терминалами мобильного доступа низкой сложности до
высококачественных звуковых систем. Он использует
базовые идеи и алгоритмы кодирования, уже
определенные в стандарте MPEG-2 ISO/IEC 13818-7 ААС, а
также новые идеи, основанные на параметрическом
представлении звуковых сигналов.
В стандартах MPEG предусмотрено несколько уровней (слоев)
компрессии цифровых данных: Layer I, Layer 2 и Layer 3.
Layer 1 (слой 1) рекомендуется для применения в
профессиональной области, в системах записи-перезаписи с
высоким студийным качеством с достаточной емкостью памяти.
Он характеризуется небольшой сложностью и невысокой
степенью редукции аудиоданных. Основные параметры:
скорость цифрового потока 192….256 кбит/с, коэффициент
компрессии около 4, задержка сигнала при обработке около
20 мс.
Layer 2 (слой 2) — потребительская область применения,
высококачественное радиовещание, ему соответствует средняя
сложность и средняя степень компрессии цифровых
аудиоданных. Основные параметры: рекомендуемая скорость
цифрового потока 128 кбит/с при кодировании звукового
сигнала с полосой частот равной 40 Гц….15 кГц, коэффициент
компрессии 6, задержка сигнала при обработке 40…50 мс.
Layer 3 (слой 3) рекомендуется для передачи
звуковых сигналов по сети ISDN в профессиональной
области со средним качеством, Интернет-вешания,
отличается высокой сложностью и характери-
зуется следующими параметрами: скорость
цифрового потока 64 кбит/с при полосе звукового
сигнала 40 Гц...15 кГц, время задержки при его
обработке более 50 мс. В вещательном ТВ этот слой
пока ещё не используется.
1.1 Компактное представление звуковых сигналов
Статистическая избыточность – основана на свойствах
звуковых сигналов.
Психофизиологическая избыточность – базируется на
свойствах слухового аппарата человека: здесь
используются такие свойства как маскировка,
предмаскировка, послемаскировка:
если известно, какие части спектра звукового сигнала
слух человека воспринимает, а какие нет вследствие
частотной маскировки, то можно вычленить и затем
передать по каналу связи лишь те части спектра сигнала,
которые человек способен воспринять, а неслышимые
отбросить (метод субполосного кодирования). Кроме
того, сигналы можно квантовать с меньшим разрешением
по уровням квантования так, чтобы искажения
квантования, изменяясь по уровню в соответствии с
уровнем самого сигнала, еще оставались бы неслышимыми,
т.е маскировались исходным сигналом.
Виды компрессии аудиоданных, которые применяются в системах звукового вещания
1.2 Обобщенная структурная схема кодера с компрессией цифровых аудио-
данных для семейства стандартов MPEG
Разбиение спектра
сигнала на субполосы

Психоакустическая модель – это математический аппарат, предназначенный для оценки


кривой слышимости слухового аппарата с учетом эффекта частотной маскировки
(глобальный порог маскировки). На основании полученного порога, последующие блоки
обработки принимают решение о необходимости передачи той или иной субполосы с тем
или иным числом битов на отсчёт. Те субполосы, которые лежат ниже порога
маскировки, отбрасываются.
Алгоритм кодирования аудиосигналов по ISO/IEC 11172-3
(MPEG–1, Layer II)
Частотное маскирование как основа психофизиологических способов
устранения избыточности сигналов звукового вещания

Рис.13.2 Примеры сигналов (С, D, Е) различной интенсивности


Иллюстрация процедуры частотного анализа звукового сигнала

Уровень шумов квантования

Эти субполосы можно не передавать, так


как звуковые сигналы лежат ниже границы
1 – абсолютная граница слышимости; слышимости (кривая №2)
2 – граница слышимости слухового аппарата человека с учетом эффекта частот-
ного маскирования (глобальный порог слышимости)
1.3 Алгоритм работы психоакустической модели №1 для методов компрес-
сии MPEG ISO/IEC 11172-3 и MPEG ISO/IEC 13818-3
2. Алгоритм сжатия MUSICAM
MUSICAM – разновидность стандарта MPEG-1 Layer 2, базирующаяся на
принципе субполосного кодирования c динамическим кодированием.
Используется в цифровом спутником вещании и цифровом наземном
радиовещании стандарта T-DAB.
Структурная схема кодера MUSICAM
Кодер MUSICAM обрабатывает входной ИКМ сигнал с частотой
дискретизации 48 или 24 кГц и обеспечивает сжатие (редукцию)
цифрового потока до скоростей RЗВ от 8 до 384 Кбит/с на один
канал.
При сжатии цифрового потока с 768 кбит/с на один канал до 100
кбит/с сохраняется субъективное качество студийного цифрового
сигнала.
2.1 Набор многофазных фильтров (гребенка 32-х полосных фильтров)
Назначение - преобразование входного ИКМ-потока
звукового сигнала из временного представления в
спектральные компоненты выборок (отсчетов). В
результате исходная полоса звукового сигнала
разбивается на 32 равных частотных поддиапазона, т.е.
на 32 субполосных сигнала (частотных полосы)
шириной Δf = fД/64, где ; fД – частота дискретизации.
2.2 Блок БПФ и психоакустического моделирования
Назначение - определение фактических порогов маски-
рования, зависящих от времени. Этот блок состоит из
вычислителя БПФ по 1024 точкам и психоакустической
модели (ПАМ). ПАМ обеспечивает вычисление
минимального порога маскирования, необходимого для
определения уровня шума, при котором он становится
заметным в каждой из полос набора фильтров.
Результат БПФ используется для определения
соответствующих синусоидальных и шумовых масок
реального ЗС. Для каждой полосы определяется
минимальное значение кривой маскирования. В результате
анализа спектральных составляющих результирующая
кривая маскирования образуется суммированием
парциальных кривых маскирования компонентов.
Далее, с учетом этой полученной кривой, рассчитываются
величина SNR (отношение сигнал/маска).
Разность между максимальным уровнем сигнала и
минимальным порогом маскирования (то есть SNR)
используется для распределения бит или шума при
определении фактического уровня квантования в каждой из
полос, т.е. происходит динамическое распределение бит.
Таким образом, в этом модуле реализуется спектральное и, в
некоторой степени, временное маскирование.
Штриховая линия представляет собой абсолютный порог
слышимости тона в тишине (кривая 1). Не все части этого
сложного сигнала, если они существуют одновременно, могут
быть восприняты слухом, несмотря на то, что каждая
спектральная составляющая лежит выше
абсолютного порога слышимости, полученного для
тонального сигнала. Те части сигнала и шумы, которые
находятся ниже относительного порога слышимости
(кривой маскирования) LT, неслышны.
Все спектральные компоненты сигнала, оказавшиеся
в одной полосе, обрабатываются в кодере MUSICAM
совместно с одинаковым шагом квантования. В разных
полосах величина шага квантования имеет свое
значение и, следовательно, свой уровень шумов
квантования (заштрихованная область на рисунке).
Уровень мешающего сигнала лежит всегда ниже
относительного порога слышимости, т.е. кривой LT . Те
спектральные компоненты, которые лежат по уровню
ниже этой кривой, передавать не требуется.
2.3 Блок вычисления масштабных коэффициентов
После фильтрации гребенкой фильтров следующие по
времени друг за другом значения отсчетов каждой отдельной
полосы собираются в один блок, после чего в нем определяется
максимальное значение отсчета, которое определяет
коэффициент масштаба (ScF, Кмасшт) .
2.4 Блок квантования и кодирования
Назначение - квантование и кодирование выборок в каждой
из полос таким образом, чтобы уровень шума квантования,
возникающего в результате квантования, был ниже порога
маскирования. Используется метод блокового
компандирования с 6-битовым масштабным коэффициентом
(ScF) и длиной блока, составляющей 12 выборок на полосу. При
этом реализуется динамический диапазон ЗС порядка 120 дБ.
Таким образом, вычисление масштабных коэффициентов для
каждой из полос выполняется для блока из 12 выборок на полосу.
По этим 12 выборкам определяется максимальное
абсолютное значение сигнала, которое квантуется с помощью
6-битового слова. Следовательно, цикл соответствует 36 выборкам
на полосу (по три масштабных коэффициента от каждой полосы).
В действительности, это необходимо делать только при
передаче резких перепадов ударных звуков. В остальных случаях
можно передавать по два и даже одно значение коэффициента на
полосу - в зависимости от скорости нарастания или спада ЗС. При
этом используется эффект временного маскирования слухового
восприятия.

2.5 Мультиплексор

Мультиплексор – преобразует поток двоичной информации в


последовательность звуковых фреймов, каждый из которых – это
часть звукового цифрового потока, соответствущая 1152 ИКМ-
выборкам звукового сигнала. Длительность фрейма составляет
либо 24 либо 48 мс.
Структурная схема декодера MUSICAM

Декодер сигналов MUSICAM проверяет входящие данные на


наличие ошибок, а также разделяет данные управления процессом
декодирования и сжатые информационные аудиоданные. Прежде
всего, разделенные на отдельные полосы сигналы экспандируются с
помощью информации управления, в результате происходит их
обратное преобразование в исходную форму. В инверсном блоке
фильтров различные спектральные части ЗС вновь объединяются в
первоначальный сигнал. Результатом этого является цифровой поток
аудиоданных на выходе декодера, который уже подготовлен для
цифро-аналогового преобразования.
3. Алгоритм сжатия MPEG ISO/IEC 11172-3 (MPEG-1)
3.1 Кодер MPEG ISO/IEC 11172-3 Layer 1 (MPEG-1 Layer 1) и Layer 2 (MPEG-1 Layer 2)

PQMF – полифазный
квадратурный зеркальный
фильтр
Упрощенная структурная схема звукового кодера MPEG-1 Layer 1 и Layer 2)

Добавляется
в Layer-2
Принцип работы кодера MPEG-1 Layer 1:

1) Банк фильтров (БФ) обрабатывает одновременно 384 отсчета


звукоданных и распределяет их с соответствующей
субдискретизацией в 32 полосы, по 12 отсчетов в каждой полосе с
частотой дискретизации fд = 48/32 = 1,5 кГц. Длительность кадра при
частоте дискретизации 48 кГц составляет 8 мс.
2) Упрощенная ПАМ оценивает только частотное маскирование по
наличию и «мгновенному» уровню компонентов сигнала в каждой
полосе.
3) По результатам оценки для каждой полосы назначается как можно
более грубое квантование (чтобы уменьшить число битов на
полосу), но так, чтобы шум квантования не превышал порога
маскирования.
4) Масштабирующие множители (SCF) имеют разрядность 6 бит и
перекрывают динамический диапазон 120 дБ с шагом 2 дБ (26= 64 «
120/2). В цифровом потоке передаются также 32 кода распределения
битов (BAL). Они имеют разрядность 4 бита и указывают на длину
кодового слова отсчета в данной полосе после переквантования.
Особенности работы кодера MPEG-1 Layer 2:

1) В кодере второго уровня устранены основные недостатки


базовой модели полосного кодирования, связанные с
несоответствием критических полос слуха и реальных полос БФ,
из-за чего в низкочастотных участках диапазона эффект
маскирования практически не использовался. Величина кадра
увеличена втрое, до 24 мс при дискретизации 48 кГц,
одновременно обрабатываются уже 1152 отсчета (3 субкадра по
384 отсчета).
2) В качестве входного сигнала для ПАМ используются не
полосные сигналы с выхода БФ, а спектральные коэффициенты,
полученные в результате 512-точечного преобразования Фурье
входного сигнала кодера. Благодаря увеличению и временной
длительности кадра и точности спектрального анализа
эффективность работы ПАМ возрастает.
3) В Layer-2 применен более сложный алгоритм
распределения битов. Полосы с номерами от 0 до 10
обрабатываются с 4-разрядным кодом распределения (выбор
любой из 15 шкал квантования), для полос с номерами от 11 до
22 выбор сокращается до 3 разрядов (выбор одной из 7 шкал),
полосы с номерами от 23 до 26 предоставляют выбор одной из 3
шкал (2-битовый код), а полосы с номерами от 27 до 31 (выше
20 кГц) не передаются. Если шкалы квантования, выбранные для
всех блоков кадра, оказываются одинаковыми, то номер шкалы
передается только один раз.
4) Еще одно существенное отличие алгоритма второго уровня в
том, что не все масштабирующие множители передаются по
каналу связи. Если различие множителей трех последовательных
субкадров превышает 2 дБ не более чем в течение 10% времени,
передается только один набор множителей и это дает экономию
расходуемых битов. Если в данной полосе происходят быстрые
изменения уровня звука, передаются два или все три набора
масштабирующих множителей. Соответственно декодер должен
запоминать номера выбранных шкал квантования и
масштабирующие множители и применять их при необходимости
к последующему субкадру.

Основной недостаток кодеров второго уровня —


неэффективная обработка быстро изменяющихся переходов и
скачков уровня звука.
Структура аудиофрейма MPEG-1 Layer-1, Layer-2:

Каждый фрейм начинается с синхрослова-заголовка


(Header, 32 бита), т.е. с временного интервала, в котором
содержится информация для канала синхронизации.
Кодовое слово CRC (16 бит), следующее за заголовком,
защищает от ошибок часть информации фрейма.
За кодом CRC следуют данные по распределению битов
(BAL), информация о выборе масштабных коэффициентов
(ScFSI) и сами коэффициенты (ScF), а затем субполосные
выборки (Subband Samples), которые используются
декодером для реконструирования ИКМ звукового сигнала в
приемнике.
В конце каждого звукового фрейма находится поле
дополнительных данных (AD), которое имеет переменную
длину и может быть использовано для различных целей.
Структура цифрового сигнала при совместной передаче сигналов
изображения и звука (а) и структура цифровых данных аудиофрейма в
стандарте MPEG-1 Layer 1 (б) и MPEG-1 Layer 2 (в)

в)
3.2 Кодер MPEG ISO/IEC 11172-3 Layer 3

МДКП – модифицированное дискр. косинусное


преобразование
Упрощенная схема звукового кодера MPEG-1 Layer 3.

Особенности работы кодера MPEG-1 Layer 3:

1) Основной недостаток кодеров второго уровня —


неэффективная обработка быстро изменяющихся переходов и
скачков уровня звука — устраняется благодаря введению двух
видов блоков ДКП — «длинного» с 18 отсчетами и
«короткого» с 6 отсчетами.
Структурная схема гибридного банка фильтров кодеров стандартов ISO/IEC 11172-3
или 13818-3 Layer 3 (MPEG-1 Layer 3), (MPEG-2, Layer 3)
Типы оконных функций, используемых в гибридном банке
фильтров (а) и последовательность их переключения при
наличии всплеска в сигнале выборки
Выбор режима осуществляется адаптивно путем переключения
оконных функций в каждой из 32 частотных полос. Длинные блоки
обеспечивают лучшее частотное разрешение сигнала со
стандартными характеристиками, в то время как короткие блоки
улучшают обработку быстрых переходов. В одном кадре могут быть
как длинные, так и короткие блоки, однако общее число
коэффициентов ДКП не изменяется, так как вместо одного длинного
передаются три коротких блока.
2) Для улучшения кодирования применяются также следующие
усовершенствования:
1. Неравномерное квантование (квантователь возводит отсчеты в
степень 3/4 перед квантованием для улучшения отношения сигнал-
шум; соответственно, декодер возводит их в степень 4/3 для обратной
линеаризации).
2. В отличие от кодеров первого и второго уровней, на третьем
уровне масштабирующие множители присваиваются не каждой из 32
частотных полос БФ, а полосам масштабирования — участкам спектра,
не связанным с этими полосами и примерно соответствующим
критическим полосам слухового анализатора человека.
3. Энтропийное кодирование квантованных
коэффициентов кодом Хаффмана.
4. Наличие «резервуара битов» — запаса, который
кодер создает в периоды стационарного входного
сигнала.
Улучшение частотного разрешения при введении
дополнительного ДКП влечет за собой значительное
ухудшение временного разрешения, проявляющееся в
виде пред-эхо. В кодере имеются средства для борьбы с
этим явлением. Во-первых, ПАМ модифицирована для
обнаружения условий возникновения пред-эхо, во-
вторых, имеется резервуар неиспользованных битов, из
которого кодер может занять на короткое время
необходимые ему биты для снижения шумов
квантования, в-третьих, кодер может переключаться в
режим коротких блоков.
3) Существенное отличие кодера третьего уровня от кодеров
нижних уровней — сложный адаптивный алгоритм
распределения битов. Он включает две вложенные одна в
другую итерационные петли: внутреннюю — петлю скорости
потока, и внешнюю — петлю управления шумами
квантования. Расчет параметров кодирования начинается со
значения масштабирующего множителя, равного 1. Если в первый
момент скорость потока на выходе кодера Хаффмана превышает
заданную, увеличивается шаг квантования до тех пор, пока
скорость не войдет в заданные пределы. Далее рассчитывается
шум квантования в данной частотной полосе и сравнивается с
порогом маскирования, сообщенным психоакустической
моделью. Масштабирующий множитель изменяется таким
образом, чтобы сблизить эти значения. Однако новое значение
масштабирующего множителя означает изменение шага
квантования и, следовательно, скорости потока, а потому
внутренняя петля должна каждый раз отрабатывать и вычислять
новое значение коэффициента усиления и шага квантования.
Инициализационная часть Внутренний итерационный цикл
процесса квантования и алгоритма Layer 3 стандарта MPEG-1
кодирования коэффициентов
МДКП алгоритма MPEG-1 Layer 3
Внешний итерационный цикл алгоритма Layer 3 стандарта MPEG-1
Если итерационный процесс во внутренней петле всегда сходится,
то во внешней петле он может расходиться. Итерационный процесс
заканчивается в одном из трех случаев:
1. Шумы квантования во всех полосах масштабирования не
превышают допустимых.
2. Следующая итерация приведет к возрастанию усиления в
одной из полос выше допустимого.
3. Следующая итерация требует увеличения усиления во всех
полосах масштабирования.
В реальных кодерах накладывается еще и временное
ограничение.
4) Кодер третьего уровня более полно обрабатывает стереосигнал в
формате joint stereo. Если кодеры Layer 1 и Layer 2 работают только
в режиме кодирования по интенсивности, когда левый и правый
каналы в полосах выше 2 кГц кодируются как один сигнал (но с
независимыми масштабирующими множителями), кодер третьего
уровня может работать и в режиме «сумма-разность», обеспечивая
более высокую степень сжатия разностного канала.
Структура данных аудиофрейма стандарта MPEG-1 Layer 3

Здесь для каждого звукового кадра передаются заголовок,


дополнительная информация и основные данные, причем
неиспользованная часть области основных данных
предшествующих кадров (резервуар битов) может быть
заимствована последующим кадром, испытывающим нехватку
битов.
4. Алгоритм компрессии MPEG-2 ISO/IEC 13818-3

Следствием совместимости MPEG-2 с MPEG-1 в части


кодирования звука стало полное использование трехуровневой
системы, разработанной в MPEG-1.
Различия между стандартами начинаются при переходе от
двухканального звука, принятого за основу в MPEG-1, к
многоканальному звуку, поддерживаемому в MPEG-2.
Структурная схема кодека MPEG-2 (многоканальная конфигурация)
MPEG-2 специфицирует различные режимы передачи
многоканального звука, в том числе пятиканальный формат,
семиканальный звук с двумя дополнительными фронтальными
динамиками, применяемыми в кинотеатрах с очень широким
экраном, расширения этих форматов с низкочастотным каналом.
Варианты компоновки многоканального звукового сигнала
по Рекомендации BS.775

В числителе дроби указывается число фронтальных каналов, в знаменателе


число каналов, излучаемых сзади
Одной из разновидностей многоканального звука является
многоязычное звуковое сопровождение. Оно может
осуществляться либо передачей отдельного цифрового потока для
каждого языка, либо добавлением нескольких (до 7) языковых
каналов 64 кбит/с к многоканальному потоку 384 кбит/с.
Возможна передача дополнительных звуковых каналов для людей
с ухудшением зрения и слуха (с описанием сцены в первом случае
и отдельным каналом диалогов во втором).
Принцип обеспечения совместимости со стандартом MPEG-1

1) В кодере MPEG-2 сначала с помощью матрицы


формируются комбинированный двухканальный сигнал,
совместимый со стереосигналом MPEG-1, и набор
вспомогательных сигналов, не совместимых с ним и
служащих для восстановления многоканального сигнала
в декодере MPEG-2.
2) При кодировании двухканальный сигнал
укладывается в структуру пакетизированного
элементарного потока (PES) звука, совместимого с
MPEG-1, и может прочитываться соответствующим
декодером. Остальные компоненты после кодирования
размещаются в других структурных единицах цифрового
потока и доступны только декодеру MPEG-2.
Новшества стандарта MPEG-2 в сравнении с MPEG-1:
1) Расширен стандартный ряд частот дискретизации:
В дополнение к основному режиму с частотами
дискретизации 32, 44,1 и 48 кГц в MPEG-2 введен
низкоскоростной режим, так называемый LSR (Low
Sampling Rate) с пониженными вдвое частотами
дискретизации: 16, 22,05 и 24 кГц. Этот режим применяется
для передачи сигналов пониженного качества на очень
низких скоростях, например, при вещании по сети Интернет.
Оказывается, что на скоростях порядка 64 кбит/с
применение половинных частот дискретизации повышает
субъективное качество звучания речевого сигнала. Дело в
том, что связанное с этим отбрасывание высоких частот
почти не влияет на качество речи, а высвобождающиеся
ресурсы битов используются кодером для более точной
передачи нижней части звукового спектра.
Поскольку число частотных полос в любом случае
сохраняется равным 32, спектральное разрешение
оказывается более высоким. Например, при частоте
дискретизации 24 кГц ширина каждой из полос
составляет 375 Гц вместо 750 Гц при 48 кГц.
Институтом Фраунгофера в Германии предложено
дальнейшее понижение частот дискретизации до
8, 11,05, 12 кГц, позволяющее, по утверждению
разработчиков, улучшить качество воспроизведения
при сверхнизких скоростях цифрового потока. Это
расширение пока не вошло в стандарт, но некоторые
звуковые кодеры высоких уровней его поддерживают.
2) Совместимость MPEG-2 с Dolby Pro logic
Учитывая широкое распространение в мире системы Dolby Pro Logic и
совместимость ее с обычным стереоканалом, разработчики звукового стандарта
MPEG-2 заложили в алгоритм формирование стереосигнала в таком виде, как
его формирует указанная система. Владельцы декодера Dolby Pro Logic могут
теперь получить многоканальный сигнал двумя способами: либо
непосредственно с выхода декодера MPEG-2, либо подав комбинированный
стереосигнал (stereo downmix) с выхода более простого декодера MPEG-1 на
вход декодера Pro Logic, который выделит из него многоканальный сигнал.
Кодер и декодер стандарта MPEG-2
Структурная схема кодера MPEG-2 Layer 2
Структура данных аудиофрейма MPEG-2 Layer 2 при отсутствии
дополнительного расширения фрейма
Структура данных аудиофрейма MPEG-2 Layer 2 с дополнительным расширением
фрейма
5. Алгоритм компрессии MPEG-2 AAC
Одной из лучших современных систем сжатия звука признана
система ААС (Advanced Audio Coding усовершенствованная система
кодирования звука), специфицированная в седьмой части стандарта
ISO/IEC 13818. В отличие от других методов сжатия звукоданных,
принятых в MPEG-2, она не обладает свойством обратной
совместимости - декодеры MPEG-1 не могут декодировать сигнал ААС.
1) По своей эффективности ААС вдвое превосходит Уровень II и в 1,4
раза Уровень III стандарта MPEG-1. Высококачественное
воспроизведение звука достигается уже при скорости цифрового потока
96 кбит/с.
2) В стандарте поддерживается широкий набор параметров и
возможностей: частоты дискретизации от 8 до 96 кГц, моно- и
стереосигналы, три профиля — Основной (Main), Упрощенный (LC Low
complexity), Масштабируемый (SSR — Scalable Sampling Rate).
3) Одновременно может быть описано до 16 звуковых программ,
состоящих из большого числа сигналов звука и данных
(до 48 основных, 15 низкочастотных, 15 многоязычных каналов, 15
потоков данных).
4) ААС использует все средства цифрового сжатия: полосное
кодирование, неравномерное квантование, кодирование кодом
Хаффмана, итерационные алгоритмы распределения битов, но
улучшает алгоритм Уровня III во многих деталях и использует новые
эффективные средства кодирования для улучшения качества
звучания при очень низких скоростях.
Основные улучшения можно свести к следующим моментам :
1). Улучшено разрешение по частоте благодаря использованию 1024
частотных полос по сравнению с 576 в алгоритме Уровня III. При этом
короткие блоки имеют длину всего 256 отсчетов, что обеспечивает
эффективную обработку быстрых изменений звукового сигнала.
Переключение производится по результатам анализа поведения
входного сигнала во времени.
2). В Основном профиле применена оптимальная схема
предсказания назад, обеспечивающая более высокую эффективность
отработки изменений основного тона.
3). Применен более гибкий алгоритм кодирования в режиме joint
stereo, как в режиме кодирования по интенсивности, так и в режиме
«сумма-разность».
4). Применен улучшенный код Хаффмана, кодирование
четверками частотных линий применяется очень часто, что
дополнительно сокращает расход битов.
Структурная схема кодера MPEG-2 AAC
5) Новым элементом по сравнению с Уровнем III можно считать
функцию управления шумами во временной области (TNS —
Temporal Noise Shaping), позволяющую формировать огибающую
шума во временной области по предсказанию в частотной области.
Устройство осуществляет фильтрацию сигнала с выхода ДКП
набором из нескольких переключаемых фильтров и квантование
полученных групп отсчетов. Коэффициенты квантования
передаются в общем цифровом потоке декодеру, который
перераспределяет огибающую шума в реконструируемом сигнале
с учетом спектрального распределения энергии сигнала. Это
полезно при быстрых изменениях уровня звукового сигнала, когда
кодер не успевает переключить блок фильтров на обработку
коротких блоков и возникают искажения в виде пред-эхо.
6) Еще один новый механизм повышения эффективности
кодирования звука адаптивное предсказание текущего кадра по
предшествующему, широко используемое в кодировании
изображения. Оно чаще используется в технике кодирования речи
и более эффективно при низких скоростях потока.
Тестовые прослушивания показали, что алгоритм компрессии
ААС обеспечивает так называемое прозрачное кодирование при
скорости цифрового потока 64 кбит/с на канал. При звуковом
формате 5.1 искажения, вызванные компрессией, лежат ниже
порогов их слуховой заметности уже при суммарной скорости
цифрового потока 320...384 кбит/с.
6. Алгоритм компрессии MPEG-4 ISO/IEC 14496-3 (MPEG-4)

Это стандарт разработан для мультимедиа приложений,


охватывающих большое число известных мультимедийных
систем от несложных мобильных с упрощенными терминалами
оконечных устройств до вы-сококачественых профессиональных
звуковых систем. Он объединяет опыт, накопленный группой
MPEG при разработке всех рассмотренных выше алгоритмов
компрессии цифровых данных и алгоритмов компрессии речи, в
частности включает CELP-кодер.
В MPEG-4 впервые при компрессии цифровых данных
высококачественных звуковых сигналов предложено
использовать параметрическое кодирование, когда реальный
звуковой сигнал представляется в виде модели, содержащей
совокупность тональных и шумоподобных сигналов.
В информационной части стандарта MPEG-4 приведены две
психоакустические модели. Обе они могут быть использованы в
любом слое алгоритма MPEG-4.
Структурная схема алгоритма компрессии МРЕG-4
В случае использования алгоритма параметрического
кодирования исходный сигнал выборки s{n) в блоке
анализа-синтеза разделяется на тональные и
шумоподобные составляющие, далее для этой
базовой параметрической модели сигнала оцениваются
значения текущих частот, фаз и амплитуд тональных
сигналов и уровней энергии шумоподобных сигналов в
определенных полосах частот. Перечисленные
параметры квантуются и кодируются минимально
возможным числом битов. Требуемое для их
кодирования число битов определяется по
психоакустической модели.
На приемной стороне системы по этим параметрам
синтезируется исходный сигнал. До последнего времени
параметрическое моделирование использовалось
только при компрессии цифровых данных речевых
сигналов, более простых по своей структуре, чем
музыкальный сигнал. Однако в последние годы
благодаря успехам вычислительной техники,
математического моделирования, психофизики и
электроники параметрическое представление все чаще
начинает применяться и при кодировании
высококачественных звуковых сигналов, обеспечивая
более высокий уровень компрессии цифровых
данных.
Параметрическое кодирование, обладая очень
сложными процедурами оценки параметров и
требующее при реализации существенно больших
вычислительных затрат, позволяет получить скорость
цифрового потока 16...24 кбит/с при достаточно
хорошем качестве.
Упрощенная структурная схема кодера, использующего метод
параметрического кодирования звукового сигнала
Вторым альтернативным алгоритмом, обеспечивающим более
высокое качество, однако при большей скорости цифрового
потока, является алгоритм ААС (MPEG-2 ISO/IEC 13818-7), также
вошедший в этот стандарт.
Домашнее задание:

1) Повторить материал лекции;


2) Законспектировать:

1. Компрессия цифровых звуковых данных в системе


Dolby Digital (+2);
2. Компрессия цифровых звуковых данных в системе
DTS (+2);
3. Компрессия цифровых данных в системе SDDS (+2)

Оценить