Вы находитесь на странице: 1из 274

С. Н.

Ефимов ЦИФРОВАЯ
ОБРАБОТКА
ВИДЕОИНФОРМАЦИИ
учебное пособие

Щ-JsJ i
1шшщщт
# f
С. Н. Ефимов

ЦИФРОВАЯ ОБРАБОТКА
ВИДЕОИНФОРМАЦИИ

Рекомендовано УМО по образованию в области радиотехники,


электроники, биомедицинской техники и автоматизации
для межвузовского использования при подготовке студентов
по направлению подготовки 654200 «Радиотехника»
для специальности 210302.65(201500) - «Бытовая РЭА»

Москва, САЙНС-ПРЕСС,
2007
УДК 621.397
Е91
ББК 32.94

Учебное пособие

Серия:
«Радиоэлектронные средства бытового назначения»

Редакционный совет:
Смольский С. М., Румянцев К. Е., Артюшенко В. М.,
Кириллов А. В., Шелухин О. И. (председатель)

Ефимов С. Н.
Е91 Цифровая обработка видеоинформации. Учебное пособие для
вузов. - М.: САЙНС-ПРЕСС, 2007. - 272 е.: ил.

ISBN 5-88070-132-8

Изложены основные принципы аналого-цифрового преобразова-


ния, сжатия и кодирования видеоинформации в цифровых системах об-
работки, хранения и передачи. Рассмотрены фундаментальные методы
цифровой обработки видеоинформации и их практическая реализация в
современных стандартах. Большое внимание уделено современным
форматам представления видеоконтента: MPEG, M-IPEG, DVB, ISDB,
ATSC, DVD. Приведены сведения о помехоустойчивом кодировании и
способах оценки качества видеоинформации по объективным и субъек-
тивным показателям.
Для студентов радиотехнических специальностей вузов; может
быть полезно специалистам в области радио- и телекоммуникационных
систем.

ISBN 5-88070-132-8

УДК 621.397
ББК 32.844

© Ефимов С. Н., 2007


О САЙНС-ПРЕСС, 2007
ОГЛАВЛЕНИЕ

ПРЕДИСЛОВИЕ 6

Г Л А В А 1. П Е Р В И Ч Н Ы Е М Е Т О Д Ы
ЦИФРОВОЙ ОБРАБОТКИ ВИДЕОИНФОРМАЦИИ 8
1.1. Параметры аналого-цифрового преобразования
видеосигнала 8
1.1.1. Спектр видеосигнала 9
1.1.2. Структура видеосигнала монохромной системы 15
1.1.3. Структура полного цветного видеосигнала 17
1.2. Аналого-цифровое преобразование компонентного
видеосигнала 19
1.2.1. Дискретизация видеосигнала 19
1.2.2. Квантование видеосигнала 24
1.2.3. Цифровое кодирование 27
1.3. Аналого-цифровое преобразование композитного
видеосигнала 27

Г Л А В А 2. М Е Т О Д Ы С Ж А Т И Я В И Д Е О И Н Ф О Р М А Ц И И 29
2.1. Внутрикадровое кодирование 30
2.1.1. Дискретное косинусное преобразование 30
2.1.2. Вейвлет-преобразование 33
2.1.3. Групповое кодирование 39
2.1.4. Кодирование Хаффмана 41
2.2. Межкадровое кодирование 45
2.2.1. Дифференциальная импульсно-кодовая модуляция 45
2.2.2. Компенсация движения 47
2.3. Помехоустойчивое кодирование 48

Г Л А В А 3. М У Л Ь Т И М Е Д И Й Н Ы Е С Т А Н Д А Р Т Ы
СЖАТИЯ ВИДЕОДАННЫХ 59
3.1. Стандарт M-JPEG (основные этапы) 59
3.1.1. Представление цветового пространства 62
3.1.2. Субдискретизация компонентов цветности 63
3.1.3. Сегментация изображения 63
3.1.4. Дискретное косинусное преобразование 64
3.1.5. Квантование коэффициентов DCT 65
3.1.6. Кодирование 66
3.2. Семейство стандартов Н 69
3.2.1. Рекомендации Н.261 72
3.2.2. Рекомендация Н.262 79
3.2.3. Рекомендация Н.263 79
3.2.4. Иерархия алгоритмов обработки видеоинформации 80

ГЛАВА 4. С Е М Е Й С Т В О С Т А Н Д А Р Т О В MPEG 82
4.1. История развития семейства стандартов MPEG 82
4.2. Стандарт MPEG-1 84
4.3. Стандарт MPEG-2 85
4.3.1. Представление видеоданных в стандарте
MPEG-2 86
4.3.2. Устранение пространственной избыточности 91
4.3.3. Устранение временной избыточности 93
4.3.4. Профили и уровни стандарта MPEG-2 94
4.3.5. Основные типы искажений при цифровом
кодировании в стандарте MPEG-2 96
4.3.6. Системный уровень, потоки данных
и информационные таблицы стандарта MPEG-2 99
4.3.7. Принципы обеспечения синхронизации в MPEG-2 109
4.3.8. Интерфейсы для передачи потоков MPEG-2 112
4.4. Стандарт MPEG-4 114
4.4.1. Кодирование видеоинформации в стандарте
MPEG-4 116
4.4.2. Профили и уровни стандарта MPEG-4 123
4.4.3. Транспортировка потоков данных 127
4.5. Стандарт MPEG-7 129

Г Л А В А 5. Ц И Ф Р О В Ы Е С Т А Н Д А Р Т Ы
ТЕЛЕВИЗИОННОГО ВЕЩАНИЯ 136
5.1. Стандарт DVB 137
5.1.1. Основные этапы представления видеоинформации
в стандарте DVB 139
5.1.2. Стандарт DVB-T 147
5.1.3. Стандарт DVB-S 166
5.1.4. Стандарт DVB-C 168
5.2. Стандарт ATSC 172
5.2.1. Методы компрессии в стандарте ATSC 172
5.2.2. Методы модуляции в стандарте ATSC 175
5.3. Стандарт ISDB 195
5.3.1. Сервисные функции стандарта 1SDB 196
5.3.2. Параметры системы ISDB-T 202
5.3.3. Обработка данных и сигналов в системе ISDB-T 212
ГЛАВА 6. В И Д Е О И Н Т Е Р Ф Е Й С Ы 226
6.1. Цифровой параллельный интерфейс 226
6.2. Цифровой последовательный интерфейс 226
6.2.1. Мультиплексирование данных 227
6.2.2. Передача дополнительных данных 229
6.2.3. Проверка трактов последовательных цифровых
сигналов 233

ГЛАВА 7. Ц И Ф Р О В Ы Е Ф О Р М А Т Ы З А П И С И
ВИДЕОИНФОРМАЦИИ 237
7.1. Цифровые форматы магнитной видеозаписи 237
7.1.1. Формат D1 239
7.1.2. Формат D2 239
7.1.3. Формат D3 240
7.1.4. Формат D5 240
7.1.5. Формат D6 241
7.1.6. Формат Digital Betacam 241
7.1.7. Формат Betacam SX 243
7.1.8. Формат Digital-S (D9) 244
7.1.9. Формат miniDV 245
7.1.10. Формат DVCPRO (D7) 245
7.1.11. Формат DVCPRO 50 245
7.1.12. Формат DVCAM 246
7.1.13. Формат MPEG-IMX 246
7.2. Цифровые форматы оптической видеозаписи 249
7.2.1. Формат CD 250
7.2.2. Формат DVD 251
7.2.3. Технология XDCAM 256

ГЛАВА 8. О Ц Е Н К А К А Ч Е С Т В А Ц И Ф Р О В Ы Х
КОДИРОВАННЫХ ИЗОБРАЖЕНИЙ 259
8.1. Методы оценки качества видеоинформации 261
8.1.1. Субъективные измерения 261
8.1.2. Объективные измерения 263
8.1.3. Двухсторонние методы объективных измерений 263
8.1.4. Односторонние методы объективных измерений 265
8.2. Объективные методы измерения качества
видеоинформации 266
8.2.1. Среднеквадратическая ошибка 266
8.2.2. Метрики качества 268

ЛИТЕРАТУРА 271
ПРЕДИСЛОВИЕ

Цифровое преобразование статических и динамических изображений


широко используется в вещательном телевидении, видеоинтерфейсах и
системах хранения видеоинформации. Цифровые методы помимо обес-
печения высокого качества изображения при воздействии помех или
ошибок обладают такими преимуществами, как: повышение пропускной
способности каналов передачи информации; возможность защиты от не-
санкционированного доступа; надежность хранения и преобразования.
Настоящее учебное пособие посвящено рассмотрению цифровых
методов обработки сигналов изображения и представляет собой обоб-
щенный и переработанный материал, содержащийся в публикациях
периодической печати и представленный на сайтах в глобальной сети
Интернет.
Первая и вторая главы учебного пособия посвящены вопросам
первичной аналого-цифровой обработки и компрессии видеоинформа-
ции. Здесь даются сведения о спектральных характеристиках видеосиг-
нала, методах аналого-цифрового преобразования, внутрикадровом и
межкадровом кодировании. Одновременно рассмотрены вопросы поме-
хоустойчивого кодирования цифрового видеосигнала. Задача первой и
второй глав данного пособия состоит в подготовке студентов к воспри-
ятию сложных и специфических процессов видеокодирования, рассмот-
ренных в последующих главах.
В третьей главе рассматриваются вопросы цифровой обработки
видеоинформации в низкоскоростных системах. Основное внимание
уделено стандартам, лежащим в основе систем видеоконференцсвязи,
получающих в настоящее время все большее развитие как в нашей стра-
не, так и за рубежом, формируя при этом отдельную нишу в телекомму-
никационной сфере. Данный аспект обуславливает высокую степень ак-
туальности материала.
Четвертая глава отведена для детального рассмотрения стандар-
тов, входящих в семейство MPEG. Говорить о важности изучения дан-
ного материала излишне, поскольку доминирующая часть методов об-
работки, хранения и транспортировки цифрового видеоконтента осно-
вана именно на этом стандарте.
В пятой и шестой главах рассмотрены вопросы передачи цифро-
вого видеосигнала по эфирным и проводным каналам. Особое внимание
уделяется стандартам цифрового телевизионного вещания DVB, ATSC
и ISDB, а также последовательному видеоинтерфейсу SDI.
В седьмой главе дается обзорное описание методов записи и хра-
нения видеоинформации на магнитной ленте и компакт-носителях, как
для бытового, так и для профессионального использования.
Восьмая глава посвящена вопросам контроля качества цифровой
видеоинформации по субъективным и объективным показателям. Здесь
приведены основные понятия этого процесса и рассмотрены метрики
качества.
В целом, данное издание предназначено для помощи студентам
радиотехнической и телекоммуникационной направленности в освоении
методов и средств цифровой обработки видеоинформации.
Учебное пособие подготовлено на базе читаемых автором лекций
по дисциплине «Цифровая обработка аудио- и видеоинформации на ка-
федре «Радиотехника и радиотехнические системы» Московского госу-
дарственного университета сервиса.
Автор выражает благодарность зав. каф. «Радиотехника и ра-
диотехнические системы» засл. деятелю науки Российской Федерации,
докт. техн. наук, профессору О. И. Шелухину и всему профессорско-
преподавательскому составу кафедры за помощь в подготовке мате-
риалов учебного пособия, а также студентам старших курсов специ-
альностей 200700, 552500 и 201500 за участие в его апробации.
ГЛАВА 1. ПЕРВИЧНЫЕ МЕТОДЫ
ЦИФРОВОЙ ОБРАБОТКИ
ВИДЕОИНФОРМАЦИИ

Видеоинформация в аналоговом виде представляет собой временную


зависимость перепадов уровней составляющих изображений как внутри
кадра, так и от кадра к кадру. Основной задачей цифровой обработки
такой видеоинформации является представление перепадов уровней со-
ставляющих изображений в виде закодированных отсчетов при условии
сохранения структуры видеоряда.
К первичным методам цифровой обработки видеоинформации от-
носятся процедуры, характерные для аналого-цифрового преобразова-
ния любого сигнала, но с учетом характерных особенностей рассматри-
ваемого вида информации. Для решения задач цифровой обработки ви-
деосигнала и его адаптации к условиям передачи и хранения необходимо
принимать во внимание основные характеристики видеосигнала, опреде-
ляющие параметры аналого-цифрового преобразования, компрессии и
помехоустойчивости.

1.1. Параметры аналого-цифрового преобразования


видеосигнала
Видеосигнал является импульсным однополярным сигналом, как функ-
ция яркости, которая не может быть разнополярной. Он имеет сложную
форму, представляю[цуюся суммой постоянной и гармонических состав-
ляющих колебаний различных частот. Уровень постоянной составляю-
щей характеризует среднюю яркость передаваемого изображения. При
передаче подвижных изображений величина постоянной составляющей
будет непрерывно меняться в соответствии с освещенностью. С помощью
нижних частот спектра видеосигнала воспроизводятся крупные детали
изображения, а с помощью верхних частот - наиболее мелкие.
В процессе развертки яркость каждого передаваемого с помощью фо-
тоэлектрического преобразователя в данный момент времени элемента
преобразуется в импульс напряжения или тока. Величина видеосигнала,
получаемого на выходе фотоэлектрического преобразователя, является
функцией времени и пропорциональна яркости передаваемых элементов
изображения.
1.1.1. Спектр видеосигнала
Спектр видеосигнала содержит частотные составляющие в полосе от
/min д 0 Ушах и низкие частоты, Л/0 (в частотном интервале от нуля до
нескольких герц), необходимые для передачи средней, очень медленно
меняющейся составляющей сигнала. Поэтому границы спектра видео-
сигнала определяются как
А/ - = А/о + (/min •••/шах)" 0 D
При построчной развертке спектр видеосигнала от простейшего изо-
бражения (рис. 1.1) содержит низшую составляющую / min = \/Т п , равную
частоте кадров / я . Это нижняя граница спектра. Она сохраняется и при
передаче любого сложного изображения, что объясняется условиями по-
кадровой передачи изображения.

а) б)

Рис. 1.1. Простейшее изображение спектра видеосигнала


и его временная диаграмма
Сложнее определить верхнюю границу спектра.
Высокие частоты определяют тонкую структуру сигнала, т.е. вос-
произведение контуров и мелких деталей изображения. Структура сиг-
нала зависит как от скорости развертки, так и от размеров, формы и
«прозрачности» апертуры.
Если формат кадра к , число строк разложения z , номинальная
частота кадров fn, то:
число элементов в кадре Nn = Nzz = kz2 (вдоль строки растра укла-
дывается N2-kz элементов);
число элементов, передаваемых в одну секунду, N0 = Nnfn = kz'f„ ;
время передачи одного элемента изображения

', = 1 / 4 = 1 / ^ 7 , , ; (1.2)
верхняя граничная частота спектра
/max=l/2r,=fc2/„/2. (1.3)
Разрешение мелких деталей по вертикали из-за дискретности рас-
тра несколько снижается, поэтому при условии равенства горизонталь-
ной и вертикальной четкостей можно несколько сократить полосу час-
тот в соответствии с положением шага развертки по вертикали (в кадре)
АЛ = Л/z , АЯор1 - оптимального размера горизонтального элемента,
равного полупериоду частоты / т а х - Д Нор ,. Отношение ДЛ/ДЯор| назы-
вают коэффициентом Кэлла.
По данным субъективных экспертиз pAh = AHopl =0,42 ... 0,65 .
Принятые в большинстве стандартов значения коэффициента Кэлла
превышают эту величину, т.е. обеспечивают запас четкости по горизон-
тали. Величину \/р можно рассматривать как формат элемента изобра-
жения. С учетом коэффициента Кэлла верхняя граничная частота спек-
тра видеосигнала

0.4)
Вывод (1.4) сделан для
идеализированной развертки.
В действительности изо-
бражение развертывается в тече-
ние не всего периода строки Т2,
а только во время прямого хода
строчной развертки (1 - а) Tz,
где а - г с г и jTz -относительная
Рис. 1.2. Активная и пассивная части
телевизионного растра длительность строчного гасяще-
го импульса (рис. 1.2).
Время aTz затрачивается на возврат луча к началу последующей
строки.
При развертке по кадру, время /ЗТг затрачивается на возврат луча
к началу следующего кадра, где /? = гкги/7"„ - относительная длитель-
ность кадрового гасящего импульса.
Телевизионным стандартом задаются число строк z и частота кад-
ров fn, которые принято называть номинальными.
В действительности длительность кадра полезно развертываемых
(активных) строк г л = ( \ - [S)z, a Pz строк будет потеряно за время
обратного хода кадровой развертки. Реальное число строк, определяю-
щее четкость по вертикали получается, таким образом, ниже номиналь-
ного. Для отечественного стандарта номинальное число строк 625,
в действительности 575 строк, так как 50 строк приходится на обратный
ход по кадру.
Изменение соотношения длительностей прямого и обратного хода
кадровой развертки сказывается только на реальной четкости по верти-
кали и не влияет на скорость развертки и, следовательно, на воспроиз-
ведение мелкой структуры изображения, т.е. не сказывается на ширине
спектра сигнала изображения. Для сохранения одинаковыми четкости
по вертикали и горизонтали последнюю можно искусственно умень-
шить сокращением полосы частот в 1/(1 - /?) раз.
Иначе обстоит дело со строчной разверткой. Желая передать номи-
нальное число элементов в строке kz и сокращая длительность развертки
строки за счет длительностей обратного хода, надо расширить спектр ТВ-
сигнала. Тогда реальное время развертки одного элемента

где Tz=\/f2=\/fnz- Nz=kz.


В этом случае верхняя граничная частота спектра видеосигнала
pkz2fn
(
2(1-а)' '
т.е. она выше номинальной, так как величина а всегда положительна и
меньше единицы. Реальные четкости по горизонтали и вертикали, как
указано выше, выбираются одинаковыми, и спектр ограничивается пу-
тем сокращения полосы пропускания канала связи в 1/(1 - 0) раз, т.е.

J max ^ /1 \ ^ '
2(1 -а)
Подставив в уравнение (1.7) значения коэффициентов 0,8,
а = 0,18 и Р = 0,08, можно получить более простую формулу

Итак, сигнал яркости - сигнал широкополосный. Его спектр охва-


тывает полосу частот от / m i n до / т а х . Нижняя граница видеочастот
/rain = Л = 50 Гц.
Значение верхней границы видеочастот / т а х для построчной раз-
вертки подсчитаем, подставив значения параметров разложения:
к = 4/3 , z = 625 и / „ = 5 0 Гц в формулу (1.8)

0,9х(4/3)х625 2 х50
/шах = з = 11,7 МГц.

Как видно, при построчной развертке значение / ш достаточно вы-


соко и будет вызывать определенные трудности при передаче видеосигнала
по каналам связи. Для сужения полосы видеосигнала используется черес-
строчное разложение изображения, при котором каждое поле содержит
информацию о половине элементов изображения. При этом /„ = 25 Гц, а
верхняя граница видеосигнала принимает значение

0,9х(4/3)х625 2 х25
1
/max = у- *6 МГ
Ц•

Рассмотрим некоторые особенности спектра сигнала яркости.


Энергия спектральных составляющих сигнала быстро убывает с
ростом частоты (рис. 1.3), т.е. размах ВЧ-составляющих видеосигнала
Относительный уровень мощности, дБ обычно невелик. Поэтому в цвет-
0 ном телевидении именно в этом
участке видеоспектра располагают
цветовые поднесущие частоты -
влияние яркостного сигнала на
сигнал цветности будет незначи-
тельным. Из теоретического анали-
за спектра видеосигнала с учетом
законов развертки следует, что его
спектр дискретный, содержащий
О) 1 ю гармоники, кратные частоте повто-
/, МГц рения строк (рис. 1.4). Вокруг этих
гармоник строчной частоты груп-
Р И С Ь3 Ч
' . ^!!° ТН . М ..^1 СИ _ М0СТЪ . ЭНерГИИ пируются достаточно узкие полосы
спектральных составляющих
сигналов боковых частот, обуслов-
видеосигнала
ленных вертикальной (в данном
случае - кадровой) разверткой и движением деталей изображения. Гар-
моники строчной частоты со своими боковыми частотами образуют
дискретные зоны энергии, несущие информацию о передаваемом изо-
бражении. Такой характер спектра позволяет совместить два и более
спектра аналогичных сигналов.
Дискретные зоны энергии

Рис. 1.4. Дискретный спектр видеосигнала

Нетрудно представить, что если второй сигнал имеет такой же дис-


кретный спектр, но его отдельные зоны по частоте размещены в промежут-
ках первого, то оба сигнала можно передать в одном канале связи и затем
вновь разделить. Это свойство спектра видеосигнала использовано в цвет-
ном телевидении и в телевизионных измерительных устройствах.
При определенных сюжетах изображения боковые полосы соседних
гармоник строчной частоты могут пе-
mf. (т+Щ
рекрываться. При построчном разло-
жении (рис. 1.5) в кадре содержится
целое число строк ( / г = zfn) и каждая
строка повторяется каждый кадр. Это —~
значит, что расстояние между двумя РП
соседними линиями спектра гармоник fn /
строчной частоты кратно целому числу
Рис. 1.5. Спектр видеосигнала
/ „ . Поэтому при перекрытии спектров при построчном разложении
будет точное попадание друг на друга
боковых линий верхней боковой поло-
сы одной строчной гармоники и ниж-
ней боковой полосы последующей
гармоники строчной частоты.
При чересстрочном разложе-
нии гармоники четных полей попа-
дают в интервалы между гармоника-
ми нечетных полей (рис. 1.6). Рис. 1.6. Спектр видеосигнала
Импульсы сигнала яркости мо- при чересстрочном разложении
гут быть как одиночными, так и по-
вторяющимися. Периодичность импульсов сигнала определяется прин-
ципом его развертки. Если передается неподвижное изображение, сиг-
нал периодичен с частотой повторения кадров. Так как развертка произ-
водится строками, следующими друг за другом, то сигналу присуща пе-
риодичность с частотой повторения строк. При передаче движущегося
изображения содержание каждого последующего изображения мало от-
личается от предыдущего. Скорость смены кадров изображения значи-
тельно превосходит скорость движения изображений объектов передачи
по экрану. Это приводит к медленным изменениям периода повторения
компонентов сигнала.
Рассмотрим, как изменяется период повторения сигнала от изображе-
ния объекта, движущегося в направлении развертки строк со скоростью v.
Развертка в этом случае как бы догоняет уходящее от нее изображение, и
период повторения сигнала по строке увеличивается, т.е. новое значение
периода ТГ будет относиться к периоду строки ТТ как (1-v/v^) ' , где vt -
средняя скорость развертки по строке. Выразим частоту повторения сигна-
ла f[ через частоту строчной развертки f

( и
f \
f'z 1 - - (1.9)
V
г
V г x) l V J

Если положить наибольшую относительную скорость движения изо-


бражения объекта vmax = 2b , где Ь - длина строки, то наибольшее откло-
нение частоты сигнала от частоты развертки
t \
V
max = • / > m a x =
А/"пах ~\fz~fz |max ~ fz~ fг J = 2 Г ц

zb
fn
Эти изменения, наряду с изменениями среднего значения яркости
объекта, составляют низкие частоты спектра видеосигнала. Они лежат в
интервале от 0 до 2 ... 3 Гц и не передаются непосредственно в видеокана-
ле, а воспроизводятся косвенным методом.
В заключение стоит отметить, что значение / т а х однозначно опре-
деляет горизонтальную четкость изображения (по строке), так как
именно ВЧ-составляющие видеосигнала определяют качество передачи
мелких деталей объекта и резкость переходов между различными уров-
нями яркости. В то же время вертикальная четкость изображения зави-
сит только от числа строк в растре.
1.1.2. Структура видеосигнала монохромной системы
На рис. 1.7 приведен простейший пример преобразования яркости переда-
ваемого изображения в электрический сигнал (видеосигнал) для объекта,
содержащего вертикальные черно-белые полосы (в левой части строки), и
для градационного клина (справа).
Рис. 1.7. Передаваемое изображение и сигнал при развертке строки

Видеосигнал точно повторяет значения яркости каждой точки изо-


бражения на сканируемой строке. Изменению яркости от черного Lmm до
белого LMM соответствует изменение видеосигнала в диапазоне U4 ... U6.
Длительность импульсов сигнала яркости обратно пропорциональна
скорости передачи элементов, т.е. скорости развертки изображения. Струк-
тура полного сигнала яркости для произвольного объекта за период
строки TZ = 64 мкс (строчная осциллограмма видеосигнала) приведена
на рис. 1.8, а за период кадра (кадровая осциллограмма) - на рис. 1.9.
Видно, что видеоинформация передается только во время активной час-
ти строки и кадра, а в интервалах гасящих импульсов видеосигнал по-
давляется.

Uc Кон грольный уровень белого

10...15%
Уровень белого

Уровень гасящих импульсов


3...5%
4.7 мкс
.Уровень синхронтнрующих импульсов
12 мкс 64 мкс

Рис. 1.8 Форма видеосигнала за период строки


ПШГ'ПШ'Ш" ч "
1г - т 1
II
J 11. ii..., у .11III
...1.1
160 мкс

1.6 мс 20 мс
Рис. 1.9. Форма видеосигнала за период кадра

В сигнале различают: номинальный уровень белого, соответствую-


щий передаче нормированного белого в объекте; уровень черного, соответ-
ствующий наиболее темным элементам изображения; уровень гашения,
расположенный «чернее черного» на 0 ... 5% для запирания преобразова-
телей видеосигнала на время обратного хода развертывающих лучей; уро-
вень синхроимпульсов, расположенных на площадках гасящих импульсов,
в диапазоне «чернее черного».
Видеосигнал имеет фиксированные значения длительностей служеб-
ных импульсов:
строчный синхроимпульс г с с и = 4,7 мкс,
строчный гасящий импульс г с г и = 12 мкс,
кадровый синхроимпульс г к с и = 160 мкс ,
кадровый гасящий импульс г к г и =1600 мкс.
Если принять размах полного сигнала яркости (видеосигнал + син-
хросигнал) за 100 %, то полезная видеоинформация - от уровня гасящих
импульсов до уровня белого - занимает 70 % его амплитудного диапа-
зона, а сигнал синхронизации приемника - 30 %.
1.1.3. Структура полного цветного видеосигнала
Принцип передачи цветного изображения основан на так называемой
трехкомпонентной теории цветового зрения, согласно которой практи-
чески все цвета, существующие в природе, можно получить с помощью
смешения трех основных цветов - красного (red), зеленого (green), сине-
го (blue), - взятых в определенной пропорции (модель RGB).
Для воспроизведения цветного изображения необходимо передать
по каналу связи в полной полосе частот сигналы основных цветов Е'К,
E'G И Е'Н , полученные от цветной передающей камеры и подвергнутые
гамма-коррекции. Кроме того, для обеспечения совместимости по тому
же каналу связи должен быть передан сигнал, создающий на экране моно-
хромной видеосистемы черно-белое изображение цветного объекта. Этот
сигнал, называемый сигналом яркости Е'у, может быть получен либо
включением в состав цветной видеокамеры отдельной трубки, либо сфор-
мирован с помощью схем матрицирования в видеотракте, где сигналы ос-
новных цветов Е'к, Е'а, Е'п суммируются в определенном соотношении.
Математически яркостной сигнал можно представить в виде
Е'у = 0,299Е'к +0,587£с +0,114Е'в . (1.10)
При наличии сигнала E'Y , необходимого для реализации условия со-
вместимости с черно-белой системой, не требуется дополнительная пере-
дача по каналу связи всех трех сигналов Е'к , Е'а , Е'в. Достаточно передать
любые два из них, а информацию о третьем получить в декодирующем
устройстве вычитанием И З Насыщенность. %
Е'у двух других. Учитывая
свойства зрительного вос-
приятия, мелкие детали мо-
гут быть переданы в черно-
белом виде, что подтвер-
ждают графики рис. 1.10, из
которого видно, как падает
воспринимаемая зрительным
аппаратом насыщенность ос- Рис. 1.10. Зависимости насыщенности
новных цветов R , G , В с основных цветов от частоты
повышением частоты, тре-
буемой для передачи мелких деталей изображения.
Для зеленоокрашенных деталей цвет сохраняется с небольшим пони-
жением насыщенности практически до верхней частоты телевизионного
спектра, что позволяет значительно сократить требуемую общую полосу
частот цветного ТВ-тракта, передав сигнал яркости Е'у в полной полосе
частот, а два других сигнала, например, Е'к и Е'в, в существенно сокра-
щенной. Кроме этого, поскольку сигнал Е'у несет полную информацию о
яркостных соотношениях передаваемых элементов изображения, она мо-
жет бьггь в значительной степени исключена из двух других передаваемых
сигналов. Поэтому по каналу связи передают три сигнала - яркостной Е'у
и два из трех цветоразностных сигналов:
F' = £R -E'y
F' = E'G -E'y
^B-Y = £B -E'y
Из трех цветоразностных сигналов по каналу связи принято пере-
давать сигналы Е'Я_Y и Е'ВЛ, имеющие в результате преобразования
(1.10) наилучшее отношение сигнал/шум в приемном устройстве. Тре-
тий цветоразностный сигнал получается из первых двух в соответствии
с выражением
Eq,y = -0,5 IZsr.Y - 0,19EgB-Y • (1.12)
По каналу связи полная телевизионная информация о цветовом объ-
екте передается с помощью трех сигналов: сигнала яркости Е'У и цветораз-
ностных сигналов E'R_Y И E^y называемых сигналами первичных цветов
передачи. (Цветоразностные сигналы часто называют сигналами цветности,
что не совсем точно, так как информация о яркости из них исключена не
полностью.) Значения сигналов E'R_Y и зависят от значения сигнала
яркости Е'у. Сигналами истинной цветности являются относительные
значения цветоразностных сигналов E'R_Y/E'Y и E'LL Y/E'Y , не зависящие от
яркости.

1.2. Аналого-цифровое преобразование компонентного


видеосигнала
Видеосигнал представляет собой двумерный процесс. На рис. 1.11
представлена часть кадра размером 64x48 пикселей с градиентной
монохромной заливкой от левого верхнего угла до правого нижнего.
Потенциальный рельеф сигнала яркости данного изображения приведен
на рис. 1.12.

60

Рис. 1.11. Изображение Рис. 1.12. Потенциальный рельеф


в виде монохромной градиентной сигнала яркости изображения
заливки рис. 1.11
1.2.1. Дискретизация видеосигнала
Изображение по вертикальной оси уже является дискретным вследствие
разложения на строки, поэтому для получения двумерной дискретиза-
ции достаточно выполнить одномерную дискретизацию видеосигнала
по каждой строке. Отсчеты яркости Y и цветности CR и С в берутся в
моменты времени, отделенные друг от друга интервалом, называемым
интервалом дискретизации. Величину, обратную интервалу между от-
счетами, называют частотой дискретизации. Чем меньше интервал
дискретизации и, соответственно, выше частота дискретизации, тем
меньше различия между исходным сигналом и его дискретизированной
копией.
Частота дискретизации вы-
бирается, исходя из теоремы Ко-
тельникова: / д > 2/ в (где / в -
верхняя граничная частота спек-
тра сигнала), а принимая во вни-
мание условие получения одина-
ковой разрешающей способности
видеосистемы по горизонтали и
по вертикали, подход к получе-
нию частоты дискретизации ви-
деосигнала справедлив как для Рис. 1.13. Продискретизированный
традиционного, так и простран- потенциальный рельеф сигнала
ственного представления. На яркости изображения
рис. 1.13 представлен потенци-
альный рельеф дискретизирован-
ного сигнала яркости изображе-
ния, приведенного на рис. 1.11.
При соблюдении условия
выбора частоты дискретизации,
установленного теоремой Котель-
никова, побочные спектры, сдви-
нутые относительно исходного по
горизонтали и по вертикали на ве-
личину / д , не пересекаются ни
между собой, ни с основным спек-
тром (рис. 1.14). В этом случае
возможно безыскаженное восста- Рис. 1.14. Пространственный спектр
новление исходного изображения изображения при условии соблюдения
интерполирующим пространствен- теоремы Котельникова
ным фильтром. В противном случае
спектры перекрываются (рис. 1.15),
что ведет к появлению перекрест-
ных искажений.
Рекомендация ITU-R ВТ.601
определяет одинаковую схему дис-
кретизации для 625- и 525-строч-
ного стандартов (625-строчная:
864Fh = 13,5 МГц; 525-строчная:
858/-; = 13,5 МГц). Частота 13,5 МГц
является уникальной ввиду одно-
временной кратности частоте строк
как при 625-строчном, так и при
Рис. 1.15. Пространственный спектр 525-строчном разложении. В каче-
изображения при условии несоблюде-
стве условной единицы (базовой для
ния теоремы Котельникова
иерархии цифровых форматов), со-
гласно рекомендации ITU-R ВТ.601, принимается частота 3^=3,375 МГц.
Соотношение частот дискретизации яркостного и цветоразностных
сигналов в единицах базовой частоты дает название формата дискретиза-
ции (4:4:4, 4:2:2, 4:2:0, 4:1:1, и т.д.) (рис. 1.16). Здесь значком «*» отмечен
случай для формата дискретизации 4:2:0. Имеется в виду, что в зависимо-
сти от четного или нечетного номера строки, будет справедлив тот или
иной вариант. Данная расшифровка не распространяется на формат дискре-
тизации 4:2:0 MPEG-2.
Формат дискретизации 4:2:2 (рис. 1.17,6) считают базовым при оцен-
ке других вариантов дискретизации. В нем частота дискретизации для яр-
Чисю отсчетов сигнала яркости
альфа-канала. приходящегося на опорное
число от счет он сигнала яркости
Я ПрСЛС.ГОХ (МНОЙ строки

Число ОГСЧСГОВ ШК-ТорОШ


' ТКЛНОТО с инею
(или красного)*. приходяшнхея на опорное
число отсчетов сир на та яркости
в пределах одной строки
Чисто отсчетов шеторшностного красно! о
(или синею)*. приходящихся на опорное
число отсчетов сигналя яркости
я пределах одной строки
Опорное число отсчетов сит htlij яркости
и нрелс;шх o.ittoii строки

4:2:2:4
Рис. 1.16. Расшифровка кода, обозначающего формат дискретизации
сигнала изображения
костного сигнала равна 13,5 МГц, для цветоразностных сигналов -
6,75 МГц . В этом формате 4:2:2 существует возможность представить без
искажений сигнал яркости в полосе до 5,75 МГц, а цветоразностные сиг-
налы - в полосе до 2,75 МГц (с учетом защитного интервала между гра-
ничной частотой сигнала).
4:4:4 4:2:2

ФОФОФОФО ©ооо^ооо
еоеоеоео еоооеооо
ФОФОФОФО ©оооеооо
©оео©оео ©оооеооо
ФОФОФОФО ©оооеооо
©оеоеоео ©оооеооо
ФОФОФОФО ©ооо@ооо
еоеоео©о ©оооеооо
в) г)
^ ^ - отечет сигнала яркости Y

- отсчет сигнала цветоразностного красною C'r

СИЗ - отсчет сигнала цветорачносгного синего Св

Рис. 1.17. Структура макроблока изображения при форматах дискретизации:


а - 4:4:4; б - 4:2:2; в - 4:2:0; г - 4:1:1
Частоты дискретизации представляют гармоники строчной частоты,
что обеспечивает неподвижную ортогональную структуру отсчетов сигнала
изображения. Полная скорость передачи цифрового компонентного видео-
сигнала в формате 4:2:2 при 10-битном квантовании составляет
10 битxl3,5 МГц +10 битх6,75 МГц + 10 битх6,75 МГц =
= 270 Мбит/с.

Величину скорости цифрового потока видеоданных также можно по-


лучить, зная число передаваемых в единицу времени яркостного и цвето-
разностных элементов изображения. Полное число отсчетов яркости в
строке равно 864, а число отсчетов каждого цветоразностного сигнала -
432. Принимая во внимание число строк в кадре - 625 и частоту кадров -
25 Гц, можно получить скорость потока данных
864 х 625 х 1 Обит + 432 х 625 х Юбит + 432 х 625 х 1 Обит х 25Гц =
= 270Мбит7с.

При анализе систем аналого-цифрового преобразования сигналов


изображения следует учитывать, что в формате 4:2:2 за время активного
участка строки формируется 720 отсчетов сигнала яркости и 360 отсчетов
каждого цветоразностного сигнала, а активная часть кадра составляет
576 строк.
Формат дискретизации 4:2:2 используется в большинстве цифровых
видеосистем (D-l, D-5, Betacam SX, Digital-S, DVCPRO 50, MPEG-2 422
P@ML и т.д.), в которых необходимо обеспечить компромиссное соотно-
шение качества изображения и скорости цифрового потока видеоданных.
Основные характеристики формата дискретизации 4:2:2 для двух типов
разложения изображения приведены в табл. 1.1.
Формат дискретизации 4:4:4 (рис. 1.17^г) предполагает использование
частоты 13,5 МГц для всех трех компонент Y , CR и С в . Это означает,
что все компоненты передаются в полной полосе. Для каждой компоненты
в активной части кадра оцифровывается 576 строк по 720 элементов. Ско-
рость цифрового потока в этом случае при 10-битном квантовании состав-
ляет 405 Мбит/с.
Формат дискретизации 4:2:0 (рис. 1.17,в) предполагает изображение, в
котором яркостная компонента Y содержит в активной части кадра 576
строк по 720 отсчетов, а цветоразностные компоненты CR и С в - 288
строк по 360 отсчетов. Скорость передачи цифровой информации в форма-
те 4:2:0 при 10-битном квантовании составляет 202,5 Мбит/с. Формат
4:2:0 используется в стандартах DVCAM (625/PAL), JPEG, MPEG и Н.261.
(в стандарте MPEG-2 этот формат имеет несколько иную реализацию).
Таблица 1.1

Технические параметры 525/59,94 625/50


Сигнал яркости: Y (без синхроимпульсов)
Кодируемые сигналы Цветоразностные сигналы: CR и С в
Ортогональная, периодическая по строкам и
полям, отсчеты C R и С в в каждой строке
Структура дискретизации
совмещены с нечетными (1, 3, 5, и т.д.) от-
счетами Y
Частоты дискретизации:
сигнала яркости Y 13,5 МГц
каждого из сигналов
CR и С в 6,75 МГц
Число цифровых активных
строк 507 576
Цифровой вертикальный Строки Строки
интервал гашения:
поле 1 1...10 624...23
поле 2 264...273 311...336
Число отсчетов в цифровой
активной части строки:
сигнала яркости Y 720
каждого из сигналов
С„ и С в 360
Число отсчетов в аналоговой
активной части строки:
сигнала яркости Y 714 702
каждого из сигналов
CR и С в 355 350
Полное число отсчетов
в строке:
- сигнала яркости Y 858 864
- каждого из сигналов
CR и С в 429 432

Число бит на отсчет 8 или 10


Использование кодовых слов Уровни с 1 по 254 отведены для видеосигна-
(в восьмибитовых уровнях) ла, уровни 0 и 255 - зарезервированы для
синхронизации
Формат дискретизации 4:1:1 (рис. 1.17,г) предполагает двукратное
уменьшение частоты дискретизации цвсторазностных сигналов (в сравне-
нии со стандартом 4:2:2). Яркостной сигнал Y дискретизирустся с часто-
той 13,5 МГц, а цветоразностные (C R и С в ) - с частотой 3,375 МГц. Это
означает и двукратное уменьшение горизонтального разрешения в цвете. В
активной части кадра передается 576 строк, каждая из которых содержит
720 элементов сигнала яркости и по 180 элементов - цвсторазностных сиг-
налов. Данный формат нашел применение в форматах цифровой видеоза-
писи DVCPRO и DVCAM (525/NTSC).
1.2.2. Квантование видеосигнала
Квантование видеосигнала представляет собой замену величины отсче-
та сигнала его ближайшим значением из набора фиксированных вели-
чин - уровней квантования. Другими словами, квантование - это ок-
ругление величины отсчета.
Уровни квантования делят весь диапазон возможного изменения
значений сигнала на конечное число интервалов - шагов квантования.
Расположение уровней квантования обусловлено шкалой квантования.
Используются как равномерные, так и неравномерные шкалы. На
рис. 1.18 показана квантованная версия исходного сигнала (рис. 1.11),
полученная с использованием равномерной шкалы квантования. Иска-
жения сигнала, возникающие в процессе квантования, называют шумом
квантования (рис. 1.19).

60 60
Рис. 1.18. Квантованная версия Рис. 1.19. Шумовая составляющая
исходного сиг нала (рис. 1.11) процесса квантования
изображения

При инструментальной оценке шума вычисляют разность между ис-


ходным сигналом и его квантованной копией, а в качестве объективных
показателей шума принимают, например, среднеквадратичное значение
этой разности. В отличие от флуктуационных шумов шум квантования

\
коррелирован с сигналом, поэтому шум квантования не может быть устра-
нен последующей фильтрацией. Шум квантования убывает с увеличением
числа уровней квантования. Если еще несколько лет назад вполне доста-
точным казалось использовать 256 уровней для квантования видеосигнала,
то сейчас считается нормой квантовать видеосигнал на 1024 уровня.
При восьмибитном (256-и уровневом) квантовании уровню черного
сигнала яркости соответствует 16-й уровень, а номинальному уровню бело-
го - 235-й уровень квантования. Шестнадцать уровней квантования снизу и
двадцать уровней квантования сверху образуют резервные зоны на случай
выхода значений аналогового сигнала яркости за пределы номинального
диапазона. Особые назначения имеют 0- и 255-й уровни квантования. С
помощью соответствующих им кодов передаются сигналы синхронизации.
В этом случае аналого-цифровое преобразование сигнала яркости описыва-
ется соотношением
Y = 219£у +16. (1.13)
При квантовании цветоразностных сигналов также предусмотрены
резервные зоны - по 16 уровней квантования сверху и снизу. На АЦП по-
ступают не сами сигналы Е'кл и Е'вл, а компрессированные цветоразно-
стные сигналы, формируемые в соответствии с выражениями:
£cr=0,713^.y; (1.14)
£cb=0,564£b.y; (1.15)
причем значения сигналов Еск и Есв изменяются в диапазоне-0,5...0,5 В.
Аналого-цифровые преобразования цветоразностных сигналов, в ре-
зультате которых получаются цифровые цветоразностные сигналы CR и
С в , выполняются по следующим соотношениям:
CR =224£[, r +128 = 159,712£r. y +128 « 160£r_y +128 ; (1.16)
С в = 224Е'св +128 = 126,336£B.Y +128 »126£^ Y +128. (1.17)
Так как цветоразностные сигналы являются двуполярными, и мак-
симальные отклонения от нулевого значения в положительную и отри-
цательную стороны примерно одинаковы, 128-й уровень квантования
должен соответствовать нулевому значению этих сигналов. На рис. 1.20
показано соответствие между уровнями аналоговых телевизионных
сигналов и уровнями квантования для обычного тестового изображения
в виде восьми цветных полос (color bars).
В последние годы все шире применяется квантование яркостного и
цветоразностных сигналов с помощью 10-разрядных АЦП, что дает
1024 уровня квантования.
1,000 255(11111111)
0,922 2.15(11101011)

0,063 16(00010000)
0 0(00000000)
С « ,
1.000 255(11111111)
0,941 240(11110000)

0,502 128(10000000)

0.063 16(00010000)
О 0(00000000)

1,000 255(11111111)
0.941 240(11110000)

0,502 128(10000000)

0.063 16(00010000)
О 0(00000000)

Рис. 1.20. Соответствие уровней аналоговых телевизионных сигналов


и уровней квантования

В состав цифрового телевизионного сигнала согласно Рекоменда-


ции ITU-R ВТ.601 входят синхросигналы. Перед началом активного уча-
стка каждой строки в конце строчного гасящего импульса передается
синхросигнал начала активной строки (НАС), а после окончания актив-
ного участка каждой строки в начале строчного гасящего импульса пе-
редается синхросигнал конца активной строки (КАС). Каждый из син-
хросигналов НАС и КАС содержит четыре байта.
Первый байт состоит из восьми двоичных единиц, что соответст-
вует десятичному числу 255 (в шестнадцатеричной записи FF). Сле-
дующие два байта равны нулю. Последний четвертый байт содержит
информацию о поле (четное или нечетное), синхросигнале (какой имен-
но), а также он обеспечивает защиту от ошибок. При использовании
10-разрядного квантования вместо числа 255 используется число 1023.
Большая часть длительности строчного гасящего импульса между
синхросигналами НАС и КАС остается свободной, в это время можно
передавать различную информацию, например, преобразованные в
цифровую форму сигналы звукового сопровождения.
1.2.3. Цифровое кодирование
Квантованный сигнал, в отличие от исходного аналогового, может при-
нимать только конечное число значений. Это позволяет представить его
в пределах каждого интервала дискретизации числом, равным порядко-
вому номеру уровня квантования. В свою очередь это число можно вы-
разить комбинацией некоторых знаков или символов. Совокупность
знаков (символов) и система правил, при помощи которых данные пред-
ставляются в виде набора символов, называют кодом. Конечную после-
довательность кодовых символов - кодовым словом.
Квантованный сигнал можно преобразовать в последовательность ко-
довых слов. Эта операция и называется кодированием. Каждое кодовое
слово передается в пределах одного интервала дискретизации.
Цифровые сигналы описываются с помощью параметров, типич-
ных для аналоговой техники, например таких, как полоса частот, но их
применимость в цифровой технике является ограниченной. Важным по-
казателем, характеризующим цифровой поток, является скорость пере-
дачи данных. Если длина слова равна п, а частота дискретизации / д , то
скорость передачи данных, выраженная в числе двоичных символов в
единицу времени (бит/с), находится как произведение длины слова на
частоту дискретизации.

1.3. Аналого-цифровое преобразование композитного


видеосигнала
Композитный сигнал по системам PAL и NTSC дискретизируется с час-
тотой 4 / с , равной четвертой гармонике цветовой поднесущей. Рис. 1.21
иллюстрирует дискретизацию и квантование композитного телевизион-
ного видеосигнала. В системе NTSC строка содержит 910 отсчетов, из
которых 768 образуют активную часть цифровой строки. В системе PAL
на интервал аналоговой строки приходится нецелое число отсчетов с
частотой 4 / с . Это обусловлено тем, что в системе PAL помимо чет-
вертьстрочного сдвига используется дополнительный сдвиг частоты
поднесущей на частоту кадров.
1019 Уровни квантования

800

240 [—
Г- —1

4 U L n и

ИМИ 1 I Л-4/с
Рис. 1.21. Дискретизация и квантование композитного телевизионного
видеосигнала

Для сохранения непрерывного цифрового потока отсчетов, сле-


дующих с постоянной частотой 4 / с , в системе PAL длительность циф-
ровой строки принята не равной длительности аналоговой строки. Все
строки поля (за исключением двух) содержат по 1135 отсчетов, а две -
по 1137. Длина кодового слова - десять бит (в первоначальном варианте -
восемь). Необходимость цифрового кодирования фронта и среза син-
хроимпульсов композитного аналогового сигнала приводит к тому, что
для диапазона от номинальной величины черного до номинального бе-
лого выделяется примерно на 30 % меньше уровней квантования, чем
для сигнала в компонентной форме. Скорость передачи данных для
цифрового сигнала в системе NTSC составляет 143 Мбит/с, а в системе
PAL - 177 Мбит/с .
ГЛАВА 2. МЕТОДЫ СЖАТИЯ
ВИДЕОИНФОРМАЦИИ

Изображения, типичные для телевидения и видеотехники, обладают зна-


чительной статистической избыточностью. Большая часть изображения
одного кадра обычно приходится на поля, имеющие постоянную или ма-
ло меняющуюся в пространстве яркость, а резкие световые переходы и
детали малых размеров занимают малую долю площади изображения.
Коэффициент корреляции соседних элементов изображения близок к
единице, поэтому, зная яркость одного элемента можно с высокой степе-
нью вероятности предсказать значение соседнего. Другими словами раз-
личие в вероятности появ- a)(L)
ления тех или иных уров-
ней яркости невелико, что
поясняет рис. 2.1, на кото-
ром приведен характер из-
менения плотности распре- I
деления вероятности зна-
чений яркости CO(L) ис- Рис. 2.1. Плотность распределения вероятности
ходного изображения. Та- значений яркости исходного изображения
кого рода избыточность называется пространственной избыточностью
изображения. Она устраняется путем применения к блокам изображения
определенного размера ортогонального преобразования, позволяющего
из массива коррелированных элементов изображения получить меньший
по размерам массив коэффициентов преобразования, по которым воз-
можно восстановить изображение.
Изображения соседних кадров обычно очень похожи друг на дру-
га, даже при съемке быстро движущихся объектов. Переходы от сюжета
к сюжету встречаются редко и, следовательно, можно по распределе-
нию яркости в одном кадре с высокой степенью точности предсказать
распределение яркости следующего кадра. Эта предсказуемость указы-
вает на временную избыточность изображения, которая устраняется
путем межкадрового предсказания и формирования вектора движения,
также подвергающегося кодированию.
Устранение пространственной и временной избыточности является
основой сжатия видеоинформации.
2.1. Внутрикадровое кодирование
Цель внутрикадрового кодирования - сокращение пространственной
избыточности в пределах кадра (или поля) телевизионного изображе-
ния, вызванной сильными корреляционными связями между элемента-
ми изображения. Если найти соответствующее ортогональное преобра-
зование, можно преобразовать массив отсчетов изображения в матрицу
коэффициентов, которые не будут коррелированны друг с другом, при-
чем можно подобрать такое преобразование, где для типичных изобра-
жений большая часть коэффициентов матрицы будет иметь практически
нулевые значения, а исключая эти коэффициенты возможно также со-
кратить и цифровой поток.
Среди ортогональных преобразований наиболее широко использу-
ется DCT (Discrete Cosine Transform - дискретное косинусное преобра-
зование).
2.1.1. Дискретное косинусное преобразование
Дискретное косинусное преобразование представляет собой разновид-
ность преобразования Фурье и, так же как и оно, имеет обратное преоб-
разование.
Графическое изображение можно рассматривать как совокупность
пространственных волн, где оси х и у совпадают с шириной и высотой
картинки, а по оси z откладываются значения яркости или цветности
соответствующего пикселя изображения. Процесс DCT позволяет пере-
ходить от пространственного представления картинки к ее спектраль-
ному представлению и обратно. Воздействуя на спектральное представ-
ление картинки, состоящее из «гармоник», т.е. отбрасывая наименее
значимые из них, можно балансировать между качеством воспроизведе-
ния и степенью сжатия

*- 1 Л М г
(2х+1]in (2>-И)./7г
cos ,(2.1)
1=0 у=0 ' 2N 2N

где

с( .у.) = | 1Л / 2 , при i,j = 0; (22)

[1, при/',у>0.

Процесс DCT (2.1) преобразует матрицу пикселей размером NX N


в матрицу частотных коэффициентов соответствующего размера. На
рис. 2.2 представлены базисные функции двумерного DCT для IV = S в
виде двуцветных картинок.
• • i n л п и н mi
0,0

• э о ю г о к м о
инйтшш

Рис. 2.2. Базисные функции двумерного дискретного


конусного преобразования

Выражение для обратного преобразования матрицы «гармоник»,


применяемое при распаковке изображения записывается в виде
j N-1 N-1

/•=О j=о
(2х+ \)in (2у + 1)7>
xcos cos (2.3)
2N 2N

В полученной в результате DCT матрице частотных коэффициен-


тов (рис. 2.2.) низкочастотные компоненты расположены ближе к лево-
му верхнему углу, а высокочастотные - справа и внизу. Это важно по-
тому, что большинство графических образов состоит из низкочастотной
информации. Высокочастотные компоненты не так важны для передачи
изображения.
Таким образом, DCT позволяет определить, какую часть информа-
ции можно безболезненно выбросить, не внося серьезных искажений в
картинку.
Время, необходимое для вычисления каждого элемента матрицы
дискретного косинусного преобразования, сильно зависит от ее размера.
Одной из особенностей является то, что практически невозможно вы-
полнить дискретное косинусное преобразование для всего изображения
сразу. В качестве решения этой проблемы было предложено разбивать
изображение на блоки размером 8x8 элементов изображения.
Увеличивая размеры блока DCT, можно добиться некоторого увели-
чения результатов сжатия. Ограничения в коэффициенте сжатия объясня-
ются малой вероятностью того, что удаленные на значительное расстояние
точки изображения имеют одинаковые атрибуты. По определению DCT,
для его реализации требуется два вложенных цикла, тогда тело циклов бу-
дет выполняться N х N раз для каждого элемента матрицы DCT.
Значительно более эффективный вариант вычисления коэффици-
ентов DCT реализован через перемножение матриц. При таком подходе
формула DCT может быть записана в виде
DCT(г,у) = С(/, у) Р (г,У)С(/', j ) ' , (2.4)
гдеР(г',у) - исходная матрица отсчетов яркости или цветности разме-
ром NXN; С(/,у) - матрица косинусного преобразования размером
N x N , элементы которой определяются по формуле:

' при / = 0;
л/лГ
C(ij) = (2.5)
2 (2у + 1)г'ж
cos при i > 0,
•Jn 2N

где С(/,у)' — транспонированная матрица.


При перемножении матриц «цена» вычисления одного элемента
результирующей матрицы составляет JV умножений и А' сложений,
при вычислении матрицы дискретного косинусного преобразования -
2N соответственно. Что заметно повышает производительность. Так
как DCT является разновидностью
преобразования Фурье, то все мето-
0 1 2 3 4 5 6 7 ды ускорения преобразования Фу-
рье могут быть применены и в дан-
ном случае.
Процесс DCT представляет
собой преобразование информации
без потерь и не осуществляет ника-
кого сжатия. Напротив, он подго-
тавливает информацию для этапа
сжатия с потерями.
Представим наглядный при-
мер реализации процесса DCT над
Рис. 2.3. Исходный блок изображения блоком изображения, состоящим из
размером 8x8 пикселей 64 элементов ( 8 x 8 ) (рис. 2.3), в
пределах которого яркость меняется в горизонтальном направлении
скачком - от 100 единиц (уровней квантования) до нуля. Данный фраг-
мент может быть однозначно описан с использованием всего пяти коэффи-
циентов DCT:
постоянной составляющей и четырех амплитуд базисных функций
DCT с номерами или индексами пространственных частот горизонталь-
ного направления / х = 1, 3, 5, 7 .
Поскольку в вертикальном направлении яркость не меняется, то
амплитуды всех базисных функций с номерами (индексами) простран-
ственных частот вертикального направления ( f > 0 ) равны нулю.
Базисная функция с номером / ( / х = 1) одномерного DCT является
результатом дискретизации половины периода косинусоиды, сдвинутой
влево на половину интервала дискретизации. На интервал вычисления
одномерного DCT (8 пикселей) приходится один период дискретизиро-
ванной косинусоиды для базисной функции с номером 2 (/ х = 2), пол-
тора периода - для базисной функции с номером 3 (/ v = 3) и т.д.
Результатом DCT является массив действительных чисел, которые
могут быть положительными и отрицательными, что соответствует при-
сутствию в спектре базисных функций, суммируемых соответственно со
знаком плюс или минус.
На рис. 2.4 результаты DCT(.v.i')
DCT показаны дтя упрощения (too
по абсолютной величине, т.е. в 700
виде амплитудного спектра. 600
500
Суммирование постоянной со- 400
ставляющей и четырех базис- зоо Я . О /
ных функций, взятых с соответ- 2П0
ствующими амплитудами и
100
о, —
знаками (DCT(1,0), DCT(3,0), 0 1 2 3 4 ь Т X

DCT(5,0) и DCT(7,0)), по- Рис. 2.4. Пространственный амплитудный


спектр исходного блока изображения
зволяет восстановить исходное
распределение яркости при воспроизведении.
Таким образом, замена отсчетов сигнала коэффициентами DCT по-
зволяет значительно сократить объем записываемых данных.
2.1.2. Вейвлет-преобразование
Вейвлет-преобразование, так же как и дискретное косинусное преобразова-
ние, может использоваться в системах видеокомпрессии для сокращения
избыточности телевизионного изображения. Вейвлет-преобразование сиг-
нала можно рассматривать как представление сигнала в виде суперпозиции
некоторых базисных функций - волновых пакетов (Wavelet - маленькая
волна), особенностью которых является то, что все они получены из одной
прототипной волны путем растяжения (или сжатия) и смещения.
Прототипная волна может рассматриваться как импульсная реак-
ция базового фильтра. Тогда вейвлет-преобразование сведется к сово-
купности процессов фильтрации и децимации (рис. 2.5).
II этап

Рис. 2.5. Схема дискретного вейвлет-преобразования

Преобразуемый сигнал подвергается фильтрации с помощью


фильтров нижних и верхних частот, которые делят диапазон частот ис-
ходного сигнала на две половины. И низкочастотная, и высокочастотная
компоненты сигнала, полученные при фильтрации, имеют в два раза бо-
лее узкую полосу частотных составляющих. Поэтому в соответствии с
теоремой Котельникова они могут быть дискретизированы с частотой,
равной половине частоты дискретизации исходного сигнала, и сжаты.
Входной сигнал схемы (рис. 2.5) предполагается цифровым, поэтому
после низкочастотной и высокочастотной фильтраций с помощью циф-
ровых фильтров каждый второй отсчет может быть просто исключен,
что и означает децимацию или прореживание.
Как следует из схемы (рис. 2.5), на втором этапе преобразования
низкочастотная компонента вновь разделяется на низкочастотную и вы-
сокочастотную составляющие с помощью таких же фильтров, как на
первом этапе. После прореживания низкочастотная компонента может
вновь подвергнуться разделению на низкочастотную и высокочастот-
ную составляющие на третьем этапе преобразования.
Поясним сказанное на простейшем примере. Представим, что ис-
ходная последовательность отсчетов, например значений яркости пик-
селей на строке изображения, разбивается на пары отсчетов Lc(2k) и
Lf. +1), используя которые вычисляют две последовательности: по-
лусумму отсчетов (1-я группа):
v , w = M2*) + M2* + l) (2.6)

и полуразность отсчетов (2-я группа)

где значения, заключенные в скобки, представляют собой номера отсчетов.


Возврат от последовательностей v1 (£) и к отсчетам Lc (2к)
и /^-(2^ + 1) осуществляется следующим образом:

Lc{2k)=vl(k) +v
2
{k); (2.8)

Z.c (2А: +1) = v1 (Л:)- v2(А:). (2.9)


Пусть вейвлет-преобразованию подвергается строка, состоящая из
восьми пикселей, яркости которых равны: 120, 111, 112, 118, 117, 114,
110, 102. Следуя приведенному выше правилу, из исходной последова-
тельности будут получены две последовательности отсчетов v](k) и
v2(k), равные соответственно (115.5, 115, 115.5, 106) и (4.5, -3, 1.5, 4).
Характерной особенностью второй группы отсчетов v2 [к) является то,
что их значения близки к нулю. Кроме того, поскольку вторая группа
отсчетов содержит информацию об изменениях яркости, ее спектр со-
средоточен в области высоких пространственных частот, в то время как
спектр первой группы отсчетов сосредоточен в области низких про-
странственных частот. Таким образом, в результате вейвлет-преобра-
зования произошло разделение сигнала по спектру частот.
Рассмотренная операция может быть рекурсивно повторена по от-
ношению к v ' [ к ) , в результате чего исходная последовательность, со-
стоящая из восьми отсчетов, будет представлена уже тремя последова-
тельностями (115.25, 110.75), (0.25, 4.75), (115.5, 115, 115.5, 106).
(Обычно при использовании вейвлет-преобразований в алгоритмах сжа-
тия данных они рекурсивно повторяются несколько раз).
Аналогичным образом может быть реализован алгоритм при вейвлет-
преобразованиях двумерных данных, т.е. изображений. В этом случае изо-
бражение разбивается на группы размером 2x2 пикселя. Обозначая значе-
ния яркостей пикселей в группе: L(2k,2n), L(2k + \,2n), L(2.k,2n + \),
L(2k + l,2w + l ) , где кип - номер строки и столбца соответственно, бу-
дем иметь после преобразования для каждой группы по четыре компонента
v\k,n) = [Lc(2k,2n) + Lc(2k + \,2n)+Lc(2k,2n + \) + Lc(2k + \,2n +1)]/4;
(2.10)

v2 [к, п) = (2 к, 2п) + Lc(2k+Uw)-^ (2к,2п+ \)~ Lc(2k+ \,2п +1)]/4;


(2.11)

v3 (к, п) = (2к, 2п) - Lc (2к +1,2п)+Ц. (2к, 2п +1) - Lc (2к +1,2п +1)]/4 ;
(2.12)

v*(k,n) = [Lc(2k,2n)-Lc(2k + \,2n)-Lc(2k,2n+\) + Lc(2k+\,2n+\)]/4,


(2-13)
которые объединяются в четыре матрицы и обычно размещаются рядом
на одной плоскости (рис. 2.6,6). Суммарное число отсчетов, представ-
ленных матрицами преобразованного изображения, равно числу отсче-
тов в исходном изображении, т.е. размер исходного изображения
(рис. 2.6,а), и суммарный размер изображений, представленных полу-
ченными четырьмя матрицами, (рис. 2.6,6) одинаковы. Объясняется это
тем, что при вычислении компонентов v\k,n), v 2 (*,w), v3(k,n),
v4 (к,п) имеют место две последовательные операции:
первая операция - расфильтровка исходного изображения на че-
тыре частотных диапазона,
вторая операция - прореживание (децимация) результатов рас-
фильтровки, при котором в окончательных матрицах сохраняется каж-
дый второй отсчет по строке и каждый второй отсчет по столбцу.

v'OU) v2(k,n)

у
2
Г (к,п)

а) б)

Рис. 2.6. Иллюстрация алгоритма двумерного вейвлет-преобразования


На рис. 2.7,а приведено изображение, представленное массивом
Lc (к,п), а на рис. 2.7,6 - четыре изображения, соответствующие масси-
вам v '(£,«) (верхнеелевое), v2(k,n) (верхнее правое), v 3 (£,«) (нижнее
левое) и у 4 (£,и) (нижнее правое).

Рис. 2.7. Расфильтровка исходного изображения на четыре частотных


диапазона

Из рис. 2.6 и 2.7. видно, что массив (рис. 2.6,6) представ-


ляет собой уменьшенную копию исходного изображения (рис. 2.6,я),
представленную с половинным разрешением. Эта компонента разложе-
ния носит название аппроксимации.
Компоненты v2[k,n), v 3 (£,n) и v*(k,n) (рис. 2.6,6 и 2.7,6) содер-
жат резкие границы, ориентированные вертикально, горизонтально и
соответственно по диагонали. Добавление к аппроксимации компонент,
содержащих границы, восстанавливает исходное разрешение изображе-
ния. На рис. 2.6,6 показана ориентация контуров, передаваемых компо-
нентами v 2 ( £ , n ) , у 3 ( £ , л ) и v 4 ( £ , w ) .
Как уже было отмечено, при формировании вейвлет-компонентов
происходит расфильтровка исходного изображения на четыре частот-
ных диапазона и децимация результатов расфильтровки. В рассматри-
ваемых примерах расфильтровка осуществляется путем свертки исход-
ного изображения с импульсными функциями А, (к) и hu (к) в два
приема, сначала вдоль строк, а затем вдоль столбцов. При этом для
свертки используются известные формулы:
(N-\)J 2

v\k,n)= £ M * > " ' K ("-«'); (214)

Я'=-(ЛГ-|)/2

(ЛГ-!)/2
и 2 (*,я) = £ L^(k,ri)hH (n-ri), (2.15)
л'=-(ЛГ-1)/2

где jV — протяженность импульсной функции.


Восстановление исходного изображения из компонент, на которые
оно было разложено, осуществляется в обратном порядке: вначале в ка-
ждой из компонент разложения восстанавливаются удаленные отсчеты
путем интерполяции, а затем все компоненты суммируются.
В рассмотренных выше примерах использован простейший слу-
чай, в котором были использованы вейвлеты Хаара, при этом
М - 1 ) = 1; A L (0)=l; Al(1) = 1; Л н (-1) = 1; Л н (о) = 1; Лн(1) = - 1 . Одна-
ко в настоящее время в алгоритмах сжатия изображений, в силу при-
сущих этим вейвлетам ряда недостатков, они не применяются. Вместо
них применяют другие вейвлеты, в частности, в стандарте JPEG 2000
использованы \ (£) и hu (к), значения которых приведены в табл. 2.1.

Таблица 2.1
к К (*) М*)
0 1,115087052456994 0,6029490182363579
±1 0,5912717631142470 -0,2668641184428723
±2 - 0,05754352622849957 - 0,07822326652898785
±3 -0,09127176311424948 0,01686411844287495
±4 0 0,02674875741080976
±5 0 0

Обратимся теперь к рассмотрению метода сжатия данных на основе


вейвлет-преобразований применительно к случаю сжатия черно-белого по-
лутонового изображения. Метод заключается в том, что вначале сжимаемое
изображение рекурсивно подвергается обычно трехкратному вейвлет-
преобразованию путем последовательного применения его сначала к ис-
ходному изображению, в результате которого получаются четыре матрицы
отсчетов (коэффициентов), далее вейвлет-преобразование применяется к
аппроксимации, т.е. к матрице, представляющей размытую версию исход-
ного изображения (аппроксимацию), и, наконец, третий раз - к полученной
на втором этапе аппроксимации. Если вейвлет-преобразование осуществ-
ляется путем свертки, то после каждой операции свертки осуществляется
децимация полученной матрицы.
Полученные таким образом компоненты квантуются, причем вы-
сокочастотные компоненты квантуются на меньшее число уровней, а
низкочастотные - на большее число. Этот метод в значительной степени
похож на метод сжатия данных, используемый в JPEG, и отличается от
него лишь тем, что в JPEG квантованию на разное число уровней под-
лежат компоненты (спектральные коэффициенты), полученные в ре-
зультате DCT, в то время как в рассматриваемом методе на различное
число уровней квантуются компоненты, полученные в результате вейв-
лет-преобразований. И в том, и в другом случаях используется особен-
ность зрения, заключающаяся в том, что оно мало чувствительно к шу-
му квантования высокочастотных компонент изображения. Однако,
благодаря тому, что при использовании вейвлет-преобразований исход-
ное изображение не разбивается на отдельные блоки, в восстановлен-
ном после сильного сжатия изображении отсутствуют такие неприятные
артефакты (искажения), как заметность блочной структуры. Благодаря
тому, что высокочастотные компоненты квантуются на малое число
уровней, а их большинство, на их сохранение расходуется мало двоич-
ных единиц кода. Вследствие этого достигается сжатие цифрового по-
тока, которым представляется изображение.
При квантовании отсчетов компонент, полученных в результате
вейвлет-преобразований, на пониженное число уровней в них вносится
шум квантования (имеет место потеря информации), но если сжатие не
слишком велико (число используемых уровней квантования не слишком
занижено), то эти шумы на восстановленном изображении будут не за-
метны. Квантование отсчетов компонент осуществляется путем деления
матрицы отсчетов на матрицу квантования. Проквантованные отсчеты
подвергаются энтропийному кодированию аналогично тому, как это де-
лается в JPEG. В результате энтропийного кодирования получается до-
полнительное сжатие.
Результирующее сжатие данных, которое получается при исполь-
зовании данного метода, достигает 30...50 раз. При большом сжатии
данных этот метод также приводит к появлению артефактов на восста-
новленных изображениях в виде появления окантовок и посторонних
узоров, однако, они менее неприятны, чем артефакты, возникающие при
использовании других методов сжатия данных.
2.1.3. Групповое кодирование
Несмотря на давнее рождение группового кодирования RLE (Run Length
Encoding) как алгоритма сжатия несложных изображений и его нынеш-
нюю неэффективность в свете сложности (обилие мелких деталей, вы-
сокие битовые глубины) современных изображений, все-таки и сегодня
существует класс приложений, где использование RLE более оправдано,
нежели применение других алгоритмов. Оправданием служит простота
алгоритма RLE, а значит уменьшение финансовых (как впрочем, и ап-
паратных) затрат на исполняющие блоки некоторой контролирующей
системы.
Алгоритм RLE работает следующим образом.
Из входного потока извлекается байт. Если он был равен преды-
дущему извлеченному байту (соседние байты одинаковы), тогда просто
увеличивается на единицу внутренний счетчик повторов для данного
байта, а в выходной поток пока ничего не сбрасывается. Как только но-
вый извлеченный из входного потока байт отличается от предыдущего
байта, в выходной поток выбрасывается счетчик повторов, а затем по-
вторявшийся байт. Теперь уже начинает увеличиваться на единицу
внутренний счетчик неодинаковых байт (разнобоя). Когда же во вход-
ном потоке снова будет встречен фрагмент из одинаковых байт, тогда в
выходной поток сбрасывается счетчик разнобоя, а за ним целиком вся
последовательность неодинаковых байт. На рис. 2.8 для наглядности
изображено некоторое условное содержимое входного и выходного по-
токов (разнобой представлены серым фоном, повторы - белым, наклон-
ной штриховкой в выходном потоке обозначены поля счетчиков).
Входной ноток

132 121 131 131 131 131 131 155 155 155 82 202 202 202 202

Выходной поток
••
132 121 131 ш 155 82 Щ, 202
•ш Ш
Рис. 2.8. Входной и выходной потоки RLE-кодера

Итак, очевидно, что выходной поток состоит из «записей», причем


каждая начинается с поля счетчика. Поскольку «записи» могут быть только
двух типов - для разнобоев и для повторов, - а эти типы «записей» могут
встречаться в выходном потоке в самом непредсказуемом сочетании, то для
их точной идентификации в алгоритм RLE пришлось ввести однобитный
признак, определяющий, что именно описывает (разнобой или повтор)
встреченная «запись». Этот признак помещен в старший бит поля счетчика,
что при размере поля в 1 байт позволяет кодировать одной «записью» не
более чем 128 одинаковых или неодинаковых байт.
Если для хранения каждого элемента данных входной последова-
тельности отводится 1 байт, то вся последовательность будет занимать
15 байт памяти, тогда как выходная последовательность (сжатый вари-
ант) занимает 11 байт памяти.
Коэффициент сжатия, характеризующий степень сжатия информа-
ции вычисляется по формуле
А а Л в Ц б Л г я
SN 15 байт
где SX - объем памяти, необходимый для хранения выходной (результи-
рующей) последовательности данных; SN - объем памяти, необходи-
мый для хранения входной последовательности данных.
Чем меньше значение коэффициента сжатия, тем эффективней метод
сжатия. Понятно, что алгоритм RLE будет давать лучший эффект сжатия
при большей длине повторяющейся последовательности данных. В связи с
этим большая эффективность алгоритма RLE достигается при сжатии гра-
фических данных (в особенности для однотонных изображений).
2.1.4. Кодирование Хаффмана
Идея, лежащая в основе кода Хаффмана, достаточно проста. Вместо то-
го, чтобы кодировать все символы одинаковым числом бит, кодируют
символы, встречающиеся чаще, меньшим числом бит, чем те, которые
встречаются реже. Более того, следят за тем, чтобы код был оптимален
или, другими словами, минимально-избыточен.
Первым такой алгоритм опубликовал Дэвид Хаффман в 1952 г.
Алгоритм Хаффмана двухпроходный. На первом проходе строится
частотный словарь и генерируются коды, на втором проходе происхо-
дит непосредственно кодирование. Стоит отметить, что за 50 лет со дня
опубликования, код Хаффмана ничуть не потерял своей актуальности и
значимости. Код Хаффмана строится следующим образом:
битовые значения яркости или цветности элементов изображения
располагают в порядке убывания их вероятностей;
складывают вероятности двух последних элементов, и ряд перепи-
сывают снова с учетом новой вероятности (суммы). Далее повторяют
операцию, пока не получится единица;
нижний элемент всегда кодируют нулем, а верхний - единицей.
Задача построения кода Хаффмана равносильна задаче построения
соответствующего ему дерева. Приведем общую схему построения де-
рева Хаффмана:
составим список кодируемых элементов изображения с вышепри-
веденными требованиями расположения в соответствии с весовыми ко-
эффициентами;
из списка выберем два узла с наименьшим весом;
сформируем новый узел и присоединим к нему, в качестве дочер-
них, два узла, выбранных из списка. При этом вес сформированного уз-
ла положим равным сумме весов дочерних узлов;
добавим сформированный узел к списку, если в списке больше од-
ного узла, то процедуру необходимо повторить.
Более детально построение кода и дерева Хаффмана рассмотрим
на конкретном примере.
Пусть имеется числовой ряд битовых значений яркости или цвет-
ности 64-х элементов изображения:

139 140 132 137 132 139 136 137


138 129 135 129 136 135 133 131
133 133 134 134 131 133 132 132
133 131 130 131 130 130 131 131
130 130 130 130 129 129 130 130
129 129 130 130 130 130 130 129
130 129 129 129 129 130 130 129
129 129 129 129 129 129 129 129

Введем некоторые обозначения: элементы кодируемого списка обо-


значим - 139; веса узлов - 139 2 ; составные узлы заключим в скобки -
(139,+ 140,),.
Для преобразования исходного списка элементов в вероятностный
список подсчитаем число вхождений каждого элемента в список. Это
значение будем называть весовым коэффициентом. Тогда имеем
139, 140, 1324 137, 136, 138, 129,0 135, 1335 1316 134, 13017 .

Путем обобщения узлов и переформирования списка получим спи-


сок, состоящий из одного узла:
1.139,140,132 4 137,136,138,129, 0 135,133 5 131 6 134,130, 7 ;
2. (139, +140,), 132 4 137,136,138,129, 0 135,133 s 131 6 134,130, 7 ;

3. (139, +140,), 132 4 137, (136, +138,), 129, 0 135,133 5 131 6 134,130, 7 ;
4. (139,+140,), 1324 137,(136, +138,), 129,0 (135, +133 5 ) ? 1316 134,130,7;

5. (139, +140,), 1324137, (136, +138,), 129м (135, +133 5 ), (1316 +134,\ 130,7;

6. (139, +140,), 1324 (137, + (136, +138,),) 129,0 (135, +133 5 ) ?


(I31 6 +134,) g 130, 7 ;
7. (((1392 +140, ) 3 +132 4 ) 7 +(137 2 + (1362 +138, Ц ) ц 1 2 9 , 0

(1352 + 133 5 ) 7 (131 6 + 134 2 ) 8 130, 7 ;

8. (((1392 +140, )3 +132 4 ) 7 +(137 2 + (136, + Ш . Ц ^ 12920

((1352 + 1335)7 + (1316 + 134 2 ) 8 ) 15 130 17 ;

9. ((((139, +140, )3 +132 4 ) 7 + (137, + (136, +138, Ц ^ +

+ 129, e ) J2 ((135, + 133 5 ) 7 + (l31 t + 134,) s ) i5 130 17 ;

10. ((((139, +140,) 3 +132 4 ) 7 + (137, + (136, +138, Ц ) ^ +

+129 20 ) 32 (((135, +133 5 ) 7 + (131, + 1 3 4 2 Ц 5 +130,,)^;

11. (((((139, +140, ) 3 +132 4 ) 7 + (137, + (136, +138, ), Ц 2 +

+129, 0 )32 + (((135, +133 5 ) 7 + (131, +134, Ц 5 +130 I7 ) J ^ .

В списке, как и требовалось, остался всего один узел. Дерево


Хаффмана построено. Теперь его можно записать в более привычном -
графическом виде (рис. 2.9). Листовые узлы дерева Хаффмана соответ-
ствуют символам кодируемого списка. Глубина листовых узлов равна
длине кода соответствующих символов.

%2
139 140, 132*
132, 137, 136, 138,
13! |29
20 135, '« 5 'Ч 134, 130
17

Я
3 / VА
/ <1 I "з 1
AZ_
7
X/

f
Ы 5

L32

Рис. 2.9. Дерево Хаффмана


Путь от корня дерева к листовому узлу представим в виде битовой
строки, в которой ноль соответствует выбору левого поддерева, а единица -
правого. Используя этот механизм, присвоим коды всем символам коди-
руемого списка. Коды символов в рассмотренном примере:
139 = 00000; 140 = 00001; 132 = 0001 ; 137 = 0010;
136 = 00110; 138 = 00111; 129 = 01; 135 = 1000;
133 = 1001; 131 = 1010; 134 = 1011; 130 = 11.
Теперь заменим элементы исходного списка соответствующими
кодами

00000 00001 0001 0010 0001 00000 00110 0010


00111 01 1000 01 00110 1000 1001 1010
1001 1001 1011 1011 1010 1001 0001 0001
1001 1010 11 1010 11 11 1010 1010
11 11 11 11 01 01 11 11
01 01 И 11 11 И 11 01
11 01 01 01 01 11 И 01
01 01 01 01 01 01 01 01

и оценим степень сжатия исходного списка.


Изначально каждый символ списка был представлен восьми-
битным словом и следовательно общий размер списка составлял
8x64 = 512 бит. Размер закодированного списка (S) можно получить,
воспользовавшись формулой
N
(2.16)
/=1

где Wj и С, - соответственно весовой коэффициент и битовая длина ко-


да / -го элемента вероятностного списка .
Размер закодированного списка
S=2x5+1x5+4х4+2х4+2х5+1х5+20х2+2х4++5х4+
+6x4 + 2 x 4 + 17x2 = 188 бит.
Для декодирования списка надо, начиная с корня дерева, двигаться
вверх, выбирая левое поддерево, если очередной бит в потоке равен ну-
лю, и правое поддерево - если единице. Дойдя до листового узла, будет
декодирован соответствующий ему символ. Следуя этому алгоритму, в
итоге найдем исходный список.
Полученный код Хаффмана не является единственно возможным.
Его можно подвергать любым трансформациям без ущерба для эффек-
тивности при соблюдении всего двух условий:
коды должны остаться префиксными и их длины не должны изме-
ниться;
для того, чтобы закодированное сообщение удалось декодировать,
декодеру необходимо иметь такое же кодовое дерево (в той или иной
форме), какое использовалось при кодировании. Поэтому вместе с зако-
дированными данными необходимо сохранять соответствующее кодо-
вое дерево, и чем компактнее оно будет, тем лучше.

2.2. Межкадровое кодирование


Цель межкадрового кодирования - сокращение временной избыточно-
сти видеоизображений, вызванной сильными корреляционными связями
между соседними кадрами.
Если изображения двух соседних кадров очень похожи, то ско-
рость цифрового потока можно сократить, предсказывая текущий кадр
на основе предыдущего и передавая лишь разницу между действитель-
ным и предсказанным изображениями текущего кадра. Компенсация
движения основана на использовании ряда сложных алгоритмов.
Сфера, где данная технология сжатия эффективна, как правило,
сводится к видеоряду, в котором объект изменяет свое местоположение
относительно неподвижного фона. Объекты, изменяющиеся по форме,
приближающиеся или удаляющиеся (движущаяся камера), не подлежат
эффективному сжатию посредством алгоритма компенсации движения.
Сжатие возможно заданием вектора смешения элементов изобра-
жения вместо хранения больших значений новых координат данных
элементов изображения.
Основным блоком (относительно которого задается вектор смеще-
ния остальных блоков) может являться любой блок изображения разме-
ром 16x16 пикселей, максимально похожий на кодируемый (предсказы-
ваемый) блок, т.е. кадр, на который ссылаются таким образом другие
кадры, должен быть декодирован ранее. Однако совсем не обязательно,
чтобы опорный кадр предшествовал предсказываемому кадру.
2.2.1. Дифференциальная импульсно-кодовая
модуляция
Разностное изображение или ошибка предсказания обычно содержит
много нулевых областей, что позволяет обойтись при ее передаче
меньшим числом кодовых слов. Такой способ известен под названием
дифференциальной импульсно-кодовой модуляции (ДИКМ).
Схемы кодера и декодера ДИКМ показаны на рис. 2.10 и 2.11.

Рис. 2.10. Схема кодера ДИКМ

Рис. 2.11. Схема декодера ДИКМ

В качестве простейшего предсказателя можно использовать память


на кадр. Предсказание не должно осуществляться путем задержки на
кадр входного сигнала изображения, получаемого непосредственно от
источника, так как предсказание должно выполняться и в декодере, не-
доступному изображениям источника. Восстанавливаемые в декодере
изображения, которые только и могут использоваться для предсказания,
прошли процедуру квантования в процессе внутрикадрового кодирова-
ния и, следовательно, претерпели некоторые необратимые преобразова-
ния. Поэтому в кодер включены инверсный квантователь и инверсный
дискретный косинусный преобразователь, реконструирующие блок изо-
бражения точно так же, как и в декодере. С использованием именно ре-
конструируемого изображения формируются сигналы ошибки предска-
зания: ( / , - / ц ) , ( / 2 - / ( ) , г д е / 0 , / , , / 2 - сигналы исходной последова-
тельности кадров, Г0, /,' — сигналы предсказанных кадров.
Для первого кадра последовательности предсказание не может
быть сформировано, поэтому он должен подвергаться внутрикадровому
кодированию (можно также сказать, что сигналом ошибки предсказания
будет сам сигнал изображения первого кадра / 0 ).
2.2.2. Компенсация движения
До сих пор предполагалось, что при передаче некоторого блока изобра-
жения текущего кадра для предсказания используется блок предыдуще-
го кадра с теми же пространственными координатами (предсказателем
служит память на кадр). Чем быстрее движутся снимаемые объекты, тем
больше отличаются текущий блок и опорный блок из предыдущего кад-
ра и тем больше данных об ошибке предсказания должно быть переда-
но, а это снижает эффективность компрессии.
Точность предсказания при передаче изображений движущихся
объектов можно увеличить за счет оценки вектора движения и компен-
сации этого движения.
Если оценить смещение изображения объекта от кадра к кадру по
горизонтали Vx и вертикали V , то в качестве предсказания можно ис-
пользовать изображение предыдущего кадра, смещенное по горизонта-
ли и вертикали на величины Vx и Уу соответственно. Набор чисел
\(VX, Vy) принято называть вектором движения.
Компенсация движения при формировании предсказания умень-
шает ошибку предсказания. Она не может быть сведена к нулю, так как
этому мешает изменение размеров движущегося объекта, его повороты,
неточности в определения вектора движения и т.п. Однако предсказание
с компенсацией движения позволяет значительно повысить эффектив-
ность ДИКМ при видеокомпрессии.
Вектор движения используется для предсказания с компенсацией
движения. На рис. 2.12 приведена схема кодера ДИКМ с компенсацией
движения, в которой вычисляется ошибка предсказания, т.е. разность

Рис. 2.12. Схема кодера ДИКМ с компенсацией движения


между фактическим и предсказанным блоками изображения с использо-
ванием вектора движения, что сокращает временную избыточность.
Ошибка предсказания подвергается DCT, квантуется и кодируется в ко-
дере с переменной длиной слова. Такой процесс уменьшает и времен-
ную, и пространственную, и психофизическую избыточность.
Вектор движения также кодируется словами переменной длины.
Кодированная ошибка предсказания объединяется с кодами вектора
движения, после чего формируется передаваемый цифровой поток.
В декодере выполняются инверсное квантование и инверсное DCT,
в результате чего формируется ошибка предсказания. Упрощенная схема
такого декодера похожа на схему рис. 2.11, только в ней должен исполь-
зоваться предсказатель с компенсацией движения, работающий на основе
данных о векторе движения, переданных от кодера. Ошибка предсказания
складывается с декодированным изображением предыдущего кадра,
образуя декодированное изображение текущего кадра.
Предсказатели с компенсацией движения в современных системах
видеокомпрессии могут использовать целый ряд методов. Например,
блок может предсказываться на основе предыдущего изображения, на
основе последующего изображения, а также на основе и предыдущего, и
последующего изображений. В чересстрочных системах поля одного
кадра могут предсказываться раздельно с использованием разных
векторов движения или вместе с использованием общего вектора.
Существует также возможность нулевого предсказания (если не найден
подходящий опорный блок). При этом сам текущий блок будет
кодироваться вместо ошибки предсказания, что означает отказ от
межкадрового кодирования и переход к внутрикадровому.
Для каждого текущего блока кодер выбирает метод предсказания,
обеспечивающий наивысшее качество декодированного изображения с
учетом ограничений на скорость передачи данных. Сведения о методе
предсказания включаются в общий поток и передаются декодеру для
верного восстановления изображения.
Оценка вектора движения и определение наилучшей стратегии
предсказания требуют применения сложных вычислительных процедур,
которые должны осуществляться в реальном времени. Поэтому кодер
гораздо сложнее декодера, т.е. система компрессии на базе ДИКМ с
компенсацией движения является асимметричной.

2.3. Помехоустойчивое кодирование


Одним из мощных средств борьбы с ошибками, возникающими в сигна-
ле в процессе обработки и передачи видеоинформации, являются кор-
ректирующие коды.
Процесс помехоустойчивого кодирования состоит в том, что набо-
ры из к информационных символов отображаются в кодовые последо-
вательности, состоящие из п символов, где п> к . Наличие избыточных
(проверочных) символов позволяет отслеживать появление ошибок и по
обнаружении исправлять их. Чем меньше доля используемых кодовых
комбинаций от общего числа возможных, тем больше избыточность и
выше корректирующая способность кода. Отношение R = k/n называ-
ется относительной скоростью кода. Конечно, при постоянной инфор-
мационной скорости введение избыточности при кодировании повыша-
ет скорость модуляции и расширяет полосу используемых частот. Для
оценки эффективности
помехоустойчивого коди-
рования сравнивают от-
ношения энергии, прихо-
дящейся на один бит ЕЬ, к
спектральной плотности
мощности шума
в системе с кодированием
и в базовой системе без
кодирования, N0 и опре-
деляют разницу в значе-
ниях EB/N0 при задан-
ной вероятности ошибки Р и с 2.13. Графики оценки помехоустойчивости
(рис. 2.13). Эта разница, цифрового видеосигнала
измеряемая в децибелах,
называется энергетическим выигрышем кода (ЭВК). Она может быть
использована для сравнения разных кодов.
Для оценки обнаруживающей и исправляющей способности кода
используют понятие кодового расстояния dmin - наименьшего из рас-
стояний между любой парой кодовых последовательностей.
Расстоянием между двумя последовательностями (расстоянием
Хэмминга) называется число позиций, в которых они отличаются друг от
друга. Для вычисления расстояния между двоичными последовательно-
стями используют посимвольное сложение по модулю «2». При декоди-
ровании ошибка обнаруживается, если ее кратность (число ошибочных
символов на длине блока) не превышает dmtn - 1 . Ошибка будет исправ-
лена при I < [(i/min - 1 ) / 2 ] , где квадратные скобки означают целую часть
числа.
Декодер, декодирующий каждую принятую последовательность в
ближайшее к ней по расстоянию Хэмминга кодовое слово, выбирает то
кодовое слово, условная вероятность передачи которого максимальна, и
потому называется декодером максимального правдоподобия.
Все применяемые коды можно разбить на три большие группы:
блоковые - кодирование и декодирование производится в пределах
определенного участка кодовой последовательности - блока;
древовидные - обработка символов производится непрерывно, без
разделения на блоки;
комбинированные коды, представляющие различные комбинации
вышеприведенных кодов.
Часть кодов относится к разряду линейных, в которых кодовые по-
следовательности представлены как элементы линейного векторного
пространства. Можно наконец применить разбиение на коды, исправ-
ляющие независимые случайные ошибки, и коды, исправляющие пакет-
ные ошибки. Несмотря на появление мощных кодов, исправляющих па-
кетные ошибки, часто оказывается более выгодным использовать коды,
исправляющие независимые случайные ошибки, вместе с устройствами
перемежения и восстановления.
Блоковые коды. Для рассмотрения блоковых кодов сначала необ-
ходимо дать определение систематических кодов.
Систематическими называются коды, в которых передаваемые
информационные символы содержатся в явном виде. Во всех кодовых
комбинациях систематического кода проверочные символы занимают
одни и те же позиции.
Линейные двоичные блоковые коды часто называют групповыми, по-
скольку в этом случае кодовые слова образуют математическую структуру,
называемую группой. Групповые коды составляют малую часть всех бло-
ковых кодов, однако они имеют большое практическое значение.
В классе линейных можно выделить большой класс так называе-
мых полиномиальных кодов, важность которых обусловлена нескольки-
ми причинами. Во-первых, аппаратурная реализация таких кодеров от-
носительно проста и требует лишь регистров сдвига с обратными связя-
ми. Во-вторых, это семейство содержит много кодов, кодовое расстоя-
ние которых близко к наилучшему. В-третьих, существует несколько
алгоритмов декодирования, позволяющих декодировать эти коды с по-
мощью сравнительно несложных устройств.
Используемые алгоритмы декодирования полиномиальных кодов
можно разделить на два класса:
процедуры, основанные на элементарных свойствах кодов - пере-
становочное декодирование, пороговое декодирование и др.;
алгебраические процедуры, связанные с решением систем алгеб-
раических уравнений.
Многие полиномиальные коды обладают циклическими свойства-
ми. Основное свойство циклических кодов, определяющее их название,
состоит в том, что если кодовая комбинация v = (v0, v,,..., ул_,) принад-
лежит коду V, то ее циклический сдвиг на произвольное число симво-
лов также является разрешенным кодовым словом. В теории цикличе-
ских кодов принято представлять кодовую комбинацию в виде много-
члена по степеням формальной переменной х , коэффициенты которого
- символы кодового слова v: у(х) = v0 + v,x +... + . Сложение мно-
гочленов производится поэлементно и коэффициенты складываются по
модулю «2», а при умножении многочлен х" заменяется на «1». Такое
представление удобно хотя бы потому, что упомянутая выше цикличе-
ская перестановка есть результат простейшего умножения данного мно-
гочлена на х . Действительно,
xv(x) = v0x + v,x2 + ... + У Л _,Х л = v„_, +У0Х + ... + У„_2Х"-] = v'(x).

Многочлен g(x) степени п - k , на который делится без остатка


двучлен 1 + хп, называется порождающим многочленом.
Свойство делимости кодовых слов циклического кода на порож-
дающий многочлен используют для обнаружения ошибок в принимае-
мых словах. Если z(x) = v(x) + e(x) - принятое слово, содержащее мно-
гочлен ошибки е(х) = е 0 +е,х + ... + е л _|Х" 4 , то в результате деления е(х)
на g(x) получится остаток s(x), называемый синдромом. Он имеет
степень не выше п - к - 1 и в отсутствие ошибок равен «О».
Коррекция ошибок с помощью циклического кода облегчается тем
обстоятельством, что синдром легко вычисляется с помощью простой
схемы, которую для каждого порождающего многочлена нетрудно соста-
вить из регистров сдвига и логических элементов «исключающее ИЛИ».
Запись акхк означает в этой схеме сдвиг символа ак на к тактов вправо.
Можно показать, что после седьмого такта в этой схеме состояние ячеек
регистра будет соответствовать коэффициентам при степенях синдрома.
Среди большого числа блоковых кодов большой интерес пред-
ставляют коды Рида-Соломона - подкласс недвоичных кодов размерно-
сти q = 2m ( т - целое, обеспечивающее наибольшее минимальное рас-
стояние между словами при заданной длине блока, равное теоретиче-
скому пределу). Их используют для исправления пакетных ошибок (в
сочетании с перемежением), а также в каскадных системах кодирования
в качестве внешних кодов.
Способность кода Рида-Соломона корректировать несколько оши-
бок обусловлена тем обстоятельством, что к исходным данным добав-
ляется несколько избыточных символов и принятое кодовое слово де-
лится не на один, а на несколько многочленов, давая соответствующее
число синдромов.
Пусть, например, добавлены два символа. Тогда одновременное
решение двух получившихся уравнений дает значения двух неизвест-
ных, одно из которых определяет положение ошибочного символа в ко-
довом слове и называется локатором, а другое - структуру ошибки и
именуется корректором. Для восьмибитовых символов полная длина
кодового слова должна составлять 28 - 1 = 255 символов, из них 239 ин-
формационных и 16 проверочных. Для уменьшения объема расчетов и
других целей код можно укоротить, заменив часть кодовых слов нуле-
выми кодовыми комбинациями на передаче и исключая соответствую-
щие символы на приеме. Далее будет рассмотрено, как это свойство ис-
пользуется в цифровом вещании.
Древовидные коды. Линейные древовидные коды называются
сверточными, поскольку процесс кодирования можно представить как
специальную линейную операцию - свертку входной последовательно-
сти с импульсным откликом кодера. Сверточные коды при вычислении
выходного символа учитывают текущий входной символ и несколько
предшествующих. Общее число учитываемых символов К называется
кодовый ограничением.
Сверточные коды используются при низком отношении сиг-
нал/шум, когда исправляющей способности блоковых кодов при разум-
ной длине блока оказывается недостаточно. Сверточный кодер с кодо-
вым ограничением К представляет собой регистр сдвига с К ячейками
и сумматоры по модулю «2» для образования кодовых символов. В от-
личие от блоковых кодов, для многих из которых удается найти эффек-
тивные алгебраические методы конструирования и декодирования,
большинство используемых сверточных кодов были найдены компью-
терным моделированием значительного числа вариантов и выбором из
них «хороших» кодов.
По характеру использования информации, поступающей на вход
декодера, алгоритмы декодирования сверточных кодов можно подраз-
делить на следующие группы:
п о с л е д о в а т е л ь н о е д е к о д и р о в а н и е — информа-
ция, полученная в процессе декодирования, используется Для оптимиза-
ции поиска наиболее правдоподобных продолжений пути. Алгоритм
чувствителен к пакетным искажениям символов в канале и потому ши-
рокого распространения не получил;
п о р о г о в о е д е к о д и р о в а н и е - сравнительно простой
алгоритм, применимый для некоторых сверточных кодов. В декодере
имеется аналог кодера, в котором по принятым символам формируется
копия проверочной последовательности. В формирователе синдрома
образуется последовательность синдромов. Анализируя ненулевые син-
дромы, корректор исправляет ошибку в информационном символе;
т а б л и ч н о е д е к о д и р о в а н и е - декодирование на ос-
нове таблицы, которая ставит в соответствие каждой недопустимой по-
следовательности ближайшую к ней допустимую.
В большинстве перечисленных алгоритмов сверточных кодов в
демодуляторе производится жесткое решение о принятых сигналах, при
котором выбирается кодовое слово, отличающееся от принятого слова в
наименьшем числе символов.
Мягкое решение, содержащее информацию об апостериорной ве-
роятности принимаемых символов, реализовано в алгоритме макси-
мального правдоподобия (алгоритмы Витерби). Оно использует полу-
ченную от демодулятора информацию о надежности оценок. Декодиро-
вание состоит в прослеживании по решетчатой диаграмме состояния
кода пути с максимальной апостериорной (a posteriori — после события)
вероятностью.
В процессе декодирования на каждом шаге вычисляют метрики
декодированного пути, пропорциональные расстоянию между приня-
тым сигналом и сигналом, соответствующим данной ветви кодера. В ре-
зультате сравнения выбирают меньшую метрику и ее считают метрикой
данного состояния для последующего шага. Глубина прослеживания в
5...6 раз превышает длину кодового ограничения.
Окончательное решение о принятом символе выносят на основе
сравнения метрик «выживших» путей. При реальных отношениях сиг-
нал-шум выигрыш от применения мягкого решения достигает почти
2 дБ при восьмиуровневом квантовании.
Комбинированные коды. Для повышения эффективности кодиро-
вания в последние годы в технике связи широко применяют комбиниро-
ванные коды последовательного или параллельного типа. Последователь-
ное кодирование символов двумя различными кодами называется каскад-
ный (рис. 2.14). Коды называются внутренним и внешним в зависимости

Рис. 2.14. Схема системы передачи


от того, какое положение по отношению к каналу передачи они занимают.
Внешний код - обычно код Рида-Соломона, а в качестве внутреннего кода
могут использоваться различные коды - сверточные, короткие блоковые,
биортогональные и др. В табл. 2.2 приведен результирующий выигрыш ко-
дирования (РВК) для разных комбинаций внутреннего и внешнего кодов
при двух значениях вероятности ошибки - 10"5 и Ю - 8 .

Таблица 2.2
РВК
Варианты кодирования
10~5 Ю-8
Рида-Соломона + Витерби 6,5...7,5 8,5-9,5
Рида-Соломона + биортогональный 5...7 7-9
Рида-Соломона + короткий блоковый 4,5...5,5 6,5-7,5
Витерби 4...5,5 5-6,5
Блоковый код (жесткое решение) 3...4 4,5-5,5
Сверточный код (пороговое декодирование) 1,5-3 2,5-4,0

В цифровом вещании широко используется сочетание сверточного


кода с декодированием по алгоритму Витерби, хорошо работающего
при низких отношениях сигнал-шум, и кода Рида-Соломона. При
R = 1/2 такое сочетание обеспечивает суммарную вероятность ошибки
Ю-10 при Eb/N0 = 3,0 дБ. Оценим, как близко это значение к теоретиче-
скому пределу и существуют ли практические коды с лучшими энерге-
тическими характеристиками.
Согласно известной теории Шеннона информация по каналу с
ошибками при выборе соответствующего кода может быть передана со
сколько угодно высокой достоверностью, если скорость передачи не
превышает пропускной способности канала. Еще один важный вывод из
теории информации - исправляющие свойства кода тем выше, чем бли-
же кодовые слова к случайной последовательности. Так, для канала с
аддитивным белым шумом необходимое для передачи отношение
Eb/N0 определяется неравенством

— >—(22/f - l ) . (2.17)

Зависимость (2.17) проиллюстрирована графиком рис. 2.15, из ко-


торого видно, что при той же скорости Л = 1/2x188/204 = 0,461 пре-
дельная оценка на 3 дБ ниже достигнутой для данного каскадного кода.
При передаче по каналам с огра-
ниченной полосой (типовой режим
для вещательных каналов) метод ко-
дирования для достижения макси-
мальной эффективности должен учи-
тывать также и выбранную схему мо-
дуляции. Предложены несколько
практических решетчатых кодов, реа-
лизующих так называемое сигнально-
пространственное кодирование.
В середине 90-х годов был
предложен новый класс кодов - так
называемые турбокоды, которые
еще на 1,5... 2,5 дБ приблизились к
теоретическому порогу и обеспечи-
вают декодирование при расчетных
значениях EB/N0 = 0,3 ... 0,7 дБ над
порогом.
Рис. 2.15. График зависимости
Основная идея турбокода, как и
отношения энергии бита
каскадного кода - кодирование ис- к спектральной плотности шума
ходной символьной последователь- от скорости кодирования
ности не одним, а несколькими коде-
рами, однако соединенными не последовательно (каскадно), а парал-
лельно. При таком соединении устраняется одна из причин более низ-
кой эффективности каскадного кода - кодирование внутренним кодером
как информационных, так и проверочных битов внешнего кодера.
Параллельное кодирование исключает передачу «проверочных от
проверочных» символов, и исправляющая способность возрастает.
Типовая структурная схема турбокодера содержит несколько па-
раллельных ветвей, состоящих из каскадно соединенных перемежителя
и кодера. В качестве последнего могут использоваться блоковые кодеры
Хэмминга, Рида-Соломона, сверточные кодеры, построенные по схеме
рекурсивного систематического кодера, (рекурсивным называется уст-
ройство, у которого имеется обратная связь с выхода на вход).
Рекурсивный сверточный кодер приобретает важное свойство, не-
обходимое для турбокодирования - он становится систематическим, так
как входная последовательность напрямую проходит на один из выхо-
дов. Если теперь в распределительном устройстве на входе добавлять к
каждой входной последовательности из к бит хвостовую часть из п - к
бит, переводящую кодер в исходное нулевое состояние, его можно рас-
сматривать как блоковый с длиной блока п .
Функция перемежителя, работающего по псевдослучайному зако-
ну - обеспечивать рандомизацию входной последовательности для каж-
дого кодера, что повышает корректирующую способность.
В практических схемах турбокодеров обычно используются два
кодера и один перемежитель (рис. 2.16), где за основу взят простейший
сверточный код с R = 1/2 и К =3 , у которого один из выходов соеди-
нен со входом. Результирующая скорость кода составляет 1/3 (на каж-
дый информационный бит приходится по одному проверочному биту от
каждого из кодеров) и может быть увеличена (например, до 1/2 ) путем
перфорирования некоторых проверочных битов с выходов обоих коде-
ров. Разумеется, ценой увеличения скорости передачи будет при этом
некоторое снижение корректирующей способности.
Вход Декодирование турбокода
базируется на оценке вероятно-
сти различных кодовых слов
или различных путей на решет-
чатой диаграмме. Используется
как априорная, так и апостери-
орная информация о событии.
Кодеру, показанному на схеме
рис. 2.16, соответствует деко-
дер, схема которого изображена
на рис. 2.17. Исходная инфор-
мационная последовательность
и первая проверочная последо-
вательность с выхода демуль-
типлексора поступают на вход
Рис. 2.16. Схема кодера помехоустойчивого первого декодера, на его выходе
кодирования формируется мягкое решение о

Рис. 2.17. Схема декодера помехоустойчивого кодирования


принятой последовательности, и оно вместе с проверочными битами второ-
го кодера поступает на вход второго декодера.
Ключевой особенностью турбокодирования, благодаря которой
оно и получило свое название, является итеративное повторение циклов
декодирования в замкнутой петле на рис. 2.17, при котором результат
каждой итерации совместно с проверочными битами служит исходным
сигналом для следующей. Компьютерное моделирование показывает,
что при числе итераций до 18 и длине блока 65536 бит обеспечивается
вероятность ошибки 10 3 при Eb/N0= 0,7 дБ.
Дальнейшее изучение свойств турбокодов показало, что их поро-
говые характеристики выше, чем у сверточных и каскадных, лишь в об-
ласти не очень высоких Eb/N0 (до вероятности ошибки не ниже 10" 5 ),
поэтому рассматривается возможность использования турбокода в каче-
стве внутреннего для каскадного кода.
Турбокоды показали высокие результаты в помехоустойчивом ко-
дировании уже после того, как были выбраны методы модуляции и коди-
рования для основных систем цифрового вещания, поэтому сейчас рас-
сматривается их использование лишь в качестве опционных, дополни-
тельных решений, однако есть все основания полагать, что в недалеком
будущем они займут подобающее место в системах цифрового вещания.
По своему построению и свойствам к кодам близко примыкают
псевдослучайные последовательности (ПСП), о которых мы уже упоми-
нали ранее. ПСП обладают рядом полезных свойств, позволяющих ис-
пользовать их в технике цифрового вещания при скремблировании, шиф-
ровании цифровых сигналов, построении генераторов шумоподобных
сигналов, измерении достоверности передачи по цифровому каналу.
Линейными ПСП максимальной длины называются последова-
тельности символов двоичного кода длиной L = 2" - \, где т - степень
порождающего многочлена. Двоичные ПСП обладают следующими ос-
новными свойствами:
любой циклический сдвиг ПСП на целое число тактов есть также
ПСП. Это означает, что отсчет длины ПСП можно начать с любого ее
члена;
число единиц в ПСП 2Т Л на единицу больше числа нулей 2"'' - 1 ;
каждая комбинация из расположенных подряд т символов ПСП
встречается за период ПСП только один раз;
сумма по модулю «2» данной ПСП и ее циклического сдвига также
является ПСП;
длина периода ПСП нечетна.
Генерирование ПСП наиболее просто осуществляется с помощью
регистров сдвига с логической обратной связью в виде ячеек «исклю-
чающее ИЛИ». Число триггеров регистра равно степени порождающего
многочлена т , а число ячеек определяется видом многочлена и в об-
щем случае на два меньше числа его членов.

Такты

Рис. 2.18. Схема генератора псевдослучайной последовательности

Для ПСП заданной длины может быть найдено несколько порож-


дающих многочленов. На рис. 2.18 показан пример построения генера-
тора ПСП для т = 8 .
ГЛАВА 3. МУЛЬТИМЕДИЙНЫЕ
СТАНДАРТЫ СЖАТИЯ
ВИДЕОДАННЫХ

Мультимедийные стандарты сжатия видеоданных обычно разделяют на


два типа методов:
без потери качества («без потерь»);
с потерей качества («с потерями»).
Большинство методов сжатия без потери качества не учитывают
визуальную похожесть соседних кадров видеопотока. Методы сжатия с
потерей качества, наоборот, в большинстве случаев используют эту по-
хожесть. Из-за этого максимальная степень сжатия среднестатистиче-
ского видеофрагмента, достигаемая алгоритмами без потерь, не превы-
шает 1:3, в то время как алгоритмы, работающие с потерей качества,
могут сжимать вплоть до 1:100.
Довольно часто методы, учитывающие похожесть соседних кадров
видеопотока, называют «рекурсивными». В них сохраняются полностью
лишь отдельные кадры, называемые ключевыми (иногда «интра») кад-
рами. Все остальные кадры содержат лишь отличия от предыдущих
(иногда они также содержат ссылки на информацию, содержащуюся в
последующем кадре).
Естественно, при правильной настройке рекурсивные кодеки «уда-
ляют» части данных, которые большинству людей не заметны, что не
приводит к существенному ухудшению зрительского восприятия гото-
вого видео. Однако чрезмерное стремление к уменьшению объема ин-
формации за счет сжатия видео может привести уже к заметному неис-
кушенным зрителем ухудшению качества видео. Поэтому всегда суще-
ствует золотая середина между выбором стандарта, степенью сжатия и
качеством видео.

3.1. Стандарт M-JPEG (основные этапы)


В стандарте M-JPEG (Motion JPEG) каждый видеокадр изображения
сжимается отдельно с использованием стандарта JPEG и никаких дру-
гих дополнительных алгоритмов при этом не используется. При исполь-
зовании алгоритма сжатия M-JPEG средний коэффициент сжатия ви-
деосигнала составляет около 1:5, а скорость передачи видео с разреше-
нием 720x576 пикселей - до 5 Мбит/с. Руководствуясь вышесказанным,
произведем рассмотрение стандарта M-JPEG в качестве динамической
реализации стандарта JPEG.
На сегодняшний день JPEG является одной из ярких иллюстраций
результатов исследований в области развития технологий сжатия изо-
бражений.
Аббревиатура JPEG происходит от названия комитета по стандартам
(Joint Photographic Experts Group - Объединенная группа экспертов по фо-
тографии), входящего в состав Международной организации по стандарти-
зации (ISO), которая в 1982 г. сформировала группу экспертов по фотогра-
фии (PEG), возложив на нее обязанности по проведению исследований в
области передачи видеосигналов, неподвижных изображений и текстов по
каналам ISDN (Integrated Services Digital Network - интегральная цифровая
сеть связи). Перед PEG была поставлена задача разработать набор про-
мышленных стандартов по передаче графических данных и данных изо-
бражений с помощью цифровых коммуникационных сетей.
Подгруппой CCITT (Consultative Committee for International Tele-
phone and Telegraphy - Международный консультативный комитет по
телеграфии и телефонии) в 1986 г. были начаты исследования методов
сжатия цветных и полутоновых данных для факсимильной связи. При-
меняемые при этом методы сжатия цветных данных очень напоминали
те, которые исследовались группой JPEG. Поэтому было принято реше-
ние объединить ресурсы этих групп для совместной работы над единым
стандартом. В 1987 г. ISO и CCITT объединили свои группы в комитет,
который должен был провести исследования и выпустить стандарт сжа-
тия данных, для применения обеими организациями. Новый комитет
получил название JPEG.
Создатели JPEG смогли предусмотреть множество коммерческих
программ на базе разрабатываемой технологии, поскольку потребители
ожидали маркетинговых предложений по получению изображений и
мультимедиа. Большинство из ранее разработанных методов сжатия
были мало пригодны для сжатия данных полноцветных многоградаци-
онных изображений, содержащих сотни и тысячи цветов, характери-
зующих реальный мир. В тот период очень малое число файловых фор-
матов могли поддерживать растровые изображения с глубиной цвета
24 бит/пиксель и более.
Стандарт JPEG явился методом сжатия, позволяющим сжимать
данные полноцветных многоградационных изображений с достаточно
высокой скоростью и эффективностью. Сегодня JPEG - эта схема сжа-
тия изображений, позволяющая достичь высоких коэффициентов сжа-
тия. Правда, максимальное сжатие графической информации, как пра-
вило, связано с определенной потерей качества, т.е. для достижения вы-
сокой степени сжатия алгоритм так изменяет исходные данные, что по-
лучаемое после восстановления изображение будет отличаться от ис-
ходного. Этот метод сжатия используется для работы с полноцветными
изображениями высокого фотографического качества.
JPEG не был определен в качестве стандартного формата файлов
изображений, однако на его основе были созданы новые или модифици-
рованы существовавшие файловые форматы.
Спецификация JPEG определяет минимальные требования стан-
дарта, которые должны поддерживаться всеми программами, исполь-
зующими этот метод. JPEG основан на схеме кодирования, базирую-
щейся на DCT, алгоритмы которой стали основой различных методов
сжатия. Эти алгоритмы сжатия базируются не на поиске одинаковых ат-
рибутов пикселей (как в RLE и LZW), а на разнице между ними. В силу
своей природы они всегда кодируют с потерями, но способны обеспе-
чить высокую степень сжатия при минимальных потерях данных.
Схема JPEG эффективна только при сжатии многоградационных
изображений, в которых различия между соседними пикселями, как
правило, весьма незначительны. Практически JPEG хорошо работает
только с изображениями, имеющими глубину хотя бы четыре или пять
бит/пиксель на цветовой канал. Основы стандарта определяют глубину
входного образца в восемь бит/пиксель. Данные с меньшей битовой
глубиной могут бьггь обработаны посредством масштабирования до
восьми бит/пиксель, но результат для исходных данных с низкой глуби-
ной цвета может быть неудовлетворительным, поскольку между атри-
бутами соседних пикселей будут существенные различия. По подобным
причинам плохо обрабатываются исходные данные на основе цветовых
таблиц, особенно если изображение представляется в размытом виде.
Процесс сжатия по алгоритму JPEG включает ш е с т ь этапов
(рис. 3.1).
Э т а п 1 . Преобразование исходного изображения в оптимальное
цветовое пространство.
Э т а п 2 . Субдискретизация компонентов цветности усреднением
групп пикселей.
Э т а п 3 . Сегментация изображения - применение дискретного
конусного преобразования для уменьшения избыточности данных изо-
бражения.
Э т а п 4 . Дискретное косинусное преобразование
Э т а п 5 . Квантование каждого блока коэффициентов DCT с при-
менением весовых функций, оптимизированных с учетом визуального
восприятия человеком
Э т а п 6 . Кодирование результирующих коэффициентов (данных
изображения) с применением алгоритма Хаффмана для удаления избы-
точности информации.

Изображение в

CR

Исходное изображение в
RGB-предстаалении

Закодированное
изображение
в формате JPEG

100110110010...

Квантование
z-сканирование
коэффициентов OCT

Дискретное
косинусное
преобразование

Рис. 3.1. Схема процесса сжатия по алгоритму JPEG

Рассмотрим вкратце особенности каждого из перечисленных эта-


пов. При этом хотелось бы обратить внимание на то, что декодирование
JPEG осуществляется в обратном порядке.
3.1.1. Представление цветового пространства (этап 1)
Алгоритм JPEG способен кодировать изображения, основанные на лю-
бом типе представления цветового пространства. JPEG кодирует каж-
дый компонент цветовой модели отдельно, что обеспечивает его пол-
ную независимость от любой модели цветового пространства (напри-
мер, от RGB, HSI или CMYK).
В случае применения цветового пространства яркость/цветность,
например такого, как YUV или YC R C B , достигается лучшая степень
сжатия. Эта модель может быть переведена в RGB посредством преоб-
разования без какой-либо коррекции насыщенности. Для полутоновых
изображений (в градациях серого) используется только одна состав-
ляющая Y .
3.1.2. Субдискретизация компонентов цветности (этап 2)
Большая часть визуальной информации, к которой наиболее чувстви-
тельны глаза человека, состоит из высокочастотных, полутоновых ком-
понентов яркости Y цветового пространства YC R C B . Две других со-
ставляющих цветности ( С к и С в ) содержат высокочастотную цветовую
информацию, к которой глаз человека менее чувствителен. Следова-
тельно, определенная часть цветового пространства может быть отбро-
шена и, тем самым, может быть уменьшено число учитываемых пиксе-
лей для каналов цветности. Практика показала, что уменьшение объема
данных на 50 % почти незаметно отражается на качестве большинства
изображений. Уменьшение разрешения каналов цветности в стандарте
JPEG осуществляется посредством выбора формата дискретизации 4:2:2
или 4:2:0.

3.1.3. Сегментация изображения (этап 3)


Сегментация изображения применяется с целью деления его на два и
более сегментов. Это облегчает буферизацию данных изображения в
памяти информационных систем и ускоряет процесс преобразований.
JPEG поддерживает три типа сегментации изображений: простую, пи-
рамидальную и комбинированную.
При простой сегментации изображение делится на два или более
сегментов фиксированного размера. Все простые сегменты кодируются
слева направо и сверху вниз, являются смежными и неперекрывающи-
мися. Сегменты должны иметь одинаковое число выборок и идентифи-
каторов компонентов, и быть закодированными по одной схеме, причем
сегменты в нижней и правой частях изображения могут быть меньшего
размера, чем «внутренние» сегменты, поскольку величина изображения
не обязательно должна быть кратной размерам сегмента.
При пирамидальной сегментации изображение также делится на сег-
менты, а каждый из них, в свою очередь, - на еще более мелкие сегменты.
При этом используются различные уровни разрешения. Моделью такого
процесса является сегментированная пирамида изображения JPEG (JPEG
Tiled Image Pyramid, (JTIP)), отражающая процедуру создания пирамидаль-
ного JPEG-изображения с несколькими уровнями разрешения.
В схеме JTIP последовательные слои одного изображения хранятся
с разным разрешением. Первое изображение, записываемое на вершине
пирамиды, занимает одну шестнадцатую часть установленного размера
экрана и называется виньеткой. Применяется оно для быстрого воспро-
изведения содержимого изображения. Это приобретает особую значи-
мость при работе с программами просмотра. Следующее изображение
занимает одну четвертую часть экрана и называется мажеткой. Обычно
она используется в тех случаях, когда на экране необходимо одновременно
отобразить два и более изображений. Далее следуют полноэкранное изо-
бражение с низким разрешением, изображения с последовательно по-
вышающимся разрешением и, наконец, оригинал изображения.
При пирамидальной сегментации целесообразен процесс внутрен-
ней сегментации, когда каждый сегмент кодируется как часть одного
потока JPEG-данных. Иногда может применяться процесс внешней сег-
ментации, при котором каждый сегмент представляет собой отдельно
кодируемый поток JPEG-данных. Внешняя сегментация ускоряет дос-
туп к данным изображения, облегчает его шифрование и улучшает со-
вместимость с некоторыми JPEG-декодерами.
Комбинированная сегментация позволяет хранить и воспроизво-
дить версии изображений с несколькими уровнями разрешения в виде
мозаики. Комбинированная сегментация допускает наличие перекры-
вающихся сегментов разных размеров, с разными коэффициентами
масштабирования и параметрами сжатия. Каждый сегмент кодируется
отдельно и может комбинироваться с другими сегментами без повтор-
ной дискретизации. Например, в случае использования сегментов раз-
мером 8x8 пикселей, для каждого блока формируется набор чисел. Пер-
вые несколько чисел представляют цвет блока в целом, в то время, как
последующие числа отражают более тонкие детали, спектр которых ба-
зируется на зрительном восприятии человека. Поэтому крупные детали
более заметны.
На следующем этапе, в зависимости от выбранного уровня качест-
ва, отбрасывается определенная часть чисел, представляющих тонкие
детали.
3.1.4. Дискретное косинусное преобразование (этап 4)
Ключевым компонентом работы алгоритма является дискретное коси-
нусное преобразование. В результате DCT блока 8x8 образуется блок из
64 коэффициентов (амплитуды базисных функций).
Коэффициент - это число, выражающее степень присутствия кон-
кретной пространственной частоты, имеющейся в изображении. Такое
двумерное представление дает заметить интересные особенности: гори-
зонтальная координата положения базисной функции характеризует го-
ризонтальную составляющую изменений изображения в исходном
квадрате, вертикальная координата - вертикальную составляющую. Чем
больше, к примеру, коэффициент перед базисной функцией, располо-
женной более справа, тем больше резких переходов изображения в го-
ризонтальной плоскости мы имеем.
3.1.5. Квантование коэффициентов DCT (этап 5)
Процесс квантования коэффициентов DCT играет ключевую роль в
JPEG-сжатии. Он удаляет высокие частоты, представленные в исходном
изображении (впоследствии высокую детализацию). Так как глаз более
чувствителен к низким частотам, и высокие частоты можно удалить с
очень небольшим визуальным убытком. Удаление высоких частот вы-
полняется посредством деления амплитуд высокочастотных состав-
ляющих на большие величины, чем те, на которые делятся более низко-
частотные составляющие. Проще говоря, квантование - это процесс де-
ления рабочей матрицы на матрицу квантования поэлементно.
Для каждой компоненты яркости или цветности, в общем случае,
задается своя матрица квантования Q(m, и) (табл. 3.1), а квантование
коэффициентов DCT выполняется в соответствии с формулой
7q(т, п) = Round DCT(m. п) (3.1)
JQ(m, п)
где / - параметр, определяющий степень сжатия изображения; Round[.] -
операция округления до ближайшего целого значения; DCT (/и, и) — ис-
ходная матрица коэффициентов DCT.
Таблица 3.1
Квантование составляющих Квантование составляющих
яркости цветности
16 11 10 16 24 40 51 61 17 18 24 47 99 99 99 99

12 12 14 19 26 58 60 55 18 21 26 66 99 99 99 99

14 13 16 24 40 57 69 56 24 26 56 99 99 99 99 99

14 17 22 29 51 87 80 62 47 66 99 99 99 99 99 99

18 22 37 56 68 109 103 77 99 99 99 99 99 99 99 99

24 35 55 64 81 104 113 92 99 99 99 99 99 99 99 99

49 64 78 87 103 121 120 101 99 99 99 99 99 99 99 99

72 92 95 98 112 100 103 99 99 99 99 99 99 99 99 99


Вычисления при использовании метода DCT чрезвычайно сложны;
фактически - это наиболее трудоемкий этап сжатия JPEG. После его
выполнения происходит разделение высокочастотной и низкочастотной
информации, из которых состоит изображение. После этого можно от-
бросить высокочастотные данные без потери низкочастотных. Сам по
себе этап преобразования DCT не предусматривает потерь, за исключе-
нием ошибок округления.
Прежде чем отбросить определенный объем информации, ком-
прессор делит каждое выходное значение DCT на «коэффициент кван-
тования», округляя результат до целого (3.1). Чем больше коэффициент
квантования, тем больше данных теряется, поскольку реальное DCT-
значение представляется все менее и менее точно. Каждая из 64 пози-
ций выходного блока DCT имеет собственный коэффициент квантова-
ния, причем элементы большего порядка квантуются с большим коэф-
фициентом, чем элементы меньшего порядка.
Для данных яркости и цветности применяются отдельные таблицы
квантования, позволяющие квантовать данные цветности с большими
коэффициентами, чем данные яркости.
Таким образом, JPEG использует различную чувствительность
глаза к яркости и цветности изображения.
На этом этапе большинство JPEG-ко.мпрессоров управляются с
помощью установки качества. Компрессор использует встроенную таб-
лицу, рассчитанную на среднее качество, и наращивает или уменьшает
значение каждого элемента таблицы обратно пропорционально требуе-
мому качеству. Применяемые таблицы квантования записываются в
сжатый файл, чтобы декомпрессор знал, как восстановить коэффициен-
ты DCT (приблизительно). Выбор соответствующей таблицы квантова-
ния является «высоким искусством».
Большинство существующих компрессоров используют таблицу,
разработанную Комитетом JPEG ISO. Возможно, со временем будут
предложены таблицы, позволяющие осуществлять сжатие более эффек-
тивно и при сохранении качества изображения.
3.1.6. Кодирование (этап 6)
Заключительная стадия работы кодера JPEG - это кодирование. Оно
включает три действия над округленной матрицей дискретного коси-
нусного преобразования, повышающих степень сжатия: предиктивное
кодирование нулевых коэффициентов матриц; z-сканирование матриц;
энтропийное кодирование кодом Хаффмана.
Предиктивное кодирование нулевых коэффициентов матриц пред-
ставляет собой замену абсолютного значения коэффициента, располо-
женного в ячейке (0, 0) матрицы, на относительное. Так как соседние
блоки изображения в значительной степени коррелированны, то коди-
рование очередного (0, 0) элемента как разницы с предыдущим дает
меньшее значение. В результате коэффициенты C Q (0, 0) всех блоков
каждой составляющей изображения кодируются с предсказанием. При
этом коэффициент C Q (0, 0) в каждом блоке заменяется на величину
DIFF = C Q ( 0 , 0 ) - P R E D , где PRED - значение коэффициента C Q ( 0 , 0)
в предыдущем по порядку кодирования блоке этой же составляющей.
Для первого кодируемого блока берется PRED = 0.
Перед выполнением энтропийного кодирования остальных 63
квантованных коэффициентов DCT в каждом блоке выполняется сле-
дующая подготовительная операция.
Двумерная матрица коэффициентов преобразуется в одномерную
последовательность путем считывания ее элементов в зигзагообразном
порядке (z-сканирование матрицы коэффициентов DCT) (рис. 3.2). По
вертикали и по горизонтали показаны
значения индексов т , п коэффициен-
тов Cq(w, и). Клетки таблицы соот-
ветствуют номерам, которые получа-
ют эти коэффициенты в одномерной
последовательности. Номер «0» в
клетке, соответствующей C'Q (0, 0),
показывает, что этот коэффициент в
данной операции не участвует.
Как отмечалось выше, в резуль-
тате квантования многие из коэффи-
циентов DCT становятся равными «О»,
Рис. 3.2. Z-сканирование матрицы
поэтому в получаемой одномерной
коэффициентов DCT
последовательности этих коэффици-
ентов оказывается большое число нулевых элементов.
Каждый, отличный от нуля коэффициент DCT, представляется в
виде пары чисел. Первое из этих чисел показывает, сколько нулевых
значений подряд прошло в последовательности перед данным ненуле-
вым коэффициентом. Второе число в паре показывает значение самого
квантованного коэффициента, преобразованное в число с переменным
числом бит. Правила этого преобразования аналогичны используемым
при кодировании постоянных составляющих, т.е. коэффициенты с ма-
лыми абсолютными величинами представляются более короткими по-
следовательностями двоичных символов, а коэффициенты с большими
абсолютными величинами - более длинными.
Если в результате квантования получилось много нулевых и малых
по абсолютной величине коэффициентов, кодирование по методу RLE
дает значительный выигрыш, так как, во-первых, уменьшается общее ко-
личество чисел, представляющих кодируемый блок, а во-вторых, умень-
шается число двоичных символов для представления большинства чисел.
Для каждого блока 8x8 пикселов матрица квантованных коэффи-
циентов DCT оказалась преобразованной в последовательность двоич-
ных чисел (называемых в соответствии с терминологией теории коди-
рования символами), которые затем подвергаются энтропийному коди-
рованию.
Чаще всего применяется кодирование по методу Хаффмана , кото-
рый заключается в построении такого кода с переменной длиной кодо-
вого слова, что чаще встречающимся (т.е. более вероятным) символам
ставятся в соответствие более короткие кодовые слова, а реже встре-
чающимся (менее вероятным) символам - более длинные кодовые сло-
ва. Это дает дополнительный выигрыш в сжатии информации.
Кодирование по Хаффману выполняется с помощью таблицы ко-
дов, в которой каждому символу кодируемой последовательности ста-
вится в соответствие кодовое слово.
В процессе декодирования кода Хаффмана кодовые слова, считы-
ваемые из файла сжатых видеоданных, преобразуются обратно в после-
довательность чисел, по которым восстанавливаются значения кванто-
ванных коэффициентов DCT. Все операции, выполняемые при подготов-
ке к энтропийному кодированию, и само это кодирование являются пол-
ностью обратимыми и не создают потерь информации, а достигаемое при
них сжатие является следствием ранее выполненного квантования. Вме-
сто кодирования по Хаффману может использоваться другой вид энтро-
пийного кодирования, называемый арифметическим кодированием.
Широкое применение JPEG долгое время сдерживалось тем, что
он оперирует 24-битными изображениями. Поэтому для того, чтобы с
приемлемым качеством посмотреть картинку на обычном мониторе в
256-цветной палитре, требовалось применение соответствующих алго-
ритмов и, следовательно, определенное время.
Существенными положительными сторонами алгоритма является
то, что степень сжатия задается пользователем, и выходное цветное
изображение может иметь 24 бита на точку.
Отрицательными сторонами алгоритма является то, что при повы-
шении степени сжатия изображение распадается на отдельные квадраты
(8x8), что связано с происходящими большими потерями в низких час-
тотах при квантовании, и невозможностью восстановления исходных
данных; также имеет место проявление эффекта Гиббса, который выра-
жается в ореолах по границам резких переходов цветов.
Безусловным достоинством стандарта M-JPEG является возмож-
ность редактирования видео без потерь качества, так как кадры являют-
ся независимыми. Этим, по сути дела, и определяется использование
данного метода именно как механизма хранения видео, служащего для
его редактирования, а не для распространения.

3.2. Семейство стандартов Н


Новая серия видеокомпрессоров, определяющая тенденции развития
механизмов сжатия цифровой видеоинформации была официально за-
регистрирована совсем недавно, 18 мая 1997 г. Некоторые компрессоры
семейства Н., например Н.261, на данный момент довольно популярны,
другие малоизвестны и используют такие передовые и улучшенные
технологии, как вейвлет-преобразование.
Отличительной особенностью компрессоров семейства Н. является их
нацеленность на уменьшение потока цифрового видео через Интернет, что
естественно приводит к отходу фактора качества на второй план.
Группа стандартов Н.261/Н.263, как часть рекомендации Н.320,
содержит требования по передаче видеоинформации соответственно со
скоростями 46,4 кбит/с и 16 кбит/с в В-канале (64 кбит/с) совместно с
необходимой служебной информацией, определяемой рекомендацией
Н.221. При этом должны обеспечиваться следующие требования: обна-
ружение и коррекция ошибок; поддержка многоточечных соединений;
поддержка связи в обоих направлениях; поддержка комбинации с ау-
диопотоком.
Источником видеоинформации могут быть сигналы в стандарте
как PAL, так и NTSC, конвертируемые далее в общий стандарт одного
из двух типов:
CIF (Common Interchange Format - общий формат обмена сжатыми
видеоданными);
QCIF (Quarter Common Interchange Format - вариант формата CIF с
уменьшенным вчетверо разрешением).
Стандарт CEF обеспечивает высокое качество, но требует более широ-
кую полосу частот (при использовании современных методов компрессии,
рекомендуемые скорости передачи 384 кбит/с и выше). Достигаемое раз-
решение оказывается всего лишь вдвое хуже, чем в системе NTSC.
Стандарт QCIF имеет разрешение вдвое ниже CIF по каждому из-
мерению, т.е. в четыре раза меньшее общее число пикселей, однако тре-
буемая скорость передачи может быть снижена до 64 кбит/с. Все Н.261
кодеки предусматривают использование стандарта QCIF даже в том
случае, если они используют также и стандарт CIF.
Оба стандарта предусматривают формирование яркостной (Y ) и
цветоразностных ( С в и CR ) составляющих. Некоторые сравнительные
характеристики этих стандартов приведены в табл. 3.2.
Таблица 3.2
Стандарт CIF QC1F

Скорость передачи, кадр/с до 30

Разрешение по яркостной 352 пикселей на строку 176 пикселей на строку


составляющей 288 строк на кадр 144 строк на кадр

Разрешение по цветоразно- 176 пикселей на строку 88 пикселей на строку


стным составляющим 144 строк на кадр 72 строк на кадр

Разрядность, бит 8

При использовании стандарта CIF необходимо передать 352x288 +


+176x144x2 = 152064 пикселей/кадр, или 152064х30 = 4561920 пикселей/с.
Применение метода ИКМ при восьми-разрядном кодировании потребо-
вало бы при этом скорости 4561920х х8 = 36,495 Мбит/с для стандарта
CIF и 9,12 Мбит/с - для QCIF.
С целью существенного снижения требуемой скорости передачи в
канале рекомендации Н.261/Н.263 предполагают следующие меры:
межкадровое предсказание - передаче подлежит только информа-
ция о различии между предсказанным и истинным изображением;
кодирование на основе дискретно-косинусного преобразования
DCT - эффект применения DCT связан с концентрацией энергии пере-
даваемого сигнала в области низких пространственных частот;
компенсацию движения - может быть выделена область кадра,
связанная с передачей движущегося изображения. Далее, вместо hepe-
дачи всего изображения этой области будет передаваться лишь инфор-
мация о соответствующем изменении изображения;
пропуск кадров — с целью выполнения требований по обеспечению
необходимой скорости передачи данных может быть использовано пе-
риодическое исключение одного, двух или трех кадров между переда-
ваемыми кадрами.
Выполнение рекомендаций Н.261 обеспечивает на скорости
1.5... 2 Мбит/с практически то же качество переданного изображения,
что и при воспроизведении стандартного телевизионного изображения с
помощью бытового видеомагнитофона. На низких же скоростях передачи
(около 64 кбит/с) при частоте кадров около 15 кадров/с изображение
оказывается вполне узнаваемым, но может быть несколько размытым.
Практически все методы компрессии видеосигнала, используемые в
кодеках систем видеоконференцсвязи, предусматривают три основные
процедуры обработки входного цифрового сигнала стандарта CIF (QCIF):
анализ;
квантование;
кодирование методом VLC (Variable Length Code - переменная
длина кода).
Процедура анализа предполагает обработку входного, не подверг-
нутого компрессии, сигнала, представляющего собой последователь-
ность представленных в цифровом виде выборочных значений яркост-
ного и цветоразностных сигналов. Производится вычисление ошибки
предсказания, коэффициентов DCT, корреляции текущего изображения
с предсказанным квантованным вектором и т.п. Измерения осуществ-
ляются как в пределах одного кадра, так и межкадровые.
Как правило, на этапе анализа собственно компрессия изображе-
ния не производится, а осуществляется лишь то или иное преобразова-
ние входной последовательности пикселей в другой формат, более при-
способленный для процедуры компрессии. Типичным преобразованием,
например, является замена блока 8x8 пикселей матрицей 8x8 коэффи-
циентов DCT. При этом на этапе оценки движения (рис. 3.3) для каждо-
го макроблока текущего кадра формируется так называемый вектор
движения, отражающий положение соответствующих пикселей преды-
дущего кадра, имеющих ту же интенсивность.
Текущий кадр Векторы
движения

Оценка Компенсация Квантование Энтропийное


DCT
движения движения коэфф. кодирование

Восстановление
коэфф.

1редыдущнй
1DCT
кадр <±>
Рис. 3.3. Схема оценки и формирования вектора движения

На этапе компенсации движения векторы движения по всем мак-


роблокам текущего кадра сравниваются с макроблоками предшествую-
щего кадра, и формируется так называемый «кадр с компенсацией дви-
жения», представляющий собой оценку (предсказание) текущего кадра,
произведенную на основании анализа лишь предыдущего кадра. Сфор-
мированный таким образом кадр с компенсацией движения сравнивает-
ся затем с текущим кадром с целью вычисления ошибки предсказания
движения. В результате формируется так называемый «остаточный»
кадр, отражающий ту информацию текущего кадра, которая не может
быть предсказана на основании анализа предыдущего кадра, и пред-
ставляющий по существу компенсацию ошибки предсказания. Именно
этот остаточный кадр далее подвергается DCT, в результате чего обра-
зуются блоки 8x8 коэффициентов DCT.
После завершения процедуры анализа выходная последователь-
ность коэффициентов преобразования (как правило, 8- или 12-битовая)
сохраняет исходную точность представления видеосигнала.
Следующая процедура, квантование, снижает эту исходную точ-
ность, но так, что это наименьшим образом сказывается на восприятии
изображения человеческим глазом. Типичной процедурой является про-
сто отбрасывание (квантование по нулевому уровню) тех коэффициен-
тов преобразования, величины которых достаточно малы.
Заключительной процедурой процесса компрессии является коди-
рование квантованной последовательности коэффициентов преобразо-
вания методом VLC с комбинациями переменной длины (например, ко-
дом Хаффмана) по принципу замены наиболее часто встречающихся
коэффициентов наиболее короткими кодовыми комбинациями, при
этом компрессия достигается за счет снижения избыточности входной
последовательности (энтропийное кодирование), а непосредственным
результатом является снижение средней длины кодовой комбинации без
потери качества результирующего изображения.
Таким образом, вместо передачи очередного кадра стандарта CIF
(QCIF), производится передача векторов движения и квантованных ко-
эффициентов DCT. При этом векторы движения передаются также с ис-
пользованием кодирования VLC. Сформированный таким образом кадр
называется кадр предсказания.
Некоторые кадры передаваемой исходной видеопоследовательно-
сти кодируются непосредственно без компенсации движения.
3.2.1. Рекомендации Н.261
Рекомендации Н.261 описывают процедуры кодирования и декодирова-
ния видеокомпоненты аудиовидеопоследовательности, обеспечивающие
скорость выходного битового потока их64 кбит/с, где п = 1, 2,..., 30.
Рекомендации включают описание механизма кодирования и схему
организации видеоданных в иерархическую структуру. Сжатие видеопото-
ка достигается применением гибридной схемы кодирования источника, ко-
дированием Хаффмана в видеомультиплексоре и, опционально, примене-
нием алгоритма оценки вектора перемещения элементов изображения.
Обобщенная блок-схема кодека представлена на рис. 3.4.

Рис. 3.4. Обобщенная схема кодера стандарта Н.261

Кодер источника рабо-


тает с последовательностью О о о о о о о о
кадров без чередования
строк, имеющей скорость о о о о о о о о
29,97 кадров/с. Вместе с тем,
О о О о о О о о
должна быть реализована
возможность ограничения о о о
о о о о о
максимальной скорости по-
тока видеоданных посредст- о о о о О о о о
вом пропуска 1-, 2- или 3-х
кадров между каждыми дву- О о о о о О о о
мя передаваемыми кадрами,
что и обеспечивает соответ- о о о о о о о о
ственно скорости 15, 10 и 7,5
кадров/с. Кадр по рекомен- о о о о о о о о
дации Н.261 (в формате C1F) Яркости ая с Цвсторазностна»
описывается матрицей сиг- компонента ' компонента

налов яркости размером


352x288. Каждая из цвето- Рис. 3.5. Расположение выборок сигналов
разностных компонент явля- яркости и цветоразностных компонент
в стандарте Н.261
ется элементом матрицы
176x144. Расположение выборок сигналов яркости и цветоразностных
компонент представлено на рис. 3.5.
Для эффективной реализации алгоритма кодирования, рекомендован-
ного ГШ, кадр изображения делится на ряд составляющих, организован-
ных в иерархическую структуру: кадр - группа блоков - макроблок - блок.
Блок объединяет 8x8 отсчетов сигналов яркости Y или 8x8 отсче-
тов цветоразностных сигналов (блоки С в и CR ). Объединение четырех
блоков Y и двух цветоразностных блоков (по одному С в и CR ) форми-
рует макроблок. В свою очередь 33 макроблока объединяются в группу
блоков.
Таким образом, кадр в формате CIF содержит 12 групп блоков, а в
формате QCIF - 3 группы блоков. Рекомендации Н.261 требуют, чтобы
все кодеки поддерживали формат QCIF; работа с форматом CIF являет-
ся факультативной возможностью большинства кодеков.
Для передачи потока видеоданных интенсивностью 29,97 кадров/с
без применения процедур сжатия в формате CIF требуется канал с про-
пускной способностью 36,45 Мбит/с, а в формате QCIF - 9,115 Мбит/с.
Очевидно, что такие каналы не могут быть широко доступными, и ос-
новной задачей кодирования видеоданных является уменьшение интен-
сивности выходного битового потока посредством исключения про-
странственной и временной избыточности информации, содержащейся
в обрабатываемой последовательности кадров.
Кодирование источника изображения реализуется в режимах внут-
рикадрового и межкадрового кодирования.
Режим внутрикадрового кодирования устраняет пространственную
избыточность. Он используется для первого кадра и для кадров с суще-
ственным изменением сцен.
Режим межкадрового кодирования устраняет временную избыточ-
ность, содержащуюся в последовательности кадров с малой динамикой
изменения сцен.
Блок-схема Н.261-кодера источника представлена на рис. 3.6. Его
основными элементами являются предсказатель, преобразователь и блок
квантования. Кодер реализует так называемую гибридную схему, объеди-

Рис. 3.6. Схема Н.261-кодера источника


няющую кодирование с преобразованием (DCT) и дифференциальную им-
пульсно-кодовую модуляцию (ДИКМ) с оценкой перемещения. На рис. 3.6
обозначение выводов имеет следующий смысл: р - флаг Intra/Inter; I -
флаг передачи блока; qZ - индекс квантования; q - коэффициенты DCT;
v - вектор перемещения; / — флаг фильтра вкл/выкл.
Кодер использует прямое и обратное дискретное косинусное пре-
образование.
Прямое преобразование переводит матрицу яркостных или цвето-
разностных сигналов, значения элементов которых находятся в диапа-
зоне целых чисел ±255, в матрицу коэффициентов преобразования,
значения которых могут находиться в интервале [-2048; 2047].
Обратное преобразование позволяет восстановить исходные ком-
поненты описания изображения по значениям коэффициентов DCT.
В режиме внутрикадрового кодирования ДИКМ не используется, а
каждый блок кадра преобразуется в коэффициенты DCT, которые далее
подвергаются линейному квантованию и пересылаются в видеомульти-
плексор. Этот же кадр восстанавливается и сохраняется в кадровой па-
мяти для использования при межкадровом кодировании.
Заметим, что не каждый блок должен подвергаться DCT; эта опе-
рация реализуется лишь для блоков, имеющих определенную степень
отличия от предыдущего.
Критерии разделения блоков на обрабатываемые и необрабаты-
ваемые и выбора режима Intra/Inter не является предметом рекоменда-
ций Н.261. Они могут изменяться динамически в соответствии со стра-
тегией контроля процесса кодирования.
В режиме межкадрового кодирования реализуется схема метода
ДИКМ.
Предсказание содержания макроблока текущего кадра основыва-
ется на оценке вектора перемещения. Эта оценка производится посред-
ством сравнения макроблока текущего кадра (только яркостных компо-
нент) с макроблоками ближайшего окружения соответствующего мак-
роблока предыдущего кадра. Обе компоненты (вертикальная и горизон-
тальная) вектора перемещения представляются целыми числами из диа-
пазона ±15 . Этот вектор используется для всех четырех яркостных бло-
ков, принадлежащих текущему макроблоку.
Вектор перемещения для цветоразностных компонент макроблока
формируется делением пополам (с усечением) соответствующих ком-
понент вектора перемещения яркостных блоков. В кодере предусматри-
вается механизм ограничения вектора перемещения так, чтобы все эле-
менты предсказанного изображения находились в пределах поля кадра.
Используя оценку вектора перемещения, вычисляется предсказа-
ние макроблока текущего кадра и посредством сравнения его с ориги-
налом оценивается степень приемлемости предсказания. Если она дос-
таточно высока, то в канал передается только значение вектора переме-
щения. Если же качество предсказания признается неудовлетворитель-
ным, то кроме вектора перемещения формируется сигнал ошибки век-
тора предсказания, который после процедур DCT и квантования посту-
пает на видеомультиплексор.
Петлевой фильтр, входящий в структуру кодека, позволяет не-
сколько повысить качество изображения посредством фильтрации вы-
сокочастотных шумовых компонент. Квантование коэффициентов DCT
является важнейшим этапом в процессе сокращения объема информа-
ции, подлежащей передаче.
Отметим отличия в «спектрах» сигналов, представляющих блоки в
режимах «Intra» и «Inter». Спектр сигналов блоков в режиме «Intra» имеет
больше отличных от нуля компонент в низкочастотной области. Ошибки
квантования этих составляющих сигнала оказывают существенно боль-
шее негативное влияние на восстанавливаемое изображение, чем ошибки
той же величины при квантовании высокочастотных компонент. Это об-
стоятельство приводит к необходимости использования квантователей
двух типов, отличающихся своими характеристиками в области малых
входных сигналов. Квантователь для НЧ-компонент (рис. 3.7,а) имеет
существенно меньшую зону нечувствительности вблизи нуля, в сравне-
нии с квантователей для ВЧ-компонент (рис. 3.7,6).

Рис. 3.7. Квантователи НЧ-(я) и ВЧ-(б) компонент изображения

Еще одной особенностью квантователя является необходимость


регулирования шага квантования. Такое регулирование необходимо для
более качественной передачи блоков, связанных с перемещающимися
объектами изображения, и для регулирования скорости выходного би-
тового потока.
В соответствии с рекомендациями Н.261 кодер должен содержать ли-
нейку из 32 квантователей. Один из них обеспечивает квантование коэф-
фициента F(0, 0) в режиме «Intra» (наиболее значима компонента в спек-
тре DCT), а остальные Moiyr использоваться для кодирования любых дру-
гих коэффициентов. Квантование всех коэффициентов производится по
линейному закону. Шаг квантования для коэффициента F(0, 0) устанав-
ливается равным восьми, а для всех остальных коэффициентов он может
изменяться в диапазоне от 2 до 62 (более мелкий шаг не позволит пере-
крыть весь динамический диапазон величин коэффициентов DCT).
Дальнейшее сокращение интенсивности битового потока достигается
использованием в видеомультиплексоре, находящемся сразу за кодером ис-
точника, кодирования с переменной длиной слова. Эффективность этого
алгоритма основывается на том, что разные уровни на выходе квантователя
появляются с разной частотой, что и позволяет, представляя их кодовыми
словами разной дтины, сократить общий битовый поток.
Процедура кодирования в мультиплексоре содержит т р и э т а п а .
Э т а п 1. Z-сканирование матрицы проквантованных коэффици-
ентов DCT.
Э т а п 2. Групповое кодирование
Э т а п 3. Кодирование с переменной длиной слова по Хаффману.
Процесс z-сканирования (этап 1) преобразует матрицу в одномер-
ный массив. Такая траектория сканирования обеспечивает расположе-
ние в начальных элементах одномерного массива низкочастотных (наи-
более значимых) компонент массива коэффициентов DCT.
Групповое кодирование (этап 2) преобразует одномерный массив в
массив пар символов {т 1, п 2}, где т означает число нулевых коэффи-
циентов, предшествующих очередному ненулевому; п - величину оче-
редного ненулевого коэффициента DCT.
Массив полученных таким образом пар значений сжимается по
Хаффману (этап 3) с одной из возможных пяти фиксированных таблиц.
Сигнал с выхода видеомультиплексора направляется в буфер пе-
редатчика, откуда с постоянной скоростью считывается в канал связи.
Переполнение буфера предотвращается обратной связью с квантовате-
лем, регулирующим величину шага квантования.
Одним из важнейших аспектов всякого стандарта видеокодирова-
ния является однозначное определение структуры видеопотока, без чего
была бы невозможной работа декодера приемника. Упрощенная иерар-
хическая структура видеоданных, определенная рекомендациями Н.261,
представлена на рис. 3.8.
Заголовок Данные группы Данные группы
кадра КАДР
блоков блоков
* — —

Заголовок Данные Данные ГРУППА


гр. блоков макроблока макроблока КЛОКОВ

Заголовок Данные Данные


Поле МЛКРОЬЛОК
макроолока блока блока
фиксированной |
длины 1 J — ___
Поле
переменной I 1 Коэфф Коэфф. Коней
БЛОК
ллины ' J DCT OCT блока

Рис. 3.8. Структура видеопотока стандарта Н.261


Каждый кадр содержит заголовок и следующие за ним данные
групп блоков. Заголовок кадра включает в себя 20-битный старткод, ин-
формацию о формате кадра (CIF, QCIF), временные метки (номер кадра)
и ряд других сведений. Заголовки пропущенных кадров не передаются.
Данные групп блоков состоят из заголовка каждой группы блоков
(12 для CIF и 3 для QCIF) и данных макроблоков.
Заголовок группы блоков передается даже в том случае, когда ни
один из передаваемых макроблоков в данную группу не входит. Заголо-
вок группы блоков содержит 16-битный старт-код, номер группы и но-
мер квантователя, который будет считаться используемым для всех
макроблоков этой группы до тех пор, пока информация о квантователе,
содержащаяся в заголовке макроблока, не переопределит его.
Уровень макроблока содержит заголовок и данные. Заголовок
макроблока включает кодовое слово переменной длины, которое опре-
деляет позицию макроблока внутри группы блоков, а также набор дан-
ных, характеризующих тип .макроблока, а именно: является .макроблок
внутрикадровым или межкадровым; передается с вектором перемеще-
ния или нет; использовался ли петлевой фильтр или нет.
Заголовок содержит также информацию, позволяющую вычислить
номера блоков, для которых в разделе данных передаются значения ко-
эффициентов DCT. Уровень блока содержит коэффициенты DCT и за-
вершающий указатель окончания блока (ЕОВ - end of block).
Синхронизация передатчика осуществляется от внешнего источ-
ника, например, от интерфейса 1.420. Видеоданные направляются в ка-
нал передачи каждый цикл кадрами по 511 бит. Из них 493 бита запол-
няется данными, поступающими от видеомультиплексора, а 18 бит от-
водятся для кода коррекции ошибок. Терминал, проводящий декодиро-
вание, выделяет контрольные биты и либо не производит никаких дей-
ствий, либо запускает алгоритм, способный исправить в кадре любую
ошибку до 6 бит, или две единичные ошибки.
Использование механизма коррекции ошибок декодером является
факультативной функцией.
3.2.2. Рекомендация Н.262
Рекомендации Н.262 определяют набор алгоритмов сжатия видеопосле-
довательностей, посредством которых могут быть удовлетворены тре-
бования весьма широкого круга приложений. Систематизация этих воз-
можностей достигается введением концепции профилей и уровней.
Профиль представляет собой определенную подсистему в струк-
туре выходного битового потока, а его уровень определяется набором
ограничений, налагаемых на параметры битового потока.
Наиболее подходящим для Н.320-систем видеоконференцсвязи яв-
ляется простой профиль основного уровня (SPML - Simple Profile at
Main Level). Простой профиль запрещает использование так называе-
мых В-кадров в процедуре кодирования видеопотока, поскольку это ве-
дет к заметному увеличению времени обработки видеопотока.
Основной уровень простого профиля определяет, что максималь-
ное число пикселей в строке изображения равно 720, максимальное
число строк в кадре - 576 и максимальная скорость видеопоследова-
тельности - 30 кадров/с.
В некоторых случаях, когда можно мириться с относительно
большой задержкой видеопотока, рекомендации Н.320 допускают ис-
пользование основного профиля основного уровня (Main Profile Main
Level - MPML). Все остальные уровни и профили, допускаемые в
Н.262-системах, использовать в Н.320-системах запрещается.
Профили SPML и MPML располагают способностью поддерживать
большое число форматов изображения. Из соображений совместимости
Н.320-систем число допустимых форматов ограничено следующими:
CIF: 325x288 - (25 кадров/с);
352x240 - (29,97 кадров/с);
352x288 - (29,97 кадров/с);
2CIF: 352x576 - (25 кадров/с);
352x480 - (29,97 кадров/с);
4CIF: 704x576 - (25 кадров/с);
704x480 - (29,97 кадров/с).
Если для Н.261 кодека использование механизма коррекции оши-
бок является необязательной функцией, то применение Н.262-кодека в
Н.320-системе требует обязательной реализации процедуры коррекции
ошибок, как в кодере, так и в декодере.
3.2.3. Рекомендация Н.263
Рекомендация Н.263 предлагает несколько новых возможностей, обес-
печивающих более высокую производительность кодека. В своем ба-
зисном режиме он реализует более тонкую стратегию компенсации пе-
ремещения. В опциональных режимах кодек Н.263 располагает сле-
дующими возможностями:
снятие ограничения на вектор перемещения, т.е. этот вектор может
предсказывать перемещения за пределы кадра; в этом случае перемеще-
ние ищется из числа допустимых векторов, находящихся в окрестности
вычисленного, а не полагается нулевым, как в Н.261-кодеке;
в видеомультиплексоре применяется арифметическое кодирование
с переменной длиной слова взамен хаффмановского, что несколько уве-
личивает степень сжатия битового потока;
в процедуре сжатия допускается использование В-кадров.
Дополнительно к форматам CIF и QCIF допускается использова-
ние форматов:
• SQCIF 128x96-(29,97 кадров/с);
• 4CIF 704x576-(29,97 кадров/с);
• 16CIF 1408x1152-(29,97 кадров/с).
Применение Н.263-кодера требует обязательной реализации меха-
низма коррекции ошибок Н.320-терминала.
3.2.4. Иерархия алгоритмов обработки видеоинформации
Для усиления гарантий взаимодействия Н.320-систем, имеющих раз-
личные кодеки (Н.261, Н.262, Н.263), разработана схема иерархии ви-
деокодеков. Эта иерархия построена на базе формата изображений,
поддерживаемых каждым из алгоритмов (рис. 3.9).

Рис. 3.9. Схема иерархии алгоритмов обработки видеоинформации

В представленной схеме алгоритм Н.261 соответствует самому


низкому уровню, а алгоритм H.262 MPML является самым высоким
уровнем. Всякая схема должна поддерживать любой эквивалентный и
нижележащий уровень разрешения. Так, например, пары режимов
H.261CIF и H.263 4CIF/H.262 4CIF являются эквивалентными.
В этой иерархической схеме содержится требование, чтобы алго-
ритм более низкого уровня имел показатель MPI (Minimum Pictures In-
tervals - минимальная частота кадров видеопотока), не худший в срав-
нении с эквивалентным уровнем вышележащего алгоритма, т.е. при
одинаковых форматах изображения нижележащий алгоритм должен
обеспечивать равную или более высокую скорость видеоряда. Таким
образом, Н.320-система, располагающая кодеком H.262 MPML CIF,
должна быть совместима с системами H.262_SPML_CIF, H.261_CIF,
H.263 QCIF, H.263 SQCIF, H.261_CIF, H.261_QCIF. При этом характе-
ристики видеопотока в системе Н.261 QCIF должны быть не хуже, чем
в системе с кодеком Н.263 QCIF/SQCIF.
Рекомендации Н.242 детализируют синтаксис и процедуры совме-
стного использования этих трех алгоритмов, включая обязательные ус-
ловия согласования их индивидуальных форматов и частот кадров.
Функциональные возможности Н.320-систем расширены и за счет
допущения асимметричного режима работы терминала, в котором разре-
шается, например, передавать изображение в режиме H.262 SPML4CIF,
а принимать в режиме H.261_CIF.
ГЛАВА 4. СЕМЕЙСТВО
СТАНДАРТОВ MPEG

MPEG - это не метод цифрового сжатия как таковой; более того, опре-
делить MPEG каким-то одним термином затруднительно. MPEG - это
набор стандартных средств или точно определенных алгоритмов, кото-
рые могут комбинироваться многими способами при реализации аппа-
ратуры цифрового сжатия аудиовизуальной информации.

4.1. История развития семейства стандартов MPEG


Под покровительством объединенного технического комитета по ин-
формационным технологиям (JTC1), Международной организации по
стандартизации (ISO - International Organization for Standardization) и
Международной электротехнической комиссии (IEC - International Elec-
trotechnical Commission) в 1988 г. была образована рабочая группа экс-
пертов по кодированию движущихся изображений. Перед ней была по-
ставлена задача разработки стандартов кодирования изображения и зву-
ка с целью устранения избыточности. Группа получила официальное
наименование ISO/IEC JTC1/SC29/WG11, но мировую известность она
приобрела как MPEG (Motion Pictures Experts Group - Группа экспертов
по движущимся изображениям).
Общая цель работы группы - разработка стандартов компрессии, об-
работки и кодового представления изображения, звука и их комбинаций.
Основные проекты группы:
• MPEG-1 (ISO/IEC 11172) - регламентирует процесс кодирова-
ния изображение и звука при скоростях передачи данных до
1,5 Мбит/с . Спецификация MPEG-1 Video для видеоданных разработа-
на в 1992 г., а стандартизирована на год позже как ISO/IEC 11172-2.
Позднее были разработаны и стандартизированы сопутствующие спе-
цификации для аудиоданных - MPEG-1 Audio Layer-1, Layer-2 и Layer-3
(ISO/IEC 11172-3). Последняя используется при создании аудио ком-
пакт-дисков и аудиофайлов формата МРЗ. Отличительной особенно-
стью стандарта является использование построчной, а не чересстрочной
развертки;
• MPEG-2 (ISO/IEC 13818) - предназначен для использования в
телевизионных системах, включая телевидение высокой четкости
(HDTV - High Definition TV) со скоростью передачи данных
4 ... 30 Мбит/с . При скорости 9 Мбит/с передаваемое изображение со-
ответствует студийному качеству, при скорости 3 Мбит/с - качеству
бытового телевидения, а при 15... 30 Мбит/с качеству изображения
HDTV. Алгоритм MPEG-2, в результате удаления пространственной и
временной избыточности, позволяет снизить скорость передачи данных
при достаточно высоком качестве изображения;
• MPEG-3 - был разработан для HDTV приложений со скоростью
передачи данных 20 ... 40 Мбит/с. Ввиду отсутствия кардинальных ре-
шений (по сравнению с MPEG-2), MPEG-3 не выступил в роли само-
стоятельного стандарта;
• MPEG-4 (ISO/IEC 14496) - ориентирован на разрешение
174x144 пикселя при 10 кадрах/с, позволяет передавать данные со ско-
ростью от 64 кбит/с до 4 Мбит/с.
MPEG-4 может самостоятельно масштабировать графические объ-
екты, преобразовывать трехмерные модели объектов в двухмерное изо-<