Вы находитесь на странице: 1из 290

4.1.1.

1 Архитектура сетей Ethernet


Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Варианты сети Ethernet


Структура МАС-адреса
Алгоритм доступа CSMA/CD
Нагрузочная способность сети
Оптоволокнонная версия Ethernet
Система заземлений при построении сети

История создания протокола IEEE-802.3 (Ethernet) достаточно


любопытна. Первоначальная версия базировалась на алгоритме доступа
ALOHA и предназначалась для установления связи между машинами,
раскиданными по Гавайским островам. Позднее компания Ксерокс
создала систему на основе алгоритма CSMA/CD с быстродействием
2,94Мбит/c. Окончательно принципы сети Ethernet разработаны в 1976
году Меткальфом и Боггсом (фирма Ксерокс). Ethernet совместно со
своими скоростными версиями Fast Ethernet (FE), Giga Ethernet (GE) и
10GE занимает в настоящее время абсолютно лидирующее положение.
Единственным недостатком данной сети является отсутствие гарантии
времени доступа к среде (и механизмов, обеспечивающих приоритетное
обслуживание), что делает сеть малоперспективной для решения
технологических задач реального времени. Определенные проблемы
иногда создает ограничение на максимальное поле данных, равное ~1500
байт.

Выбор длины поля данных диктовался уровнем ошибок (BER) для


технологий, существовавших на момент разработки стандарта Ethernet.
Первоначально в качестве среды передачи данных использовался
толстый коаксиальный кабель (Z=50 Ом), а подключение к нему
выполнялось через специальные устройства (трансиверы). Позднее сети
начали строиться на основе тонкого коаксиального кабеля. Но и такое
решение было достаточно дорогим. Разработка дешевых
широкополосных скрученных пар и соответствующих разъемов открыла
перед Ethernet широкие перспективы. Те, кому приходилось работать с
коаксиальными кабелями Ethernet, знают, при подсоединении или
отсоединении разъема можно получить болезненные удары тока. Для
скрученных пар это исключено. Но и эта технология не вечна, скрученные
пары мало-помалу уступают свои позиции оптоволоконным кабелям.

Для разного быстродействия Ethernet используются разные схемы


кодирования, но алгоритм доступа и формат кадра остается неизменным,
что гарантирует программную совместимость.

Не трудно видеть, что все перечисленные физические среды


используют последовательный формат передачи информации. К этой
разновидности относится и Ethernet (10 Мбит/с ±0,01%). Фирма Ксерокс
осуществила разработку протокола Ethernet в 1973 году, а в 1979 году
объединение компаний Ксерокс, Интел и DEC (DIX) предоставило
документ для стандартизации протокола в IEEE. Предложение с
небольшими изменениями было принято комитетом 802.3 в 1983 году.
Кадр Ethernet имеет формат, показанный на рис. 4.1.1.1.1.

Рис. 4.1.1.1.1 Формат кадра сетей Ethernet (цифры в верхней части


рисунка показывают размер поля в байтах)
Поле преамбула содержит 7 байт 0хАА и служит для стабилизации и
синхронизации среды (чередующиеся сигналы CD1 и CD0 при завершающем CD0),
далее следует поле SFD (start frame delimiter = 0xab), которое предназначено для
выявления начала кадра. Поле EFD (End frame delimiter) задает конец кадра. Поле
контрольной суммы (CRC - cyclic redundancy check), также как и преамбула, SFD и
EFD, формируются и контролируются на аппаратном уровне. В некоторых
модификациях протокола поле efd не используется. Пользователю доступны поля,
начиная с адреса получателя и кончая полем информация, включительно. После
crc следует межпакетная пауза (IPG - interpacket gap - межпакетный интервал)
длиной 9,6 мксек или более. Максимальный размер кадра равен 1518 байт (сюда
не включены поля преамбулы, SFD и EFD). Интерфейс просматривает все пакеты,
следующие по кабельному сегменту, к которому он подключен, ведь определить,
корректен ли принятый пакет и кому он адресован, можно лишь приняв его
целиком. Корректность пакета по CRC, по длине и кратности целому числу байт
производится после проверки адреса места назначения. Вероятность ошибки
передачи при наличии crc контроля составляет ~2 -32. При вычислении
CRCиспользуется образующий полином:
G(x) = x32 + x26 + x23 + x22 + x16 + x12 + x11 + x10 + x8 + x7 + x5 + x4 + x2 + x + 1.
Алгоритм вычисления CRC сводится к вычислению остатка от деления кода
M(x), характеризующего кадр, на образующий полином G(x) (Carrier Sense Multiple
Access with Collision Detection (CSMA/CD) Access Method and Physical Layer
Specification. Published by IEEE (802.3-1985). Wiley-Interscience, John & sons, inc.).
CRC представляет собой дополнение полученного остатка R(x). CRC
пересылается, начиная со старших разрядов. Схема взаимодействия различных
субуровней при реализации протокола IEEE 802.3 показана на рис 4.1.1.1.2. Выше
llc размещаются верхние субуровни, включая прикладной. Через AUI данные
передаются с использованием манчестерского кода.

Рис. 4.1.1.1.2. Схема взаимодействия субуровней 802.3 (CSMA/CD)


Манчестерский код объединяет в бит-сигнале данные и синхронизацию.
Каждый бит-символ делится на две части, причем вторая часть всегда является
инверсной по отношению первой. В первой половине кодируемый сигнал
представлен в логически дополнительном виде, а во второй - в обычном. Таким
образом, сигнал логического 0 - CD0 характеризуется в первой половине уровнем
HI, а во второй LO. Соответственно сигнал CD1 характеризуется в первой половине
бит-символа уровнем LO, а во второй - HI. Примеры форм сигналов при
манчестерском кодировании представлены на рис. 4.1.1.1.3.

Рис. 4.1.1.1.3 Примеры кодировки с использованием манчестерского кода


Варианты сети Ethernet
Ниже в таблице 4.1.1.1.1 приведены ограничения, налагаемые на сеть
Ethernet в целом и на отдельные ее фрагменты.
Таблица 4.1.1.1.1. Возможности различных схем реализации ethernet
Тип кабеля Толстый Тонкий Скрученная
(10base5) (10base2) пара
(10baseT)
Максимальная длина сети (м) 2500 900 -
Максимальная длина 500 185 100
кабельного сегмента (м)
Максимальное число 100 30 1
подключений к сегменту
Минимальное расстояние 2.5 0.5 -
между точками подключения
(м)
Максимальное удаление узлов 5 сегментов 5 сегментов 5 сегментов
и4 и4 и4
повторителя повторителя повторителя

Из таблицы видно, что максимальная задержка в сети Ethernet складывается


из:
1. 4*tr (задержка, вносимая повторителями, при их максимальном числе =4; t r -
задержка сигнала в репитере, ~20 бит-тактов)
2. 4,5нсек/м*5*500м (задержка пяти кабельных сегментов)
3. 4нсек/м*2*50м (задержка, вносимая двумя кабелями aui, первого и последнего
сегментов)
4. задержки сетевых интерфейсов и трансиверов (~2*20 бит-тактов)
В сумме это соответствует ~220 бит-тактам. Минимальная длина пакета
должна быть больше удвоенного значения этой задержки (выбрано 64 байта = 512
тактов). Если размер пакета меньше 64 байт, добавляются байты-заполнители,
чтобы кадр в любом случае имел соответствующий размер. При приеме
контролируется длина пакета и, если она превышает 1518 байт, пакет считается
избыточным и обрабатываться не будет. Аналогичная судьба ждет кадры короче 64
байт. Любой пакет должен иметь длину, кратную 8 бит (целое число байт). Если в
поле адресата содержатся все единицы, адрес считается широковещательным, то
есть обращенным ко всем рабочим станциям локальной сети. Пакет Ethernet может
нести от 46 до 1500 байт данных.
При подключении ЭВМ к сети непосредственно с помощью переключателя
ограничение на минимальную длину кадра теоретически снимается. Но работа
с более короткими кадрами в этом случае станет возможной лишь при замене
сетевого интерфейса на нестандартный (причем, как у отправителя, так и
получателя)!
Структура МАС-адреса
Формат адреса получателя или отправителя (MAC) показан на рис. 4.1.1.1.4.
Для передачи данных на физическом уровне используется манчестерский код.
Рис. 4.1.1.1.4. Формат MAC-адреса
В верхней части рисунка указана длина полей адреса, в нижней - нумерация
разрядов. Субполе I/G представляет собой флаг индивидуального или группового
адреса. I/G=0 - указывает на то, что адрес является индивидуальным адресом
сетевого объекта. I/G=1 характеризует адрес как мультикастинговый, в этом случае
дальнейшее разбиение адреса на субполя теряет смысл. Субполе UL является
флагом универсального или местного управления (определяет механизм
присвоения адреса сетевому интерфейсу). U/L=1 указывает на локальную
адресацию (адрес задан не производителем и ответственность за уникальность
лежит на администраторе LAN). U/L=I/G=0 характерно для стандартных уникальных
адресов, присваиваемых интерфейсу его изготовителем.
Субполе OUI (organizationally unique identifier) позволяет определить производителя
сетевого интерфейса. Каждому производителю присваивается один или несколько
OUI. Размер субполя позволяет идентифицировать около 4 миллионов различных
производителей. За корректность присвоения уникального адреса интерфейса
(OUA - Organizationally unique address) несет ответственность производитель. Двух
интерфейсов одного и того же производителя с идентичными номерами не должно
существовать. Размер поля позволяет произвести примерно 16 миллионов
интерфейсов. Комбинация oui и oua составляют UAA (universally administrated
address = IEEE-адрес).
Если в поле кадра протокол/тип записан код менее 1500, то это поле
характеризует длину кадра. В противном случае - это код протокола, пакет которого
инкапсулирован в кадр Ethernet.
Доступ к каналу Ethernet базируется на алгоритме CSMA/CD (carrier sense
multiple access with collision detection). В Ethernet любая станция, подключенная к
сети, может попытаться начать передачу пакета (кадра), если кабельный сегмент, к
которому она подключена, свободен. Свободен ли сегмент, интерфейс определяет
по отсутствию "несущей" в течение 9,6 мксек. Так как первый бит пакета достигает
остальных станций сети не одновременно, может случиться, что попытку передачи
совершат две или более станций, тем более что задержки в повторителях и
кабелях могут достигать достаточно больших величин. Такие совпадения попыток
называются столкновениями. Столкновение (коллизия) распознается по наличию в
канале сигнала, уровень которого соответствует работе двух или более
трансиверов одновременно. При обнаружении столкновения станция прерывает
передачу. Возобновление попытки может быть произведено после выдержки
(кратной 51,2 мксек, но не превосходящей 52 мсек), значения которой является
псевдослучайной величиной и вычисляется каждой станцией независимо (t=
RAND(0,2min(n,10)), где n - содержимое счетчика попыток, а число 10 - backofflimit).
Обычно после столкновения время разбивается на ряд дискретных доменов
с длиной равной удвоенному времени распространения пакета в сегменте (RTT).
Для максимально возможного RTT это время равно 512 бит-тактам. После первого
столкновения каждая станция ждет 0 или 2 временного домена, прежде чем
совершить еще одну попытку. После второго столкновения каждая из станций
может выждать 0, 1, 2 или 3 временного домена и т.д.. После n-ого столкновения
случайное число лежит в пределах 0 - (2n - 1). После 10 столкновений
максимальное значение случайной выдержки перестает расти и остается на уровне
1023.
Теперь рассмотрим поведение сети при наличии k станций, готовых к
передаче [46]. Если некоторая станция осуществляет передачу во время домена
доступа с вероятностью p, вероятность того, что станция захватит канал равна:

A=kp(1-p)k-1
A достигает максимума при p=1/e. A -> 1/e при k ->∞. Среднее число доменов
на один доступ равно 1/А. Так как каждый домен имеет протяженность RTT, то
средняя длительность времени доступа составит RTT/A. Если среднее время
передачи кадра составляет P секунд, то при большом числе станций, готовых к
передаче эффективность канала составит P/(P+RTT/A).

Таким образом, чем длиннее кабельный сегмент, тем больше среднее


время доступа.

После выдержки станция увеличивает на единицу счетчик попыток и


начинает очередную передачу. Предельное число попыток по умолчанию равно 16,
если число попыток исчерпано, связь прерывается и выдается соответствующее
сообщение. Передаваемый длинный кадр способствует "синхронизации" начала
передачи пакетов несколькими станциями. Ведь за время передачи с заметной
вероятностью может возникнуть необходимость передачи у двух и более станций.
В момент, когда они обнаружат завершение пакета, будут включены таймеры IPG.
К счастью информация о завершении передачи пакета доходит до станций
сегмента не одновременно. Но задержки, с которыми это связано, являются также
причиной того, что факт начала передачи нового пакета одной из станций не
становится известным немедленно. При вовлечении в столкновение нескольких
станций они могут уведомить остальные станции об этом, послав сигнал "затора"
(jam - не менее 32 бит). Содержимое этих 32 бит не регламентируется. Такая схема
делает менее вероятным повторное столкновение. Источником большого числа
столкновений (помимо информационной перегрузки) может служить запредельная
суммарная длина логического кабельного сегмента, слишком большое число
повторителей, обрыв кабеля, отсутствие терминатора (50-омного согласователя
кабеля) или неисправность одного из интерфейсов. Но сами по себе столкновения
не являются чем-то негативным - это механизм, регулирующий доступ к сетевой
среде.
Под логическим кабельным сегментом (иногда называемым областью
столкновений) подразумевается один или несколько кабельных сегментов,
объединенных повторителями. Анализ столкновений является одним из средств
эффективной диагностики сети. Локальные столкновения (столкновения на
сегменте, к которому непосредственно подключена рабочая станция) порождают
укороченные пакеты-фрагменты (ведь их передача прерывается) с длиной менее
64 октетов. Большинство трансиверов и репитеров имеют на своих передних
панелях индикаторы столкновений. Блок-схема реализации протокола CSMA/CD
показана на рис. 4.1.1.1.4. Особое внимание я бы хотел обратить на влияние
сигнала jam. В процессе пересылки столкнувшихся пакетов и за время передачи
сигнала jam другие узлы могли захотеть что-то передать. Если таких узлов больше
одного, то это приведет к синхронизации начала передачи этими узлами и к
увеличению вероятности столкновения. Практически такую "синхронизацию" может
осуществить любой достаточно длинный пакет. Такая синхронизация является
причиной "коллапса" сети при большой загрузке.

Обойти проблему роста вероятности столкновений в сети можно,


исключив из сети повторители и строя сеть исключительно на основе
переключателей и маршрутизаторов, работающих в полнодуплексном
режиме.
Алгоритм доступа CSMA/CD

Рис. 4.1.1.1.5 Блок-схема реализации алгоритма доступа к сетевой среде CSMA/CD


Метод CSMA/CD создает неопределенность времени доступа к сети, что
делает ее неудобной для решения некоторых задач управления в реальном
масштабе времени, где требуется малое время реакции системы на внешнее
воздействие.

Рис. 4.1.1.1.6 Схема некоторых возможных вариантов подключения рабочих


станций к Ethernet
Исторически первой появилась схема подключения к толстому 50-
омному коаксиальному кабелю (сегмент 1 на рис. 4.1.1.1.6; Z=50 ±2 Ом)
через трансивер и многожильный кабель типа AUI (attachment unit
interface, максимальная длина 50 м). Трансивер подключается к кабелю
методом "наколки", то есть во внешней оплетке и изоляции сверлится с
помощью специального инструмента отверстие и через него
осуществляется контакт трансивера с центральной жилой кабеля и
экраном. Кабель по возможности не должен содержать сросток, в
противном случае его предельная длина должна быть сокращена.
Кабельный сегмент должен быть согласован с обоих сторон с помощью
терминаторов (50 Ом ±1%). Позднее стала популярной схема соединений
через тонкий коаксиальный кабель и t-образные коаксиальные разъемы
(волновое сопротивление 50 Ом). В настоящее время наибольшее
применение находит схема со специальными многовходовыми
повторителями-концентраторами (Hub) и подключением оконечного
оборудования через скрученные пары. Для подключения используется 8-
контактный разъем RJ-45 (см. приложение 10.17 Разводка разъемов).
Этому способствует удешевление категорированных скрученных пар,
соответствующих повторителей, а также большая надежность и лучшая
ремонтоспособность таких сетей. Следует иметь в виду, что предельные
длины для коаксиальных кабелей, приведенные в таблице 4.1.1.1.1
относятся к зарубежным типам, в частности в случае тонкого кабеля - это
rg-58. Отечественные разновидности кабеля, например РК-50-2-11,
допускают (при максимальной загрузке) длины примерно в 1,3-1,5 раз
меньше. Это связано с меньшим сечением центральной жилы и большей
вариацией волнового сопротивления. Если же число ЭВМ подключенных к
кабельному сегменту много меньше предельного, допускается
использование и запредельных длин кабельных сегментов, но это не
рекомендуется. Пропускная способность сети с методом доступа csma/cd
снижается по мере роста загрузки из-за увеличения вероятности
столкновений. По этой причине даже использование 100-мегагерцного
ethernet не может гарантировать большей пропускной способности (по
сравнению с обычным, см. рис. 4.1.1.1.8) при условии высоких загрузок и,
как следствие, высоких вероятностей столкновений. ethernet-интерфейс
перед началом передачи контролирует состояние кабельного сегмента
(наличие несущей), выжидает некоторое время, если сегмент занят, после
чего производит попытку передачи с контролем возможности
столкновения.
Если в поле адресата содержатся все единицы, адрес считается
широковещательным, то есть обращенным ко всем рабочим станциям
локальной сети. Пакет Ethernet может нести от 46 до 1500 байт данных.
Схема интерфейса на уровне MAU(Media Attachment Unit) в упрощенном
виде имеет вид, показанный на рис. 4.1.1.1.7.
Рис. 4.1.1.1.7. Схема интерфейса на уровне mau
Схема signal quality регистрирует коллизии и другие искажения
сигнала и выдает в этом случае флаг SQE (signal quality error). sqe
представляет собой сигнал CS0, посылаемый от MAU к DTE (точнее PMA
к PLS, см. рис. 4.1.1.1.2). Сигнал SQE посылается mau также в случае
завершения процесса передачи (output_idle). Узел isolate служит для
блокировки передачи данных в сетевую среду, при этом DTE передает
mau сигнал CS0. Суммарная емкостная нагрузка, вносимая mau, не
должна превышать 4 пф. Входное сопротивление должно быть более 100
ком, а ток утечки должен лежать в пределах +2 мкА -25мкА. Выходной
драйвер mau при передаче выдает в кабель -90 ±4мa (эквивалентно
-2,05В на нагрузке 25 Ом). Предельное ослабление сигнала на длине 500
м не должно превышать 8,5 дБ (на частоте 10МГц).
При передаче сигнал распространяется в обоих направлениях по
кабелю от точки подключения интерфейса. При использовании тонкого
кабеля интерфейс должен иметь максимально большое входное
сопротивление и минимально возможную входную емкость, чтобы вносить
минимальные искажения для сигналов, распространяющихся по сегменту.
В случае работы со скрученными парами на "кабельный сегмент"
подключается только один интерфейс. Максимальное время прохождения
сигнала между узлами сети, принадлежащих одному сегменту,
называется окном коллизий и является важной рабочей характеристикой.
Помимо столкновений в сети может быть зарегистрировано
появление ложной несущей (FCE - false carrier event) - битовая
последовательность не имеет байта SFD, соответствующего конкретному
типу физической среды. Появление ложной несущей обычно связано с
состоянием кабеля или шумами. Если фиксируется появление двух
ложных несущих подряд, повторитель должен отключить порт (перевести
в состояние link unstable) и послать сигнал jam во все остальные порты.
Сигнал jam должен продолжаться до конца потока данных, вызвавшего
появление ложной несущей. Если канал восстановлен, повторитель
переводит порт в нормальное состояние. Отключение порта возможно
также при возникновении множественных коллизий (ECE - excessive
collision error) - более 60 коллизий подряд. После блокировки порта он
будет восстановлен, если в течении 500 тактов коллизии не обнаружены
или при повторном включении повторителя. Если рассмотреть
зависимость пропускной способности сети L от ее суммарной загрузки L in,
мы для Ethernet получим кривую, показанную на рис. 4.1.1.1.8.
Нагрузочная способность сети

Рис. 4.1.1.1.8. Зависимость пропускной способности l in сети со схемой доступа


CSMA/CD от суммарной загрузки l
Вначале эта зависимость линейна и на участке А пропускная способность
удовлетворительна. Но при больших входных загрузках из-за коллизий сначала
наступает насыщение, а затем и резкий спад (Ethernet collapse). Это свойство сетей
с CSMA/CD дает определенные преимущества сетям с маркерным доступом: Token
Ring, FDDI и др..

Учитывая эту особенность Ethernet, создатели сетей должны


ориентироваться не на предельно допустимые длины сегментов (потом
пригодится), а на минимально необходимые длины. Чем меньше длина
логического сегмента, тем меньше вероятность столкновения и тем
больше его реальная пропускная способность (меньше длина домена (RTT)).
А еще лучше - исключите из пользования повторители.

При диагностировании сетей не всегда под руками может оказаться


настоящий сетевой тестер типа Wavetek, и часто приходится довольствоваться
обычным авометром. В этом случае может оказаться полезной таблица 4.1.1.1.2,
где приведены удельные сопротивления используемых сетевых кабелей.
Произведя измерение сопротивления сегмента, вы можете оценить его длину.
Таблица 4.1.1.1.2 Сопротивление кабеля по постоянному току 
(Handbook of LAN Cable Testing. Wavetek Corporation, California)
Коаксиал Ом/сегмент Максимальная длина сегмента
10base5 5 500 м
10base2 10 185 м
Скрученная пара Ом/100 м
24 awg 18,8
22 awg 11,8

Данные, приведенные в таблице, могут использоваться для оперативной


предварительной оценки качества кабельного сегмента (соответствует стандарту
EIA/TIA 568, 1991 год).
Помимо уже описанных модификаций сетей ethernet в последнее время
получили распространение сети для частот 100 Мбит/с, которые базируются на
каналах, построенных из скрученных пар или оптоволоконных кабелей. Оптические
связи используются и в обычном 10-мегагерцном ethernet (10base-FL, стандарт
разработан в 1980 году, см. рис. 4.1.1.1.9).
Оптоволокнонная версия Ethernet
Оптоволоконная версия Ethernet привлекательна при объединении
сегментов сети, размещенных в различных зданиях, при этом увеличивается
надежность сети, так как ослабляется влияние электромагнитных наводок,
исключается влияние различия потенциалов земли этих участков сети.
Облегчается переход от 10- к 100-мегагерцному Ethernet, также можно
использовать уже имеющиеся оптоволоконные каналы, ведь они будут работать и
на 100 Мбит/с (возможна реализация сетей со смешанной структурой, где
используется как 100- так и 10-мегагерцное оборудование). На программном
уровне 10- и 100-МГц ethernet не различимы. Требования к параметрам опто-
волоконных кабелей не зависят от используемого протокола (FDDI, Token Ring,
Fast Ethernet и т.д.) и определяются документом EN 50173 (European norm). Это
утверждение не относится к топологии кабельных связей, которые в общем случае
зависят от используемого протокола. При работе с оптоволоконными системами
необходимы специальные тестеры, способные измерять потери света и отражения
методом OTDR (рефлектометрия с использованием метода временных доменов).
При пассивной звездообразной схеме длины оптоволоконных сегментов могут
достигать 500 метров, а число подключенных ЭВМ - 33. Для передачи сигналов
используются многомодовые волокна (MMF) с диаметром ядра 62,5 микрон и
клэдинга 125 микрон. Длина волны излучения равна 850 (или 1350) нанометров при
ослаблении сигнала в кабельном сегменте не более 12,5 дБ. Обычный кабель
имеет ослабление 4-5 дБ/км или даже менее. Оптические разъемы должны
соответствовать требования стандарта ISO/IEC BFOC/2,5 и вносить ослабление не
более 0,5 - 2,0 дБ. Количество используемых mau в логическом сегменте не должно
превышать двух.

Рис. 4.1.1.1.9. Схема 10-мегагерцного оптоволоконного Ethernet (для 100 Мбит/с


схема с минимальными модификациями аналогична).
На данном рисунке видно, что соединения повторителя с FOMAU является
дуплексным, аналогичные возможности предоставляют многие современные
переключатели. Полно дуплексное подключение оборудование во многих случаях
может обеспечить практическое удвоение скорости обмена и, что возможно более
важно, исключить столкновения пакетов. Схема полно дуплексного соединения
показана на рис. 4.1.1.1.10.
Рис. 4.1.1.1.10. Схеме реализации полно дуплексного канала Ethernet. (Буква К с
цифрой отмечает номера ножек контактов разъема)
При практической реализации локальной сети обычно возникает проблема
защиты и заземления. Если этой проблеме не уделить внимание в самом начале
она даст о себе знать позднее и обойдется ее решение дороже. Можно выделить
три аспекта. Безопасность персонала, работающего с ЭВМ и сетевым
оборудованием, устойчивость к внешним наводкам и помехам, а также
безопасность самого сетевого оборудования (противостояние грозовым разрядам
или резким скачкам в сети переменного тока (обычно ~220 В)). Безопасность
персонала обеспечивается тем, что все объекты, за которые может взяться
человек, должны иметь равные потенциалы и в любом случае разница
потенциалов не должна превышать 50 вольт. При работе с коаксиальным кабелем
существуют рекомендации его заземления в одной точке. Возникает вопрос, что
делать с заземлением экранов в случае использования экранированных
скрученных пар? Этой проблеме посвящена, например, статья в журнале LANline
Special Juli/August 2002 страницы 27-32. Следует сразу заметить, что нужно
избегать совмещения применения экранированных и неэкранированных
скрученных пар в пределах одной системы. Представляется также естественной и
разумной зонная концепция, рассматриваемая в упомянутой статье. На рис. 1.
показана схема защиты. Эта схема содержит защитные выключатели на случай
грозы или бросков напряжения (линия L). Буквой N обозначена нулевая
(нейтральная) шина, а буквами PE - защитная шина.
Система заземлений при построении сети

Рис. 4.1.1.1.11. Схема защиты для случая использования экранированных


скрученных пар
Рис. 4.1.1.1.12. Зоны заземлений
Земли-экраны соседних зон соединяются только в одной точке. Между
зонами могут включаться пограничные устройства фильтрации, предназначенные
для снижения уровня шумов и помех. В пределах зоны все устройства должны
быть эквипотенциальны. Это достигается за счет подключения к общему экрану.
Следует учитывать, что для сетей Ethernet практически нет ограничений по
размеру (за счет использования оптоволоконных переключателей). Сеть может
быть локальной, общегородской или даже междугородней. Надо только
помнить, что число машин в такой сети ограничивается имеющейся
емкостью таблиц переадресации сетевых переключателей (switch), на
базе которых построена эта сеть.

В заключение небольшая история из опыта эксплуатации сети в


ИТЭФ. Локальная сеть у нас началась в 1987 году с одного сегмента
“толстого” Ethernet, соединявшего VAX с PDP11/40, вовлеченных в
обработку данных по аттестации камер для эксперимента L3 в ЦЕРН.
Почти все компоненты этой сети пришлось у кого-то одалживать. Дальше
дело пошло неожиданно быстро, особенно если учитывать нашу
тогдашнюю бедность. Мы прокладывали сегмент за сегментом. Один из
них проходил из одного здания, прилегавшего к циклическому ускорителю У-
10, к зданию медицинского пучка. Кабель был подвешен к стальному тросу.
Но на его беду в одном месте он проходил примерно в 1,5-1,7 метрах от
земляной обваловки ускорителя. Нас это обстоятельство нисколько не
беспокоило, так как это было в радиационно опасной зоне, куда люди
попасть не могли. Но позднее спустя несколько лет мы убедились в своем
легкомыслии. На территории ИТЭФ жила стая собак во главе с рыжим
вожаком, которого звали Чубайс. Сотрудники их подкармливали, и все шло
тихо и мирно. Но однажды мы обнаружили обрыв связи между указанными
корпусами. Провели диагностику и по отражению сигнала определили
место обрыва. Каково же было наше удивление, когда мы выяснили, что
участок кабеля длиной около 20 см сильно изгрызен. Наблюдение показало,
что собаки использовали близость кабеля от земли, подпрыгивали и
повисали на нем, как на спортивном снаряде (а может быть, они так
хотели подключиться к Интернет?). С тех пор в одной из комнат моей
лаборатории на стене весит отрезок этого изгрызенного кабеля…

   UP: 4.1.1 Ethernet (IEEE 802.3)


    Next: 4.1.1.2 Fast Ethernet (FE), GE, 10GE, 40GE 100GE

1 Введение. Общие принципы построения


каналов передачи данных и сетей
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
1.1 Предметный указатель 19 169
1.2 Депозитарий статей-первоисточников (на английском языке) 2 21
1.3 Проблемы в ИТ 5 55
1.4 История становления ИТ 5 12
Итого    
Начало ускорения технического прогресса в сфере телекоммуникаций
Состояние телекоммуникаций в конце 20-го - начале 21-го века
История становления Интернет
Телевидение и тенденция к интеграции услуг
Киберугрозы и кибервойны
Проблема ошибок в программном обеспечении
Интернет вещей

Создатель снабдил людей неплохими системами коммуникаций. Это, прежде всего органы
зрения, слуха и голосовой аппарат. Наиболее важные из них задублированы - мы имеем два
уха и два глаза, что создает предпосылки стерео восприятия и пространственной локации
источника звука или оптического объекта. Определенную информацию об окружающей
среде мы получаем от органов вкуса, обоняния и осязания. Эти информационные каналы
весьма важны для сохранения жизни, но с точки зрения потоков данных они достаточно
узкополосны. Самым широкополосным нашим каналом является визуальный. В оптической
области люди могут воспринимать волны с длиной волны от 380 до 740нм, что в принципе
может обеспечить потоки данных масштаба ~60Тбит/c. Проблема в том, что человек
способен воспринимать <<10Мбит/с, обрабатывая эти данные лишь частично (речь идет о
восприятии движущегося изображения). В акустическом диапазоне наши уши
чувствительны для частот от 20 Гц до 20 кГц. Наш акустический канал принципиально
асимметричен. Передачу данных мы осуществляем голосом (полоса 600 Гц - 6кГц), а
восприятие слухом, который имеет более чем в два раза большую полосу пропускания.
Уместен вопрос, зачем Природа или Создатель сформировали столь асимметричный канал?
Отказать в рациональности такого решения нельзя. Ведь в реальной жизни хотя бы с точки
зрения безопасности через уши мы получаем данные о шорохе листвы, по которой
подползает к вам змея или о подлетающем комаре. Частотные диапазоны этих шумов
находятся вне области воспроизведения нашим голосом. Это же касается раскатов грома или
звука выстрела. Отсюда следует, что мудр тот, кто больше слушает, чем говорит, так он
способствует накоплению информации в своей памяти.

Огромен динамический диапазон воспринимаемых нами звуков > 1:20000. К счастью


имеющийся у нас аппарат преобразования звука в нервный (электрический) сигнал является
нелинейным. В противном случае при близком грозовом разряде или выстреле мы могли бы
погибнуть от шока - из-за слишком большого импульса возбуждения. Устройство
преобразования звука у человека имеет логарифмическую характеристику, что спасает нашу
нервную систему от перегрузок. Это позволяет нам воспринимать и шорох листвы и
выживать, когда сосед слушает тяжелый рок при 300Вт звуковой мощности или пытается
завести свой мотоцикл на балконе. Частотный диапазон восприятия у нас настроен так,
чтобы воспринимать жизненно важные звуковые сигналы. Наш голосовой аппарат способен
воспроизводить самые разнообразные звуки, это позволило человечеству сформировать
языковую систему коммуникации. Человеческий голос состоит из гласных и согласных
звуков. Гласные звуки генерируются, когда голосовой тракт открыт и определяются
резонансом, основная частота которого зависит от размера и формы голосовой системы, от
положения языка и челюстей говорящего. Эти звуки для интервалов порядка 30 мсек
являются почти периодическими. Согласные звуки формируются, когда голосовой тракт
частично перекрыт, эти звуки являются менее регулярными по сравнению с гласными.
Некоторые современные системы генерации и передачи голоса используют модели
голосовой системы с ограниченным числом параметров (например, размер и форма
различных полостей), а не простое стробирование формы голосового сигнала. Вполне
возможно, что успешное использование звуков для сигнальных целей в свою очередь
стимулировало развитие гибкости голосового аппарата.
Акустическое общение (да и вообще любая передача сигналов) предполагает соглашение
между источником и приемником относительно значения сигналов или их комбинаций.
Многообразие таких сигналов (акустический язык) определяется уровнем развития
отношений в данном конкретном сообществе. Если следовать Ветхому завету, то человек
владел акустическим языком с момента сотворения, иначе как бы он узнал, что нельзя
вкушать плоды с дерева познания.

Следующим шагом на пути цивилизации было создание письменности. Сегодня трудно


точно сказать, когда это произошло. Ясно, что попытки такого рода производились многие
тысячи лет до рождества Христова. Все началось с наскальных рисунков. Позднее они стали
формализоваться, привязываться к фонетике голосовой речи, письменность ведь вначале
рождалась, как средство удаленной коммуникации, расширяющее возможности устной речи.
Был бы уже тогда телефон, и появление письменности вполне могло задержаться на многие
века.

Наконец был создан символьный язык для описания не только объектов реального мира, но и
абстрактных понятий. Достаточно вспомнить скрижали, которые Бог передал Моисею. Об
этом говорится в Ветхом завете, и было это задолго до рождества Христова. Но сами эти
камни с письменами предполагали, что народ или хотя бы священнослужители были
способны прочесть то, что на них написано. Письменность предполагает соглашение между
пишущим и будущими читателями относительно значения графических символов.

Письменность открыла возможность передавать информацию от умерших к живым,


позволила накапливать технологические знания, сделала возможным развитие науки и
технологий.

В начале письменность была уделом избранных и являлась криптографической системой.


Читать и писать могли только священнослужители. Чтобы убедиться в этом, достаточно
заглянуть в Ветхий завет. Кстати, это свидетельствует о том, что письменность существует
уже многие тысячи лет.

Изустные знания ненадежны, легко искажаются. Впрочем, это было свойственно и первым
письменным источникам, ведь первые книги просто переписывались вручную. В качестве
носителя использовались специально обработанные шкуры животных - пергамент, или
прототип бумаги - папирусы (древнейшие египетские папирусы относятся к 25-му веку до
нашей эры) и, наконец, во втором веке нашей эры бумага (Китай). В начале 11-го века в
Китае начали печатать книги с использованием подвижных литер, выполненных из глины
или дерева. В 14-ом веке в Корее стали применяться для печати подвижные металлические
литеры (чем не прототип пишущей машинки?). Практически с самого начала в рукописях и
“полиграфии” использовалось несколько цветов.

Сначала записанная информация имела вид свитков. Позднее они стали объединяться, такие
блоки листов стали называться кодексами. Известные древнейшие библиотеки относятся ко
2-3 тысячелетиям до нашей эры, создавались они героическими усилиями переписчиков.
Переписчик часто заботливо “исправлял” непонятные ему места, внося неизбежные
субъективные искажения. Иногда такие искажения вводились сознательно в угоду
политическим, идеологическим или религиозным воззрениям.

Книгопечатание в Европе появилось сравнительно недавно - в середине 15-го века в


Германии благодаря усилиям Гуттенберга (литеры из глины). Каменные скрижали
долговечны (не беспредельно), но неудобны для переноса и изготовления. Люди, правда,
научились писать на глиняных пластинках, которые потом обжигались на солнце, но и это не
решало проблемы. Надписям на камне мы обязаны своим знаниям о самых древних периодах
человеческой цивилизации. Бумага и пергаменты хорошо горят (и гниют), именно это
послужило причиной потери многих ценных манускриптов. Пожары же преследовали
человечество с самого начала, с момента освоения технологии обогрева и приготовления
пищи на очаге. До нашего времени дожили лишь небольшие фрагменты некоторых древних
библиотек (вспомним хотя бы судьбы Александрийской библиотеки или библиотеки Ивана
Грозного). Бумажные книги существуют уже более 800 лет. И только в конце 20-го века
благодаря развитию вычислительной техники у них появился конкурент - CD- и DVD-диски
(с объемом данных 750, 4700 Мбайт и более и это не предел). На данной странице около 3,5
килобайт информации. Один такой диск может содержать тексты нескольких книг.
Объемная плотность информации в CD превосходит книжную на порядки. В принципе
технология CD при определенных условиях может обеспечить длительность хранения на
уровне многих сотен, а может быть и тысяч лет.

Наш голосовой канал, прежде всего, предназначен для общения с себе подобными. Часть
предыдущей фразы до запятой содержит 19 букв (в кодовом представлении 19 байт). В
норме она произносится примерно за одну секунду, что создает поток данных в 152 бит/сек.
Хорошо тренированный оператор за полторы-две секунды может напечатать эту часть
фразы.

Так говорящий произносит "да", но то, как он это говорит, может означать - нет. Сюда
можно отнести эмоциональную окраску, выбор слов, интонацию, логические ударения,
акцент, по которому можно иногда определить даже место рождения человека. При
разговоре согласно некоторым оценкам мы передаем 5-60 бит в секунду. Но это оценка лишь
смысловой информации, извлекаемой из записи сказанных слов. При беседе мы можем
передавать важные данные мимикой, жестами и другими средствами, причем эти данные
могут иной раз противоречить информации, содержащихся в произносимых словах. Грубые
оценки указывают, что устная речь с точки зрения энтропии имеет 50 процентную
избыточность.

Отсюда видно, что наши собственные возможности передачи данных, сопряженные с


движениями пальцев рук или языка весьма ограничены и никогда не превышают 100 бит/сек.

Можно предположить, что это связано с особенностями структуры нашей нервной и


мышечной системы (задержками в цепи обратных связей). Следует иметь в виду, что эта
активность сопряжена с необходимостью распознавания образов - важным свойством всего
живого.

Нашу нервную систему вполне можно рассматривать, как локальную сеть, внешние же
коммуникации человека могут служить аналогом Интернет. По внутренним нервным
магистралям распространяются сигналы от различных рецепторов, сообщая данные о
состоянии окружающей среды и самого организма, аналогично, но в противоположном
направлении передаются управляющие сигналы. Обратные связи являются основой жизни и
способом адаптации к окружающей среде. Я не являюсь тонким знатоком физиологии
человека, но, тем не менее, позволю предположить, что в нашей нервной системе
используется, как “проводные” соединения, так и адресная система доставки сообщений.

Мне трудно представить, например, чтобы тактильные и температурные датчики


транспортировали в мозг сигналы по разным каналам, такое решение представляется
неэффективным, хотя вполне может оказаться, что я ошибаюсь. Использование общего
канала для передачи данных от разных датчиков предполагает, что в передаваемом сигнале
будет как-то зашифрован идентификатор датчика, иначе сигнал может быть неправильно
интерпретирован.

Для построения систем, непосредственно контактирующих с органами чувств человека,


крайне важно точно знать параметры внутренних каналов передачи сигналов. Такие данные
помогут корректно спроектировать интерфейсы, оптимизировать и заметно удешевить
технические решения.

Наш визуальный канал принято справедливо считать быстродействующим. Быстродействие,


тем не менее, здесь не столь велико, как это можно предположить. Во-первых,
быстродействие ограничивает инерциальность датчиков в глазу, которая характеризуется
постоянной времени ~0,04 сек (вспомним частоту кадров в кино). Во-вторых, это скорость
обработки и распознавания образов в головном мозге. Оценить эту составляющую
быстродействия сложнее. Попытаемся все же это сделать. За сколько секунд вы можете
прочесть эту страницу? Это у вас занимает 1-1,5 минуты? Тренированные люди способны
читать до 1000 слов в минуту. Будем считать среднюю длину слова равной 8 букв, тогда
получим скорость восприятия 135 байт/c.

Таким образом, максимальная скорость обработки текстовых данных составит <150байт/сек.


Всего в 10 раз больше, чем на слух!

Мне могут возразить, что, смотря телевизор, мы обрабатываем большие потоки. Возможно
это так. Но в любом случае это не больше 200кбайт/сек (вспомним предельную скорость
передачи данных в каналах цифрового ТВ).

Бессмысленно для человека передавать потоки данных в форматах и при скоростях не


согласованных с возможностями его восприятия.

Об этом должны задуматься режиссеры телефильмов, дизайнеры WEB-страниц, создатели


рекламы и т.д. С другой стороны следует помнить, что, обладай человек более скоростным
визуальным каналом (если бы наши глаза не имели инерциальности запоминания видео
изображения), не было бы современного кино и телевидения, так как люди воспринимали бы
это как мелькание картинок, а не как имитацию реальных образов. Кино и телевидение по
своей природе не являются зеркальным отражением того, что оказывается в фокусе входного
объектива киноаппарата или телевизионной камеры. Обе эти технологии успешно
используют особенности нашего зрения и мозга. Эти соображения лишний раз показывают
насколько важно учиться у природы.

Мы еще очень мало знаем об особенностях работы нашей аналитической системы.


Очевидно, что значительная часть ее мощности используется для нормального
функционирования нашего организма (переработка пищи, борьба за выживание во
враждебной среде и т.д.). Полагаю, что те, кто писал программы для человекоподобных
роботов, со мною согласятся. Просто удерживать тело в вертикальном состоянии задача не
из простых. Вы знаете, что происходит с человеком, чей мозг частично отравлен алкоголем.
Все мы знаем также, что происходит с нашим телом, которое существовало десятки лет,
после смерти. Оно разлагаться присутствующими бактериями за несколько дней. Другой
важной функцией нашего аналитического аппарата является обслуживание наших органов
чувств (обработка поступающих данных и выработка ответных реакций). И лишь остаток
ресурса остается для управления интеллектуальной сферой. Может быть, из-за большого
запаса аналитического потенциала многие великие ученые прожили долгую жизнь
(например, Леонардо да-Винчи, Л.Н.Толстой).

Можно с уверенностью сказать, что наши болезни - это сбои системы управления
организмом.

При разговоре мы можем управлять интонацией, эмоциональной окраской, а при личном


контакте и жестами. Иной раз мы одним междометием способны передать своему партнеру
больше, чем иной политик в часовой речи. Но эта информационная составляющая доступна
и высокоразвитым животным, например собаке. Важно заметить, что такие данные пока
трудно факторизуемы и по этой причине пока не доступны для компьютерного анализа. При
обработке данных человеком следует различать работу с текстами и голосом. В первом
случае человек распознает буквы, во втором - звуки (фонемы). Но и при анализе текстов
следует иметь в виду, что при чтении человек не анализирует каждую букву, а воспринимает
отдельные слова, иногда даже их сочетания. Текст на любом языке имеет достаточно
большую избыточность. Учет этих фактов приведет к дальнейшему занижению скорости
восприятия данных человеком. Хотя энтропия устной речи несколько выше энтропии
письменных текстов, именно повторы и слова паразиты заметно понижают энтропию
разговорной речи.

Если попытаться проанализировать полезность или эффективность получаемой информации


(то, что изучает ветвь семиотики, называемая прагматикой), то результат будет во многих
случаях вообще печальным. При разговоре мы часто повторяем одни и те же фразы, мысли и
факты, произносим огромное число слов-паразитов. Я уже не говорю о пустой болтовне по
телефону, уведомляющей собеседника о количестве выпитого накануне или о покрое юбки
жены соседа. Люди по какой-то причине не могут без этого. Нам приходится слушать речи
высоких политиков или читать статьи или книги, смысл которых ничтожен, а содержащаяся
в них информация может быть охарактеризована несколькими битами, уведомляющими
слушателя или читателя об честолюбивых амбициях автора. Многоточие в конце романа
классика во много раз информативнее.

Трудно представить, чтобы ЭВМ Центра управления полетом, прежде чем передать
управляющую информацию бортовой машине, перешлет ей сначала анекдот, найденный
только что в Интернет. Впрочем, это относится скорее к области информатики, чем
телекоммуникаций. Хотя от умения компактно передавать наиболее существенные данные
зависит эффективная работа информационных систем будущего.

Мы привыкли характеризовать переданные объемы данных в байтах. Но правильно ли это?


Ведь терабайт логических 1 не в 1000 раз больше по информационной емкости гигабайта
этих самых единиц. Правильнее было бы характеризовать объем переданных данных с
привлечением информационной энтропии. Среднее количество информации Е на один
произвольный символ (или сообщение) равно:

где pi – вероятность появления i-го символа (или сообщения). Log2(1/pi) определяет число
бит, характеризующих данную информацию (сколько бит мы должны послать, чтобы
передать эту информацию). Отсюда следует, что сообщение, которые имеют большую
вероятность, несут в себе меньше информации.

Пожалуй, интерес людей к сенсациям диктуется интуитивным стремлением получить


информационно более емкий материал.
Если бы мы научились корректно определять истинное количество и качество информации в
научной статье, то присуждение нобелевской премии превратилось бы в простую
формальность.

Так как на практике отдельные символы встречаются с разной вероятностью, то кодирование


с постоянной длиной кодовых слов (например, один байт на символ) является избыточным.
Так все стандартные 8-битовые кодировки русского алфавита являются избыточными.
Значение энтропии для русского языка ≤ 4,35.

Энтропия является мерой неопределенности реализации того или иного случайного события.
Классическое определение информационной энтропии (H) выглядит как:

где pi - вероятность того, что реализуется конкретное значение хi (i может принимать


значения от 1 до n. I(x) - целочисленная случайная функция (информационное содержимое
Х).

Обычный способ определения энтропии текста базируется на модели Маркова для текста.
При этом вероятность появления очередного символа предполагается независимой от
предыдущего символа (что, разумеется, не всегда верно).

Энтропия указывает предельный уровень сжатия данных программами-архиваторами.


Написать программу, которая бы обеспечила более высокий уровень сжатия теоретически
невозможно. Эффективный текстовый архиватор должен разбираться в грамматике языка, на
котором написан текст.

Если энтропию отдельных букв и даже слов достаточно легко оценить по частоте их
использования, то расчет энтропии сообщения представляет определенную проблему (из-за
огромного их многообразия), а оценку накопленных знаний человечества можно
рассматривать как серьезную проблему на будущее. Куда проще оценивать объем
информации в гигабайтах или петабайтах, как это делается сегодня, в частности, если
оперировать архивированными файлами. Следует только помнить, что такая оценка с
реальным объемом информации практически имеет мало общего.

Разумеется, если мы знаем реальный объем информации в системе до и после получения


некоторого сообщения, то информация, содержащаяся в сообщении определяется разностью
значений информационной энтропии до и после получения этого сообщения, смотри
http://book.itep.ru/10/shennon.htm.

Здесь мы прикасаемся к проблеме издержек, связанных с заголовками пакетов данных,


пересылаемых по сетям. Так при удаленном доступе (протоколы Telnet, SSH и пр.) на один
переданный байт, характеризующий нажатую клавишу терминала, приходится более 50 байт
заголовков и другой вспомогательной информации.

Эффективность удаленного ввода с консоли, как видите, меньше коэффициента полезного


действия паровоза. Но современные телекоммуникационные технологии пока не могут
предложить ничего лучшего.
Способность передачи определенных данных посредством мимики и поз роднит человека с
представителями животного мира. Животные этим методом общения пользуются более
активно, отчасти компенсируя таким способом отсутствие речевого канала. Недостаточное
развитие звукового информационного общения у животных возможно связано с малым
объемом данных, которые им нужно передавать в отсутствии непосредственного
визуального контакта. Звуковая сигнальная система более развита у стадных животных
(например, у дельфинов или волков), к которым с этой позиции можно отнести и человека.

К сожалению, Создатель не предусмотрел передающего канала, образующего пару для


нашего зрения. То ли он столкнулся с какими-то технологическими трудностями, то ли в
силу своей мудрости увидел в этом истоки серьезных бедствий в будущем. Оптическая пара
приемо-передатчиков могла бы дать нам несравненно более мощный канал общения. Не ясно
только, смог бы наш мозг сформировать и обработать такой поток данных. Мозг наш
достаточно мощное аналитическое устройство, но и его возможности ограничены. Ведь
время распространение возбуждения по нервным волокнам от мозга к периферийным
мышцам исчисляется миллисекундами или даже десятками миллисекунд. Может быть,
именно по этой причине наши глаза и уши размещены рядом с головным мозгом.

Если бы глаза размещались, например, на запястьях (иногда неплохо было бы иметь там и
уши), мы могли бы, разведя руки, с высокой точностью определять расстояние до любого
объекта (разрешающая способность возросла бы более чем в 20 раз; кстати, эта идея
реализована мадагаскарскими тараканами, у которых уши размещены в области локтевых
суставов). Но время доступа к данным при этом неизбежно увеличилось бы, возросло бы и
время отклика на сигналы опасности, что создало серьезные угрозы безопасности из-за
замедления реакции. Следует иметь в виду, что скорость распространения сигнала по
синапсам и аксонам нейронов составляет около 120 метров в сек. Кроме того, для кистей рук
велика вероятность повреждений, ведь они у нас являются одним из главных
исследовательских инструментов. Да и размеры человеческого тела с учетом того, что
главным его инструментом выживания является мозг, полагаю, определяются, среди
прочего, скоростью распространения сигналов возбуждения по нервным волокнам.

Различие возможностей зрения и слуха объясняется также числом обслуживающих нервных


волокон. 30000 - для слуха и примерно 800000-900000 - для зрения. Эксперименты показали,
что в случаях, когда требуется переработка данных и последующий отклик, скорость
обработки составляет 30-40 бит/сек вне зависимости от используемого человеком канала
связи (слух/зрение). Ясно, что многие методики из области проблем, сопряженных с
физическими каналами связи, применимы и для исследования органов чувств человека и
методов переработки информации.

Кто знает, не является ли наблюдающаяся в последние годы акселерация (увеличение


размеров человеческого тела от поколения к поколению) свидетельством вырождения
человеческого рода.

Возможно, из-за больших задержек в цепях обратных связей вымерли все гигантские
животные.

Мы хорошо и быстро решаем задачи распознавания видео и аудио образов, но затрудняемся


при перемножении двух 10-значных чисел, в то время как современная ЭВМ с такой задачей
справится за микросекунду или даже быстрее.

Вообще для живых существ характерна высокая эффективность процесса распознавания на


самых разных уровнях (распознавание голоса, лиц собеседников или чужих молекул в крови),
так как это крайне важно для выживания во враждебной среде.

Наши органы чувств и аналитический аппарат не совершенны. Осознание и количественное


определение этого позволило существенно усовершенствовать создаваемые человеком
средства коммуникаций. В процессе распознавания наш глаз останавливает свое внимание на
определенных характерных точках изучаемого объекта.

Полагаю, что использование фиксации внимания на определенном, ограниченном числе


узловых точек изображения позволит существенно сжать данные, так как другие менее
существенные детали картинки могут быть переданы менее подробно (с меньшей
разрешающей способностью).

Человечество постоянно стремилось расширить возможности своих органов чувств (каналы


коммуникаций с окружающей средой). Так были созданы подзорная труба и микроскоп,
термометр и газоанализаторы, высокочувствительные микрофоны и радиолокаторы, а также
многое другое. Подзорная труба может рассматриваться как аналоговое однонаправленное
телекоммуникационное устройство.

Рассмотрим, какие искусственные каналы коммуникаций создал сам человек за последние


тысячелетия своего существования. Представьте себе следующую сцену, возможно имевшую
место много столетий тому назад.

На горизонте поднялось легкое облачко, которое начало расти и шириться. Постепенно


становилось ясно, что это облако пыли, поднятого множеством лошадиных копыт. На
вершине холма дозорные настороженно следили за приближением этого отряда и, когда
стало ясно, что это большой отряд противника, старший дал команду разжигать сигнальный
костер. Из небольшого очага, где огонь поддерживался круглые сутки, специальным
захватом, была извлечена пылающая головня и помещена в основание большого сигнального
костра. Сначала огонь разгорался медленно, но уже через несколько минут столб дыма и
огонь поднялись на многие метры. Тогда его заметил другой сигнальный отряд,
размещенный в нескольких верстах от первого, и там также зажгли сигнальный костер.

Такая техника позволяла передать 1 бит информации (логический нуль или логическая
единица) на расстояние до 100 км менее чем за один час (время сильно варьировалось в
зависимости от рельефа местности и погоды). Скорость такого метода передачи данных в
дневное время можно было удвоить, используя черный или белый дым. Костры часто
размещались на специально построенных вышках для увеличения расстояния между ними.
Здесь нечего говорить о надежности, проливной дождь (или вьюга) мог помешать разжечь
костер, да и видимость при этом могла оказаться весьма ограниченной. Здесь надо заметить,
что строго говоря, в вышепредставленном примере передавался не один бит. Ведь только
сигнал с определенного направления имел определенный смысл, а дым или огонь,
появивишийся в другом месте, ничего не значил. Фактически это был код с одной единицей
и определенным количеством нулей. Вопрос о том, сколько здесь должно быть нулей, совсем
не прост. Дым или огонь в точке, близкой к одной из сигнальных вышек, может создать
ложную тревогу, и такие сигналы можно рассматривать в качестве шума.

Альтернативный метод посылки депеши с всадником позволял передать несравненно


больший объем информации, но почти на порядок с меньшей скоростью, ведь прямых дорог
тогда не было, да и водные преграды или горы могли существенно замедлить движение. В
море сходный метод, использовавший сигнальный масляный фонарь, служил для передачи
коротких сообщений для координации действий кораблей в пределах прямой видимости.
Но даже такой технологии было достаточно для длительного существования гигантских
государственных образований (от империи Александра Македонского до Римской империи).
Именно со скоростью лошади или деревянного гребного или парусного бескилевого судна
передавались сообщения с периферии в центр, а оттуда в обратном направлении посылались
руководящие инструкции или решения. Задержка достигала многих месяцев. Удивительно,
но этого было вполне достаточно для стабильного существования государства. Вероятно,
чиновники были вынуждены обдуманно принимать решения, так как быстро исправить
ошибку было нельзя. Решение проблемы здесь лежит в предоставлении определенной
самостоятельности властям провинции (приближение центра принятия решения к объекту
управления). Еще одним средством решения проблемы большой задержки в цепи принятия
решения (RTT в сетевой терминологии) является выработка набора унифицированных
правил реагирования на стандартные ситуации (в случае сетей такие правила называются
протоколами). Даже применение самых мощных информационных и телекоммуникационных
технологий не позволят эффективно управлять из Москвы автомобилем во Владивостоке.

Когда императоры Римской империи попытались в долговременном плане построить


жесткую вертикаль власти, империя распалась сначала на две части, а позднее на большое
число независимых государств.

Техника телекоммуникаций с временем RTT (Round Trip Time), равным 2-6 месяцам,
просуществовала без существенных изменений более 1500 лет.

Мы привыкли считать, что то что мы видим соответствует состоянию на момент наблюдения.


Но это не так. Мы видим не глазами, а мозгом, а ему требуется время на обработку
видеоданных. Так то, что мы видим, соответствует состоянию нескольких десятков
миллисекунд в прошлом. Аналогично, послав запрос о состоянии какого-то объекта в
Интернет и получив отклик, мы узнаем о состоянии, которое имел объект > RTT/2
миллисекунд тому назад.

Современные технологии позволяют передавать несравненно большие объемы данных, чем в


прошлом. Вместо одного бита в час сегодня можно передавать более 100 гигабит в секунду.
Но если из точки А в точку B передано 1000000 бит вместо одного, можно ли утвержать, что
при этом получено больше информации?

Ответ только на первый взгляд может показаться очевидным. Например, если весь миллион
бит составляют одни логические единицы, будет ли такое послание сильно отличаться от
одной единицы?

Таким образом, ясно, что бит не является мерой реального объема информации. Очевидность
этого факта подтолкнула математиков к формулировкам принципов измерения объемов
информации, базирующимся на понятии информационной энтропии, смотри "Базовые
определения теории информации".

Начало ускорения технического прогресса в сфере


телекоммуникаций
Только в 19-ом веке стали появляться железные дороги, пароходы и, что особенно важно,
электрический телеграф и телефон. Связь с применением азбуки Морзе в 1840-ых годах
позволяла передать до 10 бит/сек на расстояние десятки и сотни километров. Азбука Морзе,
пожалуй, была первым широко распространенным телекоммуникационным кодом (см.
таблицу 1.1, придумана американским художником в 1840 году). Коды здесь представляют
собой последовательности точек и тире. Отличие точки от тире определяется длительностью
сигнала (точке соответствует более короткий сигнал). Возможны варианты, когда точке и
тире соответствуют импульсы тока или напряжения разной полярности. Такая схема
исключает зависимость идентификации символа от длительности импульса. Максимальная
скорость передачи классического телеграфа может составлять 950-1100 слов в час. В 1884
году начала функционировать телеграфная линия Вашингтон - Балтимор. Для линий связи в
ту пору использовалась стальная проволока диаметром ~5мм. В качестве источников
электроэнергии применялись батареи на напряжение 40-120 В. Импульсы тока имели
амплитуду 10-25мА. Сама система являлась электромеханической и предполагала
использование контактного ключа (вспомните шпионские фильмы периода второй мировой
войны). Позднее ключ был заменен клавиатурой. Нажатие на определенную клавишу
вызывало формирование последовательности сигналов, соответствующей определенной
букве, что позволяло в несколько раз ускорить процедуру передачи. Такое устройство,
получившее название телетайп, было предложено Кляйшмидтом и Моркрамом в 1915 году в
США. На первых порах использовались электромеханические приемные устройства,
которые печатали точки и тире, что было крайне неудобно. Позднее стали применяться
устройства, которые могли дешифровать коды Морзе (или Бодо) и печатать на ленте буквы.
Люди старшего поколения, возможно, еще помнят бланки телеграмм, на которые наклеены
куски ленты с текстом, полученные от таких устройств.

Таблица 1.1. Коды Морзе

Буквы   Буквы и символы


Код Морзе Код Морзе
Русские Латинские Русские Латинские
•– A Aa •–•– Я Ää
–••• Б Bb •–•–•– Й Jj
•–•– В Ww – •– ЪЬ Xx
– –• Г Gg •–•• Э Èè
–•• Д Dd •–•–•–•– 1  
• Е Ee •–•–•– 2  
•••– Ж Vv ••–•– 3  
–•–•• З Zz ••••– 4  
•• И Ii ••••• 5  
–•– К Kk –•••• 6  
•–•• Л Ll –•–••• 7  
–– М Mm –•–•–•• 8  
–• Н Nn –•–•–•–• 9  
–•–•– О Оо –•–•–•–•– 0  
•–•–• П Pp •••••• . (точка)  
•–• Р Rr •– – – , (запятая)  
••• C Ss – –•–• ;  
– Т Tt – •–•–••• :  
••– У Uu •–••• ?  
••–• Ф Ff –•–•–•– !  
•••• Х Hh –•–•–•–•–•– /  
–•–• Ц Сс •–•–•– – _  
–•–•–• Ч Öö •– – • + (конец)  
–•–•–•– Ш Ch –••• – -  
–•–•– Щ Qq –••• – Знак раздела  
–•–•– Ы Yy •– – –•– Начало действия  
••–•– Ю Üü ••••••• Исправление ошибки  

Телекоммуникационный канал содержал два провода, по одному ток течет в одном


направлении, по второму - в обратном. Понятно, что железо в качестве проводника не
идеально (удельное сопротивление 8,8×10-6 Ом*см, да и склонность к ржавлению чего
стоит), зато дешево. Лучше была бы медь или алюминий (1,56×10-6 и 2,45×10-6 Ом*см,
соответственно). Еще лучше серебро - 1,51×10-6 Ом•см. Золото по своим электрическим
свойствам занимает положение между медью и алюминием. Полагаю, не нужно пояснять,
почему каналы коммуникаций никогда не делали из серебра и тем более из золота (и с медью
мороки не оберешься…). Омическое сопротивление является причиной ослабления сигнала,
что ограничивает предельное расстояние передачи по проводной линии. Это вынуждает на
определенных расстояниях ставить станции ретрансляции. А наличие таких станций часто
приводит к появление случайных или намеренных ошибок. Вспомним роман "Граф Монте-
Кристо", где главный герой фальсифицирует телеграмму на испано-французской границе и
тем самым разоряет банкира (чем не сетевая атака "человек-по-середине").

Рассматривая таблицу кодов Морзе, следует обратить внимание на то, что наиболее часто
используемые буквы имеют более короткие коды (это, прежде всего е, т, а, и, н и м). Это
очень важный принцип, позволяющий увеличить среднюю скорость передачи данных. Он
используется достаточно широко, можно, например, вспомнить принцип распределения
символов на клавиатуре ЭВМ, в центре размещаются наиболее часто используемые буквы.
Посмотрите на клавиатуру вашей ЭВМ, в центре и ближе к клавише пробела размещаются
именно указанные в начале абзаца буквы. Используется эта техника и при архивировании
данных (алгоритм Хафмана). Кроме того, весьма важными являются паузы между буквами.
Если пауза окажется малой, то трудно будет отличить НН от Ц, АА от Я и т.д. Распределение
частот (вероятностей P) использования букв русского алфавита представлено в таблице 1.2.

Буква P Буква P
пробел 0.175 я 0.018
о 0.09 ы 0.016
е,ё 0.072 з 0.016
а 0.062 ь,ъ 0.014
и 0.062 б 0.014
т 0.053 г 0.013
н 0.053 ч 0.012
с 0.045 й 0.01
р 0.04 х 0.009
в 0.038 ж 0.007
л 0.035 ю 0.006
к 0.028 ш 0.006
м 0.026 ц 0.004
д 0.025 щ 0.003
п 0.023 э 0.003
у 0.021 ф 0.002

Аналогичные принципы лежат в основе морских флажковых семафоров, где каждой букве
соответствует определенное положение рук сигнальщика. Здесь можно также вспомнить
французский семафор, изобретенный в 1830 году. Но это также как и сигнальные костры
можно считать первыми приложениями, использующими передачу данных по оптическим
каналам связи.

Надо сразу сказать по экономности кодирования русский язык заметно уступает


английскому. В этом легко убедиться. Достаточно попытаться перевести произвольный
отрывок английского текста на русский язык. Практически всегда перевод будет на 20-30%
длиннее оригинала.

Позднее было создано много других типов кодов (например, код Бодо для буквопечатающих
аппаратов, ASCII или КОИ-8), в них, как правило, каждому символу или сигналу
соответствует 5-8 бит (в действительности это 5-битовые коды, использующие два регистра).
Сигналами отмечается, например, начало/конец передачи или исправление ошибки.
Характерной особенностью ранних систем было отсутствие кодов для строчных букв. В
мире много национальных алфавитов. Многие из них содержат специфические символы,
достаточно вспомнить символьные набор китайского языка (в детстве меня занимал вопрос -
как устроена китайская пишущая машинка?). Чтобы решить проблемы кодирования
национальных алфавитов был придуман уникод, где каждому символу ставится в
соответствие два октета (байта). Это позволяет расширить многообразие символов с 256 до
65536.

Коды Морзе использовались вплоть до второй половины двадцатого века. Их


привлекательность была связана с ограниченностью требуемой полосы пропускания канала,
а также с тем фактом что, для передачи были пригодны старые, довольно низкокачественные
каналы.

Введя модуляцию на частоте 1500Гц (1936г), удалось получить до 24 телексных каналов по


одному телефонному каналу с полосой 4 кГц (50бод). Позднее телексная сеть обрела
самостоятельность и была окончательно вытеснена современными средствами связи лишь в
конце 20-го века.
Состояние телекоммуникаций в конце 20-го - начале 21-го
века
К 1950 годам большинство стран использовало три типа общедоступных сетей:

1. Телеграфная сеть, которая просуществовала до конца 20-го века.


2. Телефонная сеть (аналоговая), имеющая полосу 4 кГц и почти не менявшаяся по
принципам работы с 1880 годов. Импульсная сигнальная система практически не
изменялась с 1910 года.
3. Телексная сеть, которая применялась в основном для делового обмена.

Рассмотрим причины того, что проводные системы связи, оставшиеся в наследство от


телеграфа, мало пригодны для современных систем телекоммуникаций. Двухпроводные
структуры, применявшиеся там, как правило, навешивались на телеграфные столбы или
укладывались в виде кабелей в подземные каналы. Среднегеометрическое расстояние между
проводами не было постоянным, более того, оно могло изменяться со временем, например,
под действием ветра. Это приводило к тому, что волновые свойства такой структуры
варьировались, а это с неизбежностью приводило к искажениям формы сигнала для длинных
участков канала. Такие искажения ограничивали предельно возможную скорость передачи и
длину канала без промежуточных ретрансляторов.

На первый взгляд прогресс в области электроники может снять проблему ослабления


сигнала из-за омического сопротивления проводов, и исключить необходимость
использования амплитуд сигналов порядка 40-100 вольт. Казалось бы, ставя промежуточные
усилители, можно поддерживать амплитуду полезного сигнала в заданных пределах.
Идеальным примером такого решения могут служить трансокеанские телефонные кабели.

Беда в том, что ослабление сигнала из-за резистивных потерь не сопровождается


ослаблением шума в канале. Усилители же увеличивают уровень шума пропорционально
своему коэффициенту передачи. По этой причине рано или поздно средние значения
амплитуд сигнала и шума могут сравняться.

Конечно, по пути транспортировки данных и на принимающей стороне предпринимаются


усилия по фильтрации шума. Так как тепловые шумы достаточно высокочастотны в случае
телеграфии или телефонии можно существенно улучшить отношение сигнал/шум простым
подавлением высокочастотной составляющей сигнала.

Передача данных по протяженным каналам через пустынные области, например, по дну


океана, как было отмечено выше, требуют наличия усилителей, а усилители нуждаются в
питании. Обычно питание передается по тому же кабелю, и здесь также вмешиваются
омические потери.

Известно, что в оптоволокне сигнал подвергается меньшему погонному ослаблению, чем в


медном проводе. Было бы замечательно, если бы был найден способ, передавать энергию для
опто-электрических усилителей по оптическому волокну. К счастью найдены методы
передачи данных по оптоволокну без промежуточных усилителей на расстояния более 10000
км.

Тенденции в ИТ
Ряд тенденций в сфере ИТ уже сформировались. Это, прежде всего интеграция услуг:
Интернет, цифровое телевидение, телефония, электронная торговля, информационные
услуги и т.д. Развитие мобильных технологий обмена, где мобильная телефония
объединяется с Интернет и услугами абсолютного позиционирования. К этому классу можно
отнести и переход хакерства от любительства к профессионализму и сращение с
криминалитетом, разработка ведущими странами мира кибероружия (см. Eddy Schwartz,
Computer Fraud & Security. September 2010, Winning the Cyberwar of 2010, а также
http://www.caci.com/Contracts/ITES/ArcSightWhitepaperCyberWar.pdf - Cyberwar: Sabotaging
the System. Managing Network-Centric Risks and Regulations (ArcSight)). Надеюсь, что
разрабатывая кибероружие, страны позаботятся и о средствах защиты. Одним из видов
кибервойн является кибершпионаж, как экономический, так и политический. Появление
киберсредств войны отражает общую тенденцию к дистанционному нанесению ущерба
безлюдными средствами (беспилотные самолеты, ракеты и пр.)

Формируются и другие тенденции, например, переход от обычного к криптообмену


данными, широкое внедрение оптоволоконики. Скандал с WikiLeaks (2010г) заставил думать
об информационной безопасности и политиков.

Виртуальная реальность находит все более широкое распространение. Интернет этому


только способствует. Но кто бы мог подумать, что предмет из виртуального мира может
наносить вполне реальный ущерб? WEB-страница содержит много такого, что не видно
при просмотре. Именно по этой причине WEB-страницы и браузеры образуют цепочку,
через которую в машины внедряются различные вредоносные программы. Если учесть, что
прогнозируется установка автопилота на каждый автомобитиль к 2040-году и систем
мониторинга состояния здоровья человека с постоянной связью с лечебным учреждением,
масштаб угроз становится более понятным.

Новые технологии обычно сложнее старых и по этой причине уязвимее. Интернет


становится все менее безопасным местом. В результате все более широко внедряется
многофакторная аутентификация.

Для целей идентификации и для платежных систем внедряется технология NFC (Near Front
Communication). Появились первые коммерческие квантовые компьютеры. Продолжаются
попытки создания искусственного интеллекта (семантические сети и машина Watson).
Мобильные устройства приближаются по вычислительной мощности и функциональности к
персональным машинам.

Начаты работы в сфере когнетивных вычислений (ЭВМ Watson, IBM). Огромные объемы
информации, накопленные в разных областях науки, могут позволить при аналитическом
сопоставлении получить знания нового уровня.

Все шире внедряются приложения, использующие большое числа портов: файлообменные


сети, Skype и т.д.. В настоящее время только компания Google предлагает около 20 таких
приложений. Внедряются системы управления человеческим голосом IVR (Interactive Voice
Response). IVR подразумевает также применение дикторо-независимого распознавания речи.
На основе таких технологий создаются специализированные call-центры, обслуживающие
клиентов, включая безоператорские справочные голосовые системы.

В последние годы быстро развивается новое направление ИТ - Интернет вещей. Интернет


вещей – глобально связанная система приборов, объектов и предметов, базирующаяся на
технологии RFID. Термин Интернет вещей был предложен Кевином Эштоном (Kevin Ashton)
в 2009 году. Интернет вещей предполагает формирование среды, где все объекты
окружающего мира - от транспортных самолетов до авторучек имеют выход в Интернет.

За последние годы реализован потрясающий прогресс в информационных технологиях. За 20


лет увеличилось быстродействие вычислительной техники в 1000 раз, пропускная
способность каналов возросла в 10000 раз, уже более 30 лет действует закон Мура (удвоение
плотности активных элементов на кристалле каждые полтора года). Уместно задать вопрос –
можно ли ожидать аналогичный темп развития в дальнейшем?

К сожалению, ответ на эторос будет, скорее всего, отрицательным, если ориентироваться на


существующие технологии. Прогресс в области цифрового ТВ и DVD-видео был связан с
повышением эффективности сжатия информации. Алгоритмы сжатия данных без потерь
вышли на энтропийный предел еще более 10 лет назад. Используемая технология на
кремнии, позволяет работать с разрешением ~15 нм (2011г). На подходе мемристоры и
графеновые транзисторы (5 нм), но постоянная кристаллической решетки кремния ~0,54нм.
Да и совместить технологию на кремнии с графитом будет не просто. Понятно, что запас
повышения разрешения менее 10, и это ограничение не технологии, а физики. На рис. 1
показана ситуация с возможностями нанотехнологии на сегодняшний день (2009-2011) и
прогноз на будущее в предположении справедливости закона Мура.

Рис. 1. Нанотехнология. Состояние и прогноз.

На разрешение порядка 5 нм технология выйдет к 2020-му году (флэшки на мемристорах или


графене не в счет, так как там высокая однородность структуры). Но для размеров ~5 нм
возникнут проблемы отношения сигнал-шум. Недаром первые квантовые компьютеры
работали при температуре 0,01 кельвина. Разрешение пордядка 5-10 нм в ближайшие годы
будет достигнуто и для жестких дисков. Понятно, выходом из этого тупика будет уход из
плоскости в объем. Первые многослойные чипы для флэшек появились пару лет назад
(2012г).

Исследователи из Стэнфордского университета разработали технологию создания


многослойных чипов, которые смогут превзойти по параметрам все существующие (см.
"Stanford 'high-rise' chip takes on IoT and big data", Sharon Gaudin, Computerworld, Dec 16,
2014). Предполагается, что эта технология будет прежде всего использована для Интернета
вещей и для обработки больших объемов данных. В настоящее время разработан 4-слойный
чип, разработчики считают, что точно также можно создать и 100-слойный.
Рис. 1А. Первые многослойные чипы

Кремниевые монокристаллы уже сегодня могут иметь диаметр 25см. можно делать чипы с
размером в несколько см (сейчас их размер ~5мм). Это может дать прирост числа элементов
на кристалле в 100 раз. Серьезных проблем с отводом тепла при этом не возникнет. В
области систем памяти пора переходить с числа бит на квадратный дюйм к числу бит в
кубическом дюйме. Но на этом пути следует ожидать больших трудностей с отводом тепла.

Наиболее скоростные каналы передачи данных (оптоволоконные) работают на скорости 1011


бит/c (используется 16 потоков в одном волокне). Обсуждается создание каналов на 1 Тбит/c,
а постоянная поляризации диэлектрика составляет 10-13 сек (запас на 5 лет развития с тем же
темпом). За счет λ-коммутации можно увеличить скорость передачи еще в 5-10 раз.

Рост тактовых частот процессоров замедлился и уже в 2004 году производители перешли на
многоядерную схему процессоров. Компания Tilera объявила о выпуске 100-ядерного
процессора в середине 2011 года (при тактовой частоте 1,5ГГц он сможет обеспечить
быстродействие 750×109 операций в сек, процессор не совместим с х86 и предназначен для
облачных вычислений и задач сетевой безопасности). При обмене между ядрами
обеспечивается скорость передачи 200 Тбит/с, а при обмене с памятью более 500 Гбит/c). Но
и здесь ресурсы не беспредельны – уже сегодня на кристалле около 70% поверхности
занимают проводные соединения между активными элементами, да и делать кристаллы
размером с книгу вряд ли можно считать целесообразным. Кроме того, производительность
вычислений растет в среднем пропорционально логарифму числа процессоров. Ярким
примером сложившейся ситуации может служить супер-ЭВМ рекордсмен (Япония; 10
петафлоп/c или "Титан" более 17 петафлоп/c США; энергопотребление более 8МВт; ноябрь
2012), которая занимает 800 стоек и требует для своего питания и охлаждения отдельной
электростанции (5 МВт = мощности первой АЭС в Обнинске; см. рис. 2). А это одна из
самых энергоэффективных машин на сегодняшний день (2,2 Гфлопс/Вт). Что ждать от супер-
ЭВМ следующего поколения – машина размером с небольшой город?

Следует учитывать, что большая часть потребляемой мощности расходуется на перезарядку


паразитных емкостей в кристалле и соединительных проводников.
Любопытно, что Эрих Штромайер (Erich Strohmaier) разработчик списка Top500, в 1993 году
сказал, что он не ожидает увидеть машину петафлопного класса. 15 лет назад трудно было
сказать, будут ли 500 самых мощных машин иметь суммарную мощность 1 терафлоп.

Вычислительные машины в 2005 году потребляли 1,2-1,5% производимой энергии (в США),


большая часть из этой доли приходится на настольные машины и небольшие серверы.
Известно, что полезная мощность составляет примерно половину всех энергозатрат. Вторая
часть представляет собой потребление вспомогательных структур вычислительного центра,
включая системы питания и охлаждения. В США было принято решение сократить
потребление в 2 раза. Эта задача была решена, что дало толчок к формированию
направления green computing.

Предполагается, что критических значений технологии достигнут в 2020-25 годах. Число


машин, подключенных к Интернет, превысило 1,5 млрд. Вместе с iPhone, iPad и пр. это число
достигает 4 млрд. Человечество уже не может жить без машин и сетей. Машины управляют
потенциально опасными технологиями, авиалайнерами, энергетическими системами,
проектируют новые лекарства, на очереди встраивание чипов в организм человека и т.д. Но
ведь машины и используемые ими каналы передачи данных имеют конечную надежность.
Среднее число ошибок на 1000 строк кода равно 15-50. Для Linux это число равно 7.
Продукты Microsoft после отладки характеризуются цифрой 0,5 ошибок на 1000 строк кода.
Рекордное значения имеют программные продукты NASA JPL (навигационные программы
для космических объектов) - 0.003 ошибки на 1000 строк кода. В программном обеспечении
любой современной машины содержится до 50000 ошибок. По этой причине жизненно
важным становится поиск решений, которые бы гарантировали приемлемый результат даже
на ненадежной машине с ошибками в программном обеспечении. Согласно существующим
оценкам в дистрибутиве Debian содержится около 3 миллионов ошибок (на 350 млн. строк
кода)!

Быстро растет объем информации. Журнал Economist оценивает, что объем данных каждый
год увеличивается на 60%. Эта точка зрения подтверждается аналитиком компании IDC,
который предсказывает, что ‘цифровая вселенная’ достигнет 1.8 зеттабайт (1021байт) в 2011
г, на 47% по отношению к 2010 г, и превысит 7 ZB к 2015 г. 1 зеттабайт эквивалентен
содержимому 50 библиотек конгресса США. На рис. 3 показан рост информационных
объемов и доступной памяти. Зазор между потребностями и возможностями со временем
только увеличивается (200 петабайт в год). Причин здесь много. Это оцифровка библиотек и
архивов, создание разнообразных баз данных, видеозапись мониторинга (банкоматы,
эскалаторы метро, банки), частные аудио и видеотеки и т.д.

Марк Либерман оценил объем памяти, которая нужна, чтобы записать все, что было когда-
либо сказано людьми. Для этого нужно 42 зеттабайт, если оцифровка выполняется с
частотой 16 кГц с разрешением 16-бит.

Только в одном Twitter формируется почти 100 млн. коротких сообщений в сутки.
Специалисты из исследовательской компании IDC полагают, что до 2020, объемы
информации цифровой вселенной увеличится на 35 триллионов гигабайт. В 2011 объем
цифровых данных генерируемых и копируемых превысит 1.8 триллиона гигабайт – темп
роста 9 раз за пять лет. Компания Google обрабатывает более одного петабайта в час.

Типовой пассажирский лайнер генерирует 20 терабайт данных на каждый из двигателей в


час. За один полет из Нью-Йорка в Лос Анжелес Боинг 737 генерирует 240 терабайт данных.
Если принять во внимание что в день осуществляется около 30,000 полетов (США), объемы
данных быстро стремятся к петабайтам.
Мы привыкли к тому, что мы окружены материальными объектами. Но можно также сказать,
что мы окружены информацией. Все объекты материального мира состоят из молекул и
атомов определенного типа, имеющих определенные координаты. Сегодня мы этими
данными не владеем. Тысячелетия люди жили, не имея этих данных. Может возникнуть
вопрос, а так ли уж нужна нам эта информация? Предположим, что у нас появилась
возможность всегда знать, каков состав воздуха, которым мы дышим. Мне возразят, что
состав воздуха достаточно стабилен и эта информация избыточна и, следовательно,
бесполезна. Но мы из ТВ-передач узнаем, что почти каждый месяц взрываются дома из-за
утечек бытового газа, влекущих человеческие жертвы. Следовательно, знание состава
воздуха, во всяком случае, для домов с газовым снабжением совсем небесполезно и может
сохранить человеческие жизни. Это же можно сказать и о многих других видах информации.

История становления Интернет


Интернет является сетью виртуальных сетей. В 1990-91 годах у нас (тогда еще в СССР) о нем
знали несколько десятков человек, которые только что освоили электронную почту (через
RELCOM) и попробовали, что такое FidoNet. Первое сообщение по электронной почте было
послано президентом США Биллом Клинтоном 2 марта 1993 года. Первая новелла Стивена
Кинга была опубликована по каналам Интернет 19 сентября 1993 года (до появления
печатной копии), к тому же году относится начало синхронной передачи радио-программ по
сетям Интернет. В конце 1993 года заработала первая очередь оптоволоконной опорной сети
Москвы, полностью профинансированная Джорджем Соросом. В 1994 году НАТО
организовало первую конференцию по Интернет в России (в Голицыно под Москвой). С
помощью DFN (Deutsche Forschung Naetze), а затем Дж. Сороса и RELARN круг любителей
Интернет расширился до сотен и тысяч, а после включения программ Минвуза и
Министерства науки РФ счет пошел на десятки тысяч. Это произошло прежде всего потому,
что созрели условия - в различных учреждениях (сначала научных, а затем коммерческих и
государственных) и у частных лиц оказались сотни тысяч персональных ЭВМ. К этому же
времени (1992-93 годы) в мире стала формироваться сеть депозитариев, доступных через
анонимный доступ (FTP), а несколько позднее и WWW-серверов. На рис. 1.1 показан рост
числа ЭВМ, подключенных к Интернет по годам с 1989 по 1998 годы. Видно, что рост числа
узлов сети имеет экспоненциальный характер. Можно смело утверждать, что протоколы
Интернет, созданные для осуществления связи в случае нанесения десятков ядерных ударов
по США со стороны СССР, явились одним из немногих (возможно единственным)
положительным результатом холодной войны.
Рис. 1.1. Рост числа ЭВМ, подключенных к Интернет в период 1989-98 годы (по
вертикальной оси отложено число ЭВМ в миллионах)

Сегодня, когда Интернетом заинтересовались широкие массы трудящихся, и определенная


часть их подключилась к расширению этой сети, стала актуальной проблема оптимального
проектирования сетей и их подключения к общенациональной и международной сети
Интернет. К концу 2005 года число узлов, подключенных к Интернет превысило миллиард.
В 2011 году число машин в Интернет достигло полутора миллиардов (что составит ~22%
населения Земли). Если сюда добавить iPhone и ipad, то число объектов в Интернет
приблизится к 4 млрд.

Современные сети Интернет объединяют в единое целое многие десятки (а может быть уже
и сотни) тысяч локальных сетей по всему миру, построенных на базе самых разных
физических и логических протоколов (Ethernet, Token Ring, ISDN, X.25, Frame Relay, ATM и
т.д.). Эти сети объединяются друг с другом с помощью последовательных каналов
(протоколы SLIP, PPP), сетей ATM, SDH (Sonet), Fibre Channel и многих других. В самих
сетях используются протоколы TCP/IP (Интернет), IPX/SPX (Novell), Appletalk, Netbios и
бесконечное множество других, признанных международными, являющихся фирменными и
т.д. Картина будет неполной, если не отметить многообразие сетевых программных
продуктов. На следующем уровне представлены разнообразные внутренние (RIP, IGRP,
OSPF) и внешние (BGP и т.д.) протоколы маршрутизации и маршрутной политики,
конфигурация сети и задание огромного числа параметров, проблемы диагностики и сетевой
безопасности. Немалую трудность может вызвать и выбор прикладных программных средств
(Netscape, MS Internet Explorer и пр.). В последнее время сети внедряются в управление
(CAN), сферу развлечений, торговлю, происходит соединение сетей Интернет и кабельного
телевидения.

Что явилось причиной стремительного роста сети Интернет? Создатели базовых протоколов
(TCP/IP) заложили в них несколько простых и эффективных принципов: инкапсуляцию
пакетов, фрагментацию/дефрагментацию сообщений и динамическую маршрутизацию
путей доставки. Именно эти идеи позволили объединить сети, базирующиеся на самых
разных операционных системах (Windows, Unix, Sunos/Solaris и пр.), использующих
различное оборудование (Ethernet, Token Ring, FDDI, ISDN, ATM, SDH и т.д.) и сделать сеть
нечувствительной к локальным отказам аппаратуры. Огромный размер современной сети
порождает ряд серьезных проблем. Любое усовершенствование протоколов должно
проводиться так, чтобы это не приводило к замене оборудования или программ во всей или
даже части сети. Достигается это за счет того, что при установлении связи стороны
автоматически выясняют сначала, какие протоколы они поддерживают, и связь реализуется
на общем для обеих сторон наиболее современном протоколе (примером может служить
использование расширения протокола SMTP - MIME). В кабельном сегменте современной
локальной сети можно обнаружить пакеты TCP/IP, IPX/SPX (Novell), Appletalk, которые
успешно сосуществуют.

Тот факт, что полтора миллиарда людей могут использовать одни и те же прикладные
программы и услуги (вспомним cloud computing), делает Интернет самым большим,
уникальным рынком товаров и услуг. В 21-ом веке информация становится одним из
основных и самых высокотехнологичных товаров (книги, фильмы, программы, музыкальные
произведения, описания технологий, сетевые развлечения и другие сервисы). Интернет
создает и новые проблемы. Так если вы покупаете коробку с ОС Windows-7, за этот товар
заплачен таможенный сбор. А если вы с помощью кредитной карты оплатите этот продукт в
США? и вам его пришлют через Интернет? Где здесь место для таможни? А если человек
написал программу и продал ее через Интернет, а ему провели оплату на его счет в Женеве,
где здесь место налоговой службы? Я не говорю об эмиссии денег через кредиты в Интернет,
ограничивающей функцию центробанка. Понятно, что без международного сотрудничества
эти проблемы решить нельзя.

Проектировщикам и создателям сетей приходится учитывать многие десятки факторов при


выборе того или иного типа сети, сетевого оборудования, операционной системы (UNIX,
MS-DOS, IRIS, Windows-NT/XP/VISTA, SOLARIS или что-то еще), программного
обеспечения, внешних каналов связи (выделенный канал, коммутируемая телефонная сеть,
цифровая сеть, радио или спутниковый канал) и в конце концов сервис-провайдера. За всем
этим стоят как технологические проблемы, так и финансовые трудности, тяжелый выбор
между дешевой и хорошей сетью.

Если вас интересуют оригинальные тексты протоколов Интернет, вы можете получить их,
например, по адресу http://www.rfc-editor.org/rfc-index2.html. Эти документы можно найти и в
других депозитариях.

Документы RFC (Request For Cmment) делятся на стандарты, проекты стандартов,


временные (экспериментальные) регламентации и предложения. Чем больше номер RFC, тем
более поздней дате этот документ соответствует. О статусе тех или иных RFC можно узнать
из RFC-1500 и -1780 (см. также файл std-inde.txt из того же депозитария, что и rfc-index.txt).
Если вы хотите найти какой-то RFC-документ, начните с просмотра индексного файла (напр.
rfc-index.txt). Первый документ RFC был выпущен в 1969 году около 40 лет тому назад.
Далее темп публикаций варьировался в довольно широких пределах, в 1997-99 годах
наблюдается заметный всплеск активности, связанный с потребностями мультимедиа (RTP,
RSVP, PIM и т.д.), безопасностью и IPv6. Вариация публикаций документов RFC по годам
представлена на рис 1.2.
Рис. 1.2. Распределение публикаций документов RFC по годам с 1969 по 2010

Из этого распределения видно, что к 1979 году окончательно сформировался стек базовых
протоколов и начался экстенсивный рост сети Интернет. По мере выявления недостатков
протоколов и новых потребностей после 1989 года началась активная разработка новых
направлений и приложений в Интернет. В журнале The Internet Protocol Journal, v18, N4, p. 25
опубликована статья редактора Heather Flanagan "The RFC Series – Beyond ASCII", где
обсуждается проблема форматов для документов RFC. В начале все они были текстовыми в
формате ASCII. Потом появились версии HTML и PDF. Сейчас обсуждается возможность
использования кодировок UTF-8 и форматов на основе XML. Окончательное решение по
этому вопросу ожидается в 2016-17 годах.

Но все по порядку. Начнем с того, как устроен Интернет. На рис. 1.3 показана общая схема,
которая облегчит дальнейшее обсуждение данной проблематики (буквами R отмечены
маршрутизаторы-порты локальных сетей).

Каждая из сетей, составляющих Интернет, может быть реализована на разных принципах,


это может быть Ethernet (наиболее популярное оборудование), Token Ring (вторая по
популярности сеть), ISDN, X.25, FDDI или ATM. Все внешние связи локальной сети
осуществляются через порты-маршрутизаторы (R). Если в локальной сети использованы сети
с разными протоколами на физическом уровне, они объединяются через специальные шлюзы
(например, Ethernet-Fast_Ethernet, Ethernet-Arcnet, Ethernet-FDDI и т.д.). Выбор топологии
связей определяется многими факторами, не последнюю роль играет надежность.
Использование современных динамических внешних протоколов маршрутизации, например
BGP-4, позволяет автоматически переключаться на один из альтернативных маршрутов, если
основной внешний канал отказал. Поэтому для обеспечения надежности желательно иметь
не менее двух внешних связей. Сеть LAN-6 (см. рис. 1.3) при выходе из строя канала R2-R6
окажется изолированной, а узел LAN-7 останется в сети Интернет даже после отказа трех
внешних каналов.

Хотя Интернет был создан как альтернатива телефонной сети (из-за ее уязвимости), нельзя
утверждать, что архитектуры типа телефонной сети в Интернет невозможны. Здесь следует
вспомнить об технике IP-туннелей, которая все чаще используется в сетях Интернет
(например, в семействе протоколов MOLS).
Широкому распространению Интернет способствует возможность интегрировать самые
разные сети, при построении которых использованы разные аппаратные и программные
принципы. Достигается это за счет того, что для подключения к Интернет не требуется
какого-либо специального оборудования (маршрутизаторы не в счет, ведь это ЭВМ, где
программа маршрутизации реализована аппаратно). Некоторые протоколы из набора TCP/IP
(ARP, SNMP) стали универсальными и используются в сетях, построенных по совершенно
иным принципам. Впрочем в последние годы стали появляться все чаще устройства, где
программные средства TCP/IP реализуются аппаратным образом.

Рис. 1.3. Схема построения сети Интернет

В некотором смысле Интернет возник эволюционно - в начале был Bitnet, fidonet, usenet и
т.д. Со временем стало ясно, что конкуренция сетей должна быть заменена их объединением,
так как от этого выигрывают все и пользователи и сервис-провайдеры. Ведь объединенная
сеть имеет большие информационные ресурсы, может предложить более широкий список
услуг и становится по этой причине привлекательной для еще большего числа клиентов.

Технология WWW-серверов сделала Интернет важной средой для целевой рекламы,


приближенной к конечному потребителю. Стремительный рост числа узлов www
продемонстрирован на рис. 1.4. Здесь также наблюдается экспоненциальный рост. Число
активных узлов примерно в два раза меньше числа зарегистрированных (это же мы
наблюдаем в нашей локальной сети). Сам факт использования Интернет для обливания
грязью кандидатов во время предвыборной компании, говорит о том, что эта технология
освоена и признана эффективной нашими политиками. Наше общество с удивительным
упорством сначала осваивают все негативное, оставляя, очевидно, позитивное на десерт.
Компания Netcraft начала мониторинг WEB-серверов в 1995 году. Тогда было
зарегистрировано 18,957 сайтов, за последующие два года (к апрелю 1997) число сайтов
достигло миллиона.
Рис. 1.4. Рост числа узлов WWW в период 1994-2015 годы
(получено по подписке из announce@beta.netcraft.com)

В сентябре 2014 число WEB-сайтов в мире достигло 1,022,954,603, впервые число WEB-
сайтов в мире превысило миллиард! (в ноябре 2014 заргистрировано 947,029,805 WEB-
сайтов, в декабре - 915,780,262, в феврале 2015г - 883,419,935, а в марте - 878,346,052 -
падение на 5 млн. WEB-сайтов за месяц). Если раньше наблюдался стабильный рост этого
числа, то в последние месяцы бывают и спады, что свидетельствует о наступлении периода
стабилизации. В мае 2015 получены отклики от 857,927,160 сайтов и 5,281,889 компьютеров.
Впервые на рисунке шкала имеет 10 миллиардов узлов.

В перспективе Интернет может стать и всемирной ярмаркой товаров и услуг. Ведь клиент
может не только увидеть изображение товара и ознакомиться с условиями поставки, но и в
диалоговом режиме получить ответы на интересующие его вопросы, а затем одним нажатием
на клавишу мышки сделать заказ на понравившийся ему товар или услугу. В принципе для
этого не нужен даже номер кредитной карточки, его заменит зашифрованный
соответствующим образом идентификатор пользователя (сертификат) или его IP-адрес (если
он работает на своей домашней машине, а машина имеет GPS-привязку). Таким образом,
можно будет заказывать билеты на самолет или в театр, планировать программу своего
телевизора на неделю вперед и т. д.

Современные системы мультимедиа позволяют совместить телевизор, видеомагнитофон,


факс и видеотелефон, причем это не фантазия на тему далекого будущего - это услуги
доступные уже сегодня (при наличии широкополосного канала связи (64-2000 Кбит/с)). Если
вы имеете доступ к Интернет, вам уже не нужно платить за международные телефонные
переговоры, вы можете сделать это с помощью ip-phone, skype или другого аналогичного
продукта, при условии что ваш партнер также имеет доступ к Интернет (данное требование в
ближайшем будущем перестанет быть обязательным). Все более широкий круг услуг
предлагает Интернет и в сфере развлечений. Здесь имеются игровые серверы, аренда
обычных и сетевых компьютерных игр, различные конкурсы и соревнования.

Теперь рассмотрим, как строятся каналы связи (стрелки на рис. 1.5). В простейшем случае
связь можно организовать через городскую коммутируемую телефонную сеть, для этого
нужны модемы - по одному на каждой из сторон канала (Рис. 1.5a). Традиционные модемы
могут обеспечить при хорошем качестве коммутируемой аналоговой телефонной сети
пропускную способность до 56 Кбит/с (кабельные широкополосные модемы при длине
соединения порядка 2км могут обеспечить 2 Мбит/с). Привлекательность такого решения
заключается в возможности подключения к любому узлу, имеющему модемный вход.
Наиболее широко указанный метод связи используется для подключения к узлам Интернет
домашних ЭВМ. Недостатком такого решения является низкая надежность канала (особенно
в России), малая пропускная способность и необходимость большого числа входных
телефонных каналов и модемов.

Использование выделенной 2- или 4-проводной линии (рис. 1.5Б) обеспечивает большую


надежность и пропускную способность (до 256 кбит/с при длинах канала < 10 км). Но и здесь
на каждый вход требуется отдельный модем, да и скоростные модемы, работающие на
выделенную линию, относительно дороги. Выделенные линии чаще служат для межсетевого
соединения (рис. 1.5В). Функциональным аналогом выделенных линий являются
оптоволоконные, спутниковые и радио-релейные каналы. Этот вариант позволяет строить
сети с пропускной способностью 1-100 Мбит/с и более.

Привлекательные возможности предлагают цифровые сети ISDN. Здесь можно использовать


групповые телефонные номера, когда пара модемов обслуживает 10 и более пользователей
(ведь они работают, как правило, не все одновременно). Кроме того, ISDN предлагает
пользователям каналы с пропускной способностью не ниже 64кбит/c, а при необходимости
возможно формирование и более широкополосных каналов. ISDN позволяет делить один и
тот же канал между многими пользователями для передачи данных, факсов и телефонных
переговоров. ISDN органично стыкуется с внешними каналами X.25. К недостаткам системы
следует отнести ограниченность ширины окна (число переданных пакетов без получения
подтверждения приема), что делает неэффективным использование широкополосных и
особенно спутниковых каналов. В области межсетевых связей свою нишу занимает Frame
Relay. Этот протокол имеет контроль перегрузок, работающий на аппаратном уровне

Рис. 1.5. Схемы каналов, использующих городскую телефонную сеть

На рис. 1.5 показана схема построения сети с использованием исключительно соединений


типа точка-точка. Это наиболее часто встречающийся, но не единственный вариант. Дорога
'от околицы до околицы' прокладывается там, где она нужна и теми, кому она нужна
непосредственно, но, согласитесь, построить так магистраль Москва Санкт-Петербург
нельзя. При построении крупных общенациональных и интернациональных сетей
применяются сверхширокополосные каналы и схемы типа опорной сети (backbone). Узлы
такой сети могут располагаться в каких-то крупных организациях или быть
самостоятельными (принадлежать государственным PTT). Такие сети обычно базируются на
протоколах SDH (Sonet). Информация в этих сетях передается в виде больших блоков
(виртуальных контейнеров). Использование опорной сети обычно оправдано при
организации интернациональных связей, но бывают и исключения. Примером такого
исключения является Московская опорная сеть, построенная на основе FDDI (100Мбит/с) и
объединяющая более десяти научных организаций (длина первой очереди около 30 км).
Московская сеть выполнена по схеме с 'прозрачными' IP-мостами, обычно же более мощные
опорные сети маршрутизируемы, то есть блоки данных адресуются конкретным узлам, где
они разбираются и сортируются. Контейнер может содержать сообщения, адресованные
разным получателям, что несколько противоречит идеологии протоколов TCP/IP. IP-пакеты
могут вкладываться в эти контейнеры и транспортироваться до заданного узла опорной сети.
Классическим примером опорной сети является E-bone (Европейская опорная сеть). Эта сеть
объединяет 27 стран (России в этом списке нет) и более 60 сервис-провайдеров, пропускная
способность для различных участков лежит в пределах 2-34Мбит/с. Опорная сеть подобна
международной автомагистрали, по ней добираются до ближайшего к точке назначения узла,
а далее по 'проселочным' каналам до конечного адресата.

Телевидение и тенденция к интеграции услуг


Первые попытки передачи и воспроизведения изображения с помощью диска Нипкова
(Германия) относятся к 1884 году. В 1907 году Б. Г. Розингом было предложено
использовать для приема изображения электронно-лучевую трубку (ЭЛТ), прототип
видиконов и ортиконов. Устройство отображения на принимающей стороне также
предполагало применение ЭЛТ. Электронное телевидение возникло в 30-х годах двадцатого
века (усилиями В. К. Зворыкина и Ф. Франсуорта). Число элементов N в одном кадре, на
которое разлагается изображение в действующем в РФ стандарте (625 строк и 25 кадров/сек)
определяется по формуле:

N=4/3×S2

где S – число строк, а 4/3 – отношение ширины кадра к его высоте (для широкоформатного
варианта отношение будет иным). Отсюда следует, что верхняя частота видеосигнала.

F=(N×K}/2=(2×S2×K)/3=6,5МГц

где K – число кадров в сек. Здесь следует немного добавить полосы для звукового
сопровождения, передачи цвета и различных служебных целей, например, для
синхронизации передатчика и приемника. Именно это определяет необходимую полосу для
каждого из телевизионных каналов, число которых может достигать уже сегодня 20-60, что
требует полосу при традиционной схеме более 130-390 мегагерц.

Частота строчной развертки при этом составляет 625×25=15,625 КГц. Несущая частота
должна быть в раз 8-10 больше 6,5 МГц, то есть превышать 48 МГц. Реально большинство
каналов работают на частотах от 100 до 900 МГц. Радиоволны в этом диапазоне не способны
огибать препятствия и по этой причине гарантируют надежный прием лишь при
непосредственной видимости между антеннами передатчика и приемника. Кривизна земли
является естественным ограничителем максимального радиуса надежного приема
телевизионного сигнала. Телевидение высокого разрешения, идущее на смену
традиционному, требует еще большей полосы и частот. На подходе также и стерео
телевидение. Телевидения стало основой и видео-телефонии. В городах телевизионный
сигнал чаще передается по оптоволоконным кабелям.
Уже более десятилетия существует система стерео телевидения с проектированием
изображения непосредственно на глазное дно человека. Эта система используется в шлемах
устройств виртуальной реальности.

В последние годы в качестве приемного устройства ортиконы, суперортиконы и кремниконы


вытесняются приборами с зарядовой связью (ПЗС), которые не требуют высоковольтных
источников питания, во много раз более компактны и существенно дешевле. В качестве
приемников помимо традиционных ЭЛТ в последнее время находят широкое применение
жидкокристаллические устройства отображения, плазменные панели и различные системы
проекционного телевидения.

В 50-х годах прошлого века началось развитие вычислительной техники и


микроэлектроники, качественно поменявших все направления телекоммуникаций. Чтобы
увеличить пропускную способность канала связи можно расширять его полосу или улучшать
отношение сигнала к шуму (см. выше теорему Шеннона). Первое, что приходит в голову, это
увеличение амплитуды сигнала (вспомните 40-120 вольтные сигналы в первых телеграфах).
Пока в электронике царили вакуумные лампы такие и даже большие амплитуды были с
технической точки зрения вполне возможны, хотя вряд ли рациональны. Но после внедрения
полупроводниковых приборов такие уровни сигналов стали совершенно недопустимы. Это
можно понять из вольтамперной характеристики такого прибора (см. рис. 1.5a).

Рис. 1.5а. Вольтамперная характеристика n-p перехода для кремния

Большие амплитуды нежелательны, из-за пробивного напряжения (Vпр) при обратном


смещении перехода. Можно конечно увеличить толщину перехода или сделать переход
многослойным, но это ухудшит быстродействие прибора. Уровни сигнала выбраны по этой
причине равными ~ ±2,5 В.

Сфера телекоммуникаций всегда сильно зависела от уровня развития технологий.


Начиналось все с электромеханических устройств, но современное цифровое телевидение и
Интернет немыслимы без использования новейших достижений микроэлектроники.

Резкое увеличение передаваемых объемов информации в локальных и региональных сетях


привело к исчерпанию имеющихся ресурсов, а реальные прогнозы потребностей указывают
на продолжение роста потоков в десятки и сотни раз. Единственной технологией, которая
способна удовлетворить эти потребности, являются оптоволоконные сети (Ethernet, Sonet,
SDH, ATM, GPON, Fiber Channel). Каналы этих сетей уже сегодня способны обеспечить
пропускную способность 155-622 Мбит/с, ведутся разработки и испытания каналов с
пропускной способностью в 2-20 раз больше, например, гигабитного Ethernet. Осваивается
техника мультиплексирования частот в оптоволокне (WDM), что позволяет поднять его
широкополосность в 32 раза и в перспективе довести быстродействие каналов до 80 Гбит/с и
более. По мере роста пропускной способности возрастают проблемы управления,
синхронизации и надежности. Практически все сети строятся сегодня с использованием
последовательных каналов. Это связано прежде всего со стоимостью кабелей, хотя и здесь
существуют исключения (например, HIPPI). Разные сетевые услуги предъявляют разные
требования к широкополосности канала. На рис. 1.6 представлены частотные диапазоны для
основных видов телекоммуникационных услуг. В Интернет практически все перечисленные
услуги доступны уже сегодня (кроме ТВ высокого разрешения). Стремительно развиваются
распределенные системы вычислений (например, проект GRID), управления и
информационного обслуживания. Современная технология микропроцессоров предполагает
достижение быстродействия в 5 Гбит/с к 2003-4 годам (технология с характеристическим
размером объектов на кристалле 80-130 нм). В 2008 году освоена технология с разрешением
40нм, а в 2009 - 22нм.

Объем информации, хранящейся в Интернет, лавинообразно растет. Увеличение составляет


примерно 30% в год (2007г) и к настоящему времени суммарный объем превысил 8
миллиардов страниц текстов и рисунков (когда вы будете читать этот текст, цифры объема
устареют). Одна страница простого текста содержит примерно 3 килобайт информации.
Журнал Economist (2011г) оценивает, что объем данных каждый год растет на 60%. Эта
точка зрения подтверждается аналитиком компании IDC, который предсказывает, что
‘цифровая вселенная’ вырастит до 1.8 зеттабайт (1021байт) в 2011, на 47% по отношению к
2010, и превысит 7 ZB к 2015. (1 зеттабайт = 50 библиотекам конгресса США).

Сеть Интернет может рассматриваться как распределенная супер-ЭВМ с мощностью,


превосходящей любую отдельную машину. Такие возможности уже использовались для
рассшифровки генома человека и проверки криптографической прочности современных
шифров.

Рис. 1.6. Требования к пропускной способности канала для различных видов сервиса.

Рассмотрев диаграмму, можно сделать определенные прогнозы на ближайшее будущее


сетей. Через несколько лет можно ожидать слияния функций телевизора и ЭВМ, а это
потребует пропускных способностей от магистральных каналов на уровне 1-100 Гбит/с.
Широкополосность каналов, приходящих в каждый семейный дом составит 2-10 Мбит/с, что
позволит реализовать видео-телефонию, цифровое телевидение высокого разрешения,
доступ к централизованным информационным службам и многое другое. Уже
существующие оптоволоконные системы обеспечивают и в 10 раз большую пропускную
способность. Можно предположить и появление локальных сетей внутри жилища. Такие
сети способны взять под контроль кондиционирование воздуха, безопасность дома в самом
широком смысле этого слова, например, оповещение о нежелательном вторжении, пожаре
или возможном землетрясении (в сейсмически опасных районах), появление вредных
примесей в воздухе. Такая система разбудит хозяина в указанное время, подогреет завтрак,
напомнит о предстоящих делах на день, запросит и предоставит хозяину свежий прогноз
погоды и справку о состоянии дорог, своевременно сделает заказ на авиабилет и т.д. Все это
технологически возможно уже сегодня, пока относительно дорого, но цены весьма быстро
падают. Примером может служить сеть CAN, разработанная для сбора данных и управления
автомобилем. Стремительное расширение сети Интернет не имеет аналогов в истории, так
что любой самый фантастический прогноз в этой области может сбыться.

Для целей идентификации и для платежных систем внедряется технология NFC (Near Front
Communication). Появились первые коммерческие квантовые компьютеры. Продолжаются
попытки создания искусственного интеллекта (семантические сети и машина Watson).
Мобильные устройства приближаются по мощности и функциональности к персональным
машинам.

Все шире внедряются приложения, использующие большое числа портов: файлообменные


сети, Skype и т.д.. В настоящее время только компания Google предлагает около 20 таких
приложений. Внедряются системы управления человеческим голосом IVR (Interactive Voice
Response). IVR подразумевает также применение дикторо-независимого распознавания речи.
На основе таких технологий создаются специализированные call-центры, обслуживающие
клиентов, включая безоператорские справочные голосовые системы.

Может возникнуть вопрос, зачем так много сетевых технологий? Почему не выбрать
наилучшую сетевую технологию, наилучшую ОС и не использовать их повсеместно? Ведь
такая унификация может дать существенный экономический выигрыш.

Если какой-либо упорный чиновник добьется тотальной унификации (а в России такое


вполне возможно). То спустя какое-то время все сети и серверы рухнут под воздействием
первого же червя или вируса. Это потребует не более получаса. Таких катастроф пока не
было, так как у нас использовалось широкое многообразие ОС и приложений. Господь Бог
создал нас не случайно с разными генными наборами, иначе чума или испанка могли бы
покончить с человечеством.

Протоколы Интернет (TCP/IP) существуют уже более 35 лет. Требования к


телекоммуникационным каналам и услугам выросли, и этот набор протоколов не
удовлетворяет современным требованиям. Появляются новые протоколы Delta-t (для
управления соединением), NetBLT (для передачи больших объемов данных), VMTP (для
транзакций; RFC-1045) и различные обновленные версии ТСР для повышения
эффективности передачи данных , блоки протоколов для работы с мультимедиа (RTP, RSVP,
PIM, ST-II и пр.), MPLS, VPLS, GMPLS, но, безусловно, наиболее революционные
преобразования вызовет всеобщее внедрение IPv6.

Последние события в Египте поставили на повестку дня проблемы доступности Интернет в


условиях, когда правительство (как в случае Египта) или злоумышленники блокировали
работу базовых маршрутизаторов, переключателей или шлюзов. Вспомним события 1991
года в России (ГКЧП). Власть перекрыла традиционные для того времени средства связи, но
справиться с Интернетом не смогла. Интернет в то время базировался на модемах и
выделенных линиях и отследить эту систему связи было тяжело (да и опыта еще не было),
что дало возможность узнать о событиях друзьям и родственникам за рубежом. В США
ставится вопрос о создании сети коммуникаций резервной по отношению к скоростному
Интернет , которая может базироваться на технологии Р2Р, а также каналы Wi-Fi. Они
считают, что любой избиратель должен иметь возможность довести свое мнение до
своего конгресcмена, какая бы ситуация не сложилась с системой коммуникаций.

В последнее время широкое распространение получили lifejournals, блоги и социальные сети


Facebook, Twitter, MySpace и LinkedIn, эти приложения формируют новую среду общения,
которая начинает играть все большую роль и в формировании общественного мнения.
С 1990 года емкости жестких дисков возрасли в 10000 раз, быстродействие процессора
увеличилось более чем в 250 раз, при этом стоимости этих приборов упали почти в 10 раз.
Появились принципиально новые устройства CD, DVD, диски blue-ray, флэш-память,
беспроводные средства межкомпьютерных связей и т.д.

В настоящее время разработаны замечательные технологии λ-коммутации пакетов,


исключающие их буферизацию (схема end-to-end; смотри Оптоволоконные каналы). Но эти
методы не применимы для полномасштабной маршрутизации, так как просмотр маршрутных
таблиц занимает слишком много времени. Таким образом проблема реактивности (протокол
ТСР) с повестки дня по-прежнему не снята, и для молодых читателей есть еще много
нерешенных проблем.

Киберугрозы и кибервойны
Компьютерные программы стали не только средством, облегчающим жизнь, но и средством
войны. Кибероружие разрабатывается во многих странах. К информационным войнам,
которым уже более 100 лет, добавились кибервойны. В 2007 году состоялась массированная
сетевая атака на Государственный департамент США, министерство экономики, обороны,
энергетики, NASA и некоторые другие правительственные структуры США. Это событие
некоторые американцы называют информационным Пирл-Харбором. По оценкам экспертов
украденный объем данных составил терабайты (сравнимо с суммарным объемом
информации в библиотеке Конгресса США). В 2010 году президент Б.Обама объявил защиту
от кибероружия приоритетной государственной задачей.

“It is now clear this cyber threat is one [of] the most serious economic and national security
challenges we face as a nation,” (Сейчас ясно, что киберугроза является одной из наиболее
серьезных экономических и национальных вызовов, с которым столкнулись мы, как нация.)
Б.Обама. См. Cyberwar: Sabotaging the System Managing Network-Centric Risks and Regulations

Представители разведки США считают, что основной угрозой для США сегодня являются
кибер атаки (James Clapper, руководитель национальной безопасности администрации
Обамы и Robert Mueller, директор ФБР).

Так как все большие сферы жизни человека и государства зависят от эффективной работы
компьютерных сетей, именно такие объекты могут стать объектами атаки террористов.
Такие атаки могут дезорганизовать работу транспорта, энергетических сетей, банковскую
систему и пр. (атаки против банков в связи со скандалом с WikiLeaks на практике показали
эффективность таких атак).

Одним из видов кибервойн является кибершпионаж, как экономический, так и политический.


Этим делом занялись практически все развитые страны. Речь уже идет о подготовке
кибервойн. Сообщений о разработках кибероружия становится все больше (см.
http://www.smartplanet.com/blog/thinking-tech/report-suggests-that-us-helped-create-super-cyber-
weapon/5988 - Report suggests that U.S. helped create super cyber weapon, а также
http://www.reuters.com/article/2010/09/24/security-cyber-iran-idUSLDE68N1OI20100924 -
UPDATE 2-Cyber attack appears to target Iran-tech firms). Эти сообщения связаны с американо-
израильской разработкой нового вида кибероружия (сетевой червь Stuxnet – типичный
представитель атак APT - Advanced persistent threat), поражающего контроллеры
технологического оборудования, в частности суперцентрифуг для разделения изотопов урана
в Иране. Сообщение New York Times официальными источниками в США не
подтверждается. Иранский президент Махмуд Ахмадинежад подтвердил проблемы с
технологическим оборудованием на обогатительных заводах. Разработка червя заняла около
2-х лет. Эта программа достаточно универсальна и пригодна для нарушения работы,
например, энергетических предприятий. Данный программный продукт не годится для
получения какой-либо материальной выгоды. Заразиться червем компьютер может при
загрузке USB-памяти, при этом ни одна существующая на сегодня антивирусная защита его
не обнаружит. Таким образом, промышленная инфраструктура государства может
пострадать не только от бомб. Одним из наиболее распространенных видов атак,
используемых в кибервойнах, являются DDoS-атаки.

По данным департамента обороны США возможны достаточно забавные атаки. Атакер


изготовляет специальные USB-флэши, загружает в них специальное программное
обеспечение и разбрасывает такие устройства в местах, где их могут найти сотрудники
интересующих его организаций (например, на автостоянке Пентагона). Найденное
устройство будет рано или поздно вставлено в компьютер дома или на службе и станет
источником заражения сети, поставляя атакеру ценные сведения. Главная особенность атаки
- практически полная безопасность атакера. Ведь даже если жертва отследит адрес, куда
отсылаются данные, можно всегда утверждать, что организатора подставили, а доказать
обратное будет проблематично.

В области технологического и государственного управления роль вычислительной техники и


сетей быстро расширяется. Это открывает большие возможности для хакеров и создателей
кибероружия.

Но атаковать могут не только производственные или оборонные структуры, но и, например,


банковскую систему государства, дезорганизуя работу экономики.

Начало января 2012 ознаменовалось серией атак хакеров на ближнем востоке. Сначала хакер
0xOmar из ОАЭ опубликовал данные более 20000 кредитных карт израильтян. 9-го января
хакеры взломали сайт зам. министра иностранных дел Израиля, обещавшего найти и
наказать 0xOmar. Затем была предпринята атака на сайты авиакомпании El Al и финансовой
биржи Тель-Авива. Кроме того была предпринята попытка проникнуть в базу данных одного
из крупных банков Израиля. Арабские сетевые партизаны получили поддержку
мусульманского проповедника Тарика Ас-Сувейдана, призвавшего начать кибер джихад
против Израиля. 10-го января последовал ответ израильских хакеров. Сначала хакер под
именем 0xOmer опубликовал данные сотен клиентов интернет-магазинов в Саудовской
Аравии. Затем хакер с именем Ганнибал 17-го января опубликовал данные 30000 (или даже
100000) арабских пользователей социальной сети Facebook. Тогда же хакеры заявили, что им
удалось нарушить работу саудовской фондовой биржи и биржи ценных бумаг Абу Даби. В
армии Израиля сформирована группа в 300 хакеров. Но осознание губительности эскалации
взаимных атак привело к тому, что в настоящее время они прекращены.

В условиях войны важно уметь надежно и быстро распознавать своего врага. Именно это
стимулирует разработчиков кибероружия сделать его невидимым (атаки нулевого дня). В
таких условиях враг становится невидимкой и по этой причине особенно опасным.

Проблема ошибок в программном обеспечении


Все мы используем огромное число программ на работе и дома. Сфера использования
программ становится все шире. От программ зависит наше благосостояние (кредитные
банковские карты) и даже сама жизнь (истории болезней, а на очереди проектирование
лекарств, индивидуально подогнанные под генный набор пациента). Но насколько эти
программы корректны? Все ли программные ошибки устранены при отладке, да и
безупречен ли алгоритм программы? Если в программе имеется ошибка, она может
"повиснуть", мы нажимаем кнопку Reset и теряем пару минут жизни, ожидая перезагрузки.
Ну а если программная ошибка в программе расчета индивидуального лекарства или в
системе реанимации...

Из практики известно, что примерно 20-100 строк кода содержат по крайней мере одну
ошибку (по завершении отладки). В ядре любой операционной системы содержится 5-100
миллионов строк кода. А еще имеется оболочка и прикладные программы. Таким образом,
на любой машине работает 10-200 миллионов строк кода (дистрибутив Debian содержит
даже 350 миллионов строк кода). Это означает, что в программах, работающих на вашей
машине, присутствует до 100000 ошибочных строк кода. Вы можете сказать, моя машина
работает. Но разве вы не сталкивались с ситуациями зависания программ, из которых вы
выходили перезапустив программу или перезагрузив компьютер? Большинство таких
ошибок находятся на редко посещаемых ветвях программ или, например, в комментариях.
Основные ошибки удалены из программ при отладке. Другие - при доводке (вспомним
альфа, бета-версии программ). Число ошибок может быть минимизировано, если
разработчики следуют жестким правилам, например, Правилам Хольцмана.

Но даже при самых жестких критериях число ошибок на 1000 строк кода не равно нулю.
Именно по этой причине все шире используются codechecker'ы, которые ищут ошибки не
синтаксиса, как это делают традиционные отладчики, а алгоритма. Но даже они не
гарантируют отсутствия ошибок. Разработка программ, которые даже при наличии
ошибок, гарантируют устойчивую работу или хотя бы достаточно надежный результат -
дело будущего. А программные ошибки, например, в коде управления пассажирским
лайнером могут иметь печальные последствия. Следует также иметь в виду, что хакеры для
вторжения используют именно ошибки в кодах. Получение надежной программы сегодня
результат компромиса между трудоемкостью и безопасностью.

В прессе часто проскакивают сообщения о создании искусственного интеллекта,


практически с начала 21-го века ведутся исследования в сфере семантических сетей. Но
реальные успехи в этой области не столь впечатляющи. Память современных ЭВМ
измеряется уже терабайтами (~1013 бит). Это уже сравнимо с памятью человека. Можно
ожидать в ближайшие годы дальнейшего роста объемов памяти. Прогресс очевиден. Но
сравнимы ли современные машины по интеллекту с человеком? ЭВМ выигрывает в шахматы
у чемпиона мира, а ведь еще 20-25 лет назад многие ученые утверждали, что машина не
сможет никогда играть в шахматы даже на уровне мастера спорта... ЭВМ сегодня производит
вычисления с огромной скоростью (быстрее любого человека), но умней ли она человека?
Судя по всему - нет. На эту тему рекомендую прочитать книгу американского математика Р.
Пенроуза "Новый ум короля", (это чудесное чтение для любого, кто увлечен наукой), где
автор осторожно подводит читателя к мысли, что машина, построенная на современных
принципах (модель Тюринга), решить эту задачу вообще не может. В США создана машина
Watson, способная работать с текстами на естественном языке (английском, можно
предположить, что она понимает контекст). Но названные трудности делают проблему
создания искусственного интеллекта еще интереснее...

Возможно со временем удастся создать метаязык описания проблем, а интерпретатор будет


искать и реализовать нужный алгоритм, минимизируя участие человека в процессе
программирования. Ведь обучить человека не делать ошибок при программировании не
реально .

Что может стать следующим этапом развития ИТ? Сказать это достаточно сложно. Возможно
будут разработаны инженерные методы имплантирования знаний в мозг человека. Впрочем
нужда в этом может отпасть, если людям удастся разработать компактные средства
искусственного интеллекта высокой мощности.
Интернет вещей
Интернет вещей – глобально связанная система приборов, объектов и предметов,
базирующаяся на технологии RFID.

Термин Интернет вещей был предложен Кевином Эштоном (Kevin Ashton) в 2009 году.

Интернет вещей предполагает формирование среды, где все объекта окружающего мира - от
транспортных самолетов до авторучек имели выход в Интернет. Появляется возможность
взаимодействия людей с этими предметами, а также общения этих предметов между собой.

На сегодняшнем этапе Интернет вещей предполагант следующее:

 Разработка модели совместимости разных систем Интернета вещей (протоколы,


интерфейсы, алгоритмы)
 Разработка механизма эффективной интеграции прикладного уровня с будущим
Интернет
 Разработка новых компонентов
 Разработка новых масштабируемых инфраструктур для взаимодействия с
окружающим миром в реальном масштабе времени

Можно себе представить ситуацию, когда дежурный инженер подходит к некоторой


установке и крадет свой планшет у определенной радиометки. Планшет распознает метку,
загружает нужную программу, считывает по bluetooth текущие параметры установки,
сравнивает их с ожидаемыми и передает результат на центральный пульт системы. Этот
планшет может быть также снабжен датчиками, например, измерения амплитуды и спектра
вибраций (вспомним случай на Красноярской ГЭС).

Согласно прогнозам компании ABI Research более 30 млрд. устройств будут беспроводным
способом подключены к Интернету вещей к 2020 году.

В сетевом журнале InfoWorld появилась заметка, где утверждается, что Интернет вещей еще
не будет масштабно работать в 2014 году (см. "The Internet of things will not arrive in 2014",
Bill Snyder, InfoWorld, December 12, 2013). Это объясняется нерешенностью проблем
безопасности, питания и управления сетью. Предполагается, что Интернет вещей будет
способствовать росту энергопотребления в мире. В этой среде каждый пользователь станет
администратором, что не будет способствовать ее безопасности.

Окружающий мир быстро изменяется, он стал тотально связанным, см. "Realising the
benefits of a totally connected world", Cliff Saran. Появляется Интернет вещей, который еще
более изменит среду жизни. Контроллеры управления отоплением жилых помещений (200
фунтов стерлингов) уже поступили в продажу. Компания Ксерокс разработала систему
автоматизации управления городским трафиком в Лос Анжелесе (7000 датчиков). Эта
система контролирует даже занятость парковочных мест и динамически меняет расценки за
парковку. Революционные преобразования ждут систему управления аэропортами и доками
(Лондон). Компания Coca-Cola надеется с помощью этой технологии лучше учитывать вкусы
потребителей для своих питейных автоматов.

После широкого внедрения интернета вещей радикально поменяются условия жизни.


Например, дома эта система, может контролировать утечки бытового газа, детектировать
задымление и вызывать пожарную службу, фиксировать несанкционированные попытки
проникновения в жилище и вызывать полицию, выключать освешение в помещении, если
там нет людей. Мониторировать состояние здоровья хозяев и вызывать врача, если это
требуется, отслеживать поведение домашних животных и детей. Но прежде чем все это
станет реальностью, нужно решить много самых разных проблем, например, питание
датчиков.

2 Преобразование, кодировка и передача


информации
Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
2.1 Передача сигналов по линиям связи 10 95
2.2 Представление электрических сигналов в цифровой форме 10 135
2.3 Цифровые каналы T1 и Е1 2 23
2.4 Методы преобразования и передачи звуковых сигналов 7 76
2.5 Методы преобразования и передачи изображения 24 443
2.6 Методы сжатия информации 4 46
2.7 Обнаружение ошибок 3 32
2.8 Коррекция ошибок 17 298
2.9 Видеоконференции по каналам Интернет и ISDN 8 107
2.10 Элементы статистической теории каналов связи 14 145
Итого    

Человек как аналоговое устройство


Преобразование частот
Основные виды модуляции

Передача данных уже на самых ранних этапах использовала цифровые подходы (например,
коды Бодо). Понятно, что, когда информация предназначена непосредственно для человека,
она должна быть соответствующим образом преобразована. Это, прежде всего, относится к
передаче голоса. По каналам связи передаются, как правило, модулированные сигналы.
Несущая частота передачи, например, при трансляции по радиоканалу на порядки
превосходит частоты голосового сигнала. Модуляция позволяет решить проблему
согласования частот. Но следует иметь в виду, что модуляция используется не только в
радиоканалах. Современные цифровые методы передачи также немыслимы без применения
модуляции.

Человек как аналоговое устройство


Человек - аналоговое устройство с точки зрения средств коммуникаций, которыми он
располагает. Элементы цифровой техники можно обнаружить лишь на глазном дне.

Существует множество различных видов модуляции. Исторически первыми появились


аналоговые способы модуляции: амплитудная, частотная, фазовая и различные их
комбинации. Это было связано с технологической простотой их реализации. Цифровые
методы стали использоваться лишь около 50-лет назад.

Для передачи информации на большие расстояния в настоящее время используются


исключительно электромагнитные волны (акустические волны пригодны лишь для
ограниченных расстояний). При этом пересылка может осуществляться по медным
проводам, оптоволоконному кабелю или непосредственно, по схеме передатчик-приемник. В
последнем случае используются антенны. Для того чтобы антенна была эффективна, ее
размеры должны быть сравнимы с длиной передаваемой волны. Чем шире динамический
диапазон передаваемых частот, тем труднее сделать антенну, пригодную для решения этой
задачи. Именно по этой причине для передачи используются частоты, начиная с многих
сотен килогерц и выше (длина волн сотни метров и меньше). Передача сигнала
непосредственно по лучу лазера ограничена расстояниями 100-3000м и становится
неустойчивой при наличии осадков даже для инфракрасных длин волн. Между тем человек
воспринимает акустические колебания в диапазоне 20-12000 Гц и для целей пересылки звука
(например, телефония) требуется именно этот диапазон частот. Динамический диапазон
частот в этом случае равен 600, а для высококачественного воспроизведения звука он в два
раза шире. При решении этой проблемы используется преобразование частот и различные
методы модуляции. Так тот же частотный диапазон, лежащий в пределах (100 - 100,012)
Мгц, соответствует динамическому диапазону 0,012%, что позволяет сделать компактную
антенну и упростить частотное выделение сигнала.

Преобразование частот
Для преобразования частот используется перемножение сигналов. Пусть мы имеем два
синусоидальных сигнала:

A1*sin( t) и A2*sin( t). Из тригонометрии известно, что:

A1*sin( t)*A2*sin(  t)=1/2*A1*A2*[sin( t + sin( t]. [1.1]

Это означает, что в результате перемножения вместо двух частот f1= и f2=  мы
имеем две новые частоты ( и ( с амплитудой 1/2*A1*A2. Если входной
сигнал имеет полосу 0 - fм, то после перемножения с сигналом, имеющим частоту fн (несущая
частота), получим сигнал с полосой в интервале от (fн - fм) до (fн+fм). Это преобразование
проиллюстрировано на рис. 2.1. (по вертикальной оси отложена спектральная плотность
сигнала f(j )). На практике это преобразование выполняется с помощью смесителей или
гетеродинов, частота fн называется сигналом гетеродина или несущей.

Рис. 2.1. Частотное преобразование

Получение исходного сигнала из преобразованного достигается путем обратного


преобразования, которое сводится к умножению полученного сигнала на sin(нt), где н = 2
*fн. При таком обратном преобразовании мы получим сигнал с исходным частотным
диапазоном. Помимо этого будет получен сигнал с полосой от (2fн - fм) до (2fн+ fм). Так как fн
обычно много больше fм, серьезных проблем это не вызывает - достаточно воспользоваться
соответствующим фильтром. Этому методу обратного преобразования присущи некоторые
недостатки. Если сигнал fн имеет фазовый сдвиг  по отношению к тому, что имел сигнал,
использованный при прямом преобразовании, то амплитуда выходного сигнала будет
пропорциональна cos Понятно, что при вариации фазы амплитуда будет меняться, а при
/2 станет нулевой. По этой причине должны быть предприняты специальные меры для
синхронизации этих сигналов (fн. передатчика и fн приемника).

Синхронизация передатчика и приемника в каналах коммуникаций является одной из


важнейших задач.

Соотношение [1.1] используется при реализации амплитудной, частотной или фазовой


модуляции. Так в случае амплитудной модуляции при временной вариации A1 (=Авх) будет
изменяться и амплитуда выходного сигнала (А2=Aн - амплитуда несущей частоты при этом
остается постоянной;  н при этом может также варьироваться). Форма сигнала на выходе
такого преобразователя имеет вид: Авых = Ан[1+Авх(t)] sin нt. Для получения формы
исходного сигнала на принимающей стороне используется схема детектора (например,
диодного), на выходе которого получается сигнал, пропорциональный модулю огибающей
функции входного сигнала. Существуют и другие методы демодуляции амплитудно-
модулированного сигнала. Главным недостатком метода амплитудной модуляции является
возможность нелинейных искажений из-за перемодуляции (когда амплитуда
модулирующего сигнала слишком велика).

При частотной и фазовой модуляции амплитуда передаваемого сигнала остается почти


постоянной, что исключает нелинейные искажения, связанные с широким динамическим
амплитудным диапазоном. Выходной сигнал для этого вида модуляции имеет вид: Авых = Ан
sin[нt + (t)], где (t) зависит от формы преобразуемого входного сигнала. Часто
используется комбинация амплитудной и фазовой модуляции, которая носит название
квадратурной модуляции.

Системы передачи данных с амплитудной или частотной модуляцией являются аналоговыми


системами и по этой причине весьма чувствительны к шумам на входе приемника.
Применение цифровых методов пересылки информации увеличивает вероятность
корректной доставки. Если для аналоговой передачи требуется отношение сигнал/шум на
уровне 40-60 дБ, то при цифровой передаче достаточно 10-12 дБ. Выбор типа модуляции
зависит от стоящей задачи и от характеристик канала (полосы пропускания, ослабления
сигнала и т.д.). Частотная модуляция менее чувствительна к амплитудным флуктуациям
сигнала. Ослабление сигнала может варьироваться во времени из-за изменений в
транспортной среде, это довольно типично для коммутируемых телефонных сетей. В сетях,
использующих выделенные каналы, это также возможно благодаря применению
динамических протоколов маршрутизации, когда длина пути может изменяться в пределах
одного сеанса связи. В любом случае на передающей стороне необходим модулятор, а на
принимающей демодулятор. Так как обмен обычно двунаправлен, эти устройства
объединяются в одном приборе, который называется модемом (см. также раздел “4.3.7.
Модемы").

Основные виды модуляции


В модемах применимы несколько видов модуляции:

(Frequency Shift Keying) - ступенчатое переключение частоты синусоидального


FSK сигнала от f1 к f2 при неизменной амплитуде, частоте f1 ставится в соответствие
логический нуль, а f2 - логическая единица.
(Binary Phase-Shift Keying) - скачкообразное переключение фазы синусоидального
BPSK сигнала на  при неизменной амплитуде, при этом фазе 0 ставится в соответствие
логический нуль, а - логическая единица.
(Differential Phase Shift Keying) - метод, при котором изменяется фаза несущей
DPSK частоты при постоянной амплитуде и частоте. Разновидность PSK, при которой
кодируется лишь изменение сигнала.
(Quadrature Amplitude Modulation) - комбинация амплитудной и фазовой
QAM
модуляции, позволяет осуществить кодирование 8 бит на бод.
(Quadrature Phase-Shift Keying) - квадратурная фазовая модуляция. Использует 4
QPSK фиксированных значения фазы 0, /2,  и 3/2. Требует в два раза более узкую
полосу, чем PSK, и по этой причине весьма популярна.
(Trellis Coded Modulation) - метод предполагает использование избыточности,
каждый бод несет дополнительный бит, который позволяет более точно
восстановить информационную битовую последовательность. При кодировании
TCM
сигнала используется метод QAM. Метод реализован в современных
высокоскоростных модемах и позволяет снизить требования к отношению
сигнал/шум на 4-5 дБ.

В QAM-модуляции используется 8/16 комбинаций амплитуда-фаза (см. рис. 2.2). Понятно,


что такой тип модуляции более уязвим для шумов. В бодах измеряется частота символов в
секунду. Если за один такт определяется 3 бита (как на рис. 2.2 слева), то при скорости 8
кбод формируется поток 24 кбит/c. В случае использования манчестерского кода число бит в
секунду равно 1/2 скорости передачи выраженной в бодах. Название бод произошло от
имени Эмиля Бодо, изобретателя кода Бодо — кодировки символов для телетайпов.
Рис. 2.2. QAM-модуляция с 3 битами на бод (слева) и 4 битами на бод (справа)

Если имеется N субъектов, которые хотят осуществлять обмен информацией в одном и том
же частотном диапазоне, они должны осуществлять обмен по очереди (метод
мультиплексирования по времени - TDM) или передаваемые ими сигналы должны
отличаться каким-то еще параметром помимо частоты (например, амплитудой или
направлением излучения). Если это условие не выполнено, весьма вероятно искажение
данных при доставке. Вы наверняка сталкивались с этим, когда за столом пытаются говорить
сразу несколько человек.

Передаваемый сигнал характеризуется большим числом параметров - частотой, фазой,


амплитудой, параметрами, определяющими его пространственное распространение, уровнем
шума и т.д. В случае использования широкополосного сигнала, который представляет собой
суперпозицию определенного числа синусоидальных составляющих, число параметров
пропорционально возрастает. Чем больше таких параметров анализируется принимающей
стороной одновременно, тем большее отношение сигнал-шум может быть достигнуто.

Будущее за системами, анализирующими всю совокупность параметров входного сигнала.


Современные мощные и относительно дешевые сигнальные процессоры создают
технологическую базу для этого.

Впервые импульсно-кодовая модуляция (ИКМ) была применена для голосового сигнала в


1937 году Алеком Ривсом. Это было сделано для преодоления проблемы накопления
искажений и шумов в процессе ретрансляции аналоговых сигналов. Тогда впервые было
применено стробирование с частотой 8кГц при 8-битовом аналого-цифровом
преобразовании (АЦП). В то время еще не существовало эффективных технологических
средств для реализации такой схемы.

2.1 Передача сигналов по линиям связи


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
2.1.1 Влияние шумов и помех 3 42
Итого    

Полоса пропускания и шумы


Телефония, фототелеграф и факс
Характеристики каналов передачи данных
Эхоподавление
Проблемы передачи данных через сети

Полоса пропускания и шумы


Зависимость пропускной способности канала, обладающего определенной полосой
пропускания, от отношения сигнала к шуму исследовал американский инженер и математик
Клод Шеннон (род. 1916).

Теорема Шеннона (1948-49) ограничивает предельную пропускную способность канала I с


заданной полосой пропускания F и отношением сигнал/шум S/N :

    [2.1]

Для стандартного телефонного канала F=3кГц, N/S=30db, следовательно, теоретический


предел для публичной коммутируемой телефонной сети равен примерно 30кбит/с.
Ослабление для телефонных скрученных пар составляет около 15 дБ/км, дополнительные
ограничения возникают из-за перекрестных наводок.

Если рассмотреть сигнал с полосой F, то согласно теореме Найквиста частота стробирования


должна быть равна или больше 2F. При использовании больших частот стробирования
можно получить при воспроизведении более высокие гармоники, но они при заданной
полосе пропускания все равно будут подавлены. При N дискретных уровнях преобразования
максимальный поток данных составит 2F log2(N) бит/c, что при F=4кГц/c и N=256 даст 64
кбит/c. Практически при F=4кГц даже в отстутствии шума нельзя получить скорость
передачи более 8 кбит/с (если передается один бит за такт).
Из теоремы Шеннона следует, что при нулевом уровне шума можно получить сколь угодно
высокую скорость передачи при сколь угодно низкой полосе пропускания канала!

К.Шеннон по существу развил идеи Найквиста. Если используется двоичное представление


сигнала, то согласно теореме Найквиста [1924] максимальная скорость передачи данных I
по каналу без шума составит:

I=2F×log2V [бит/сек],    [1.2]

где F - полоса пропускания канала в Гц, а V - число дискретных уровней сигнала на выходе
цифрового преобразователя. Суть теоремы Найквиста-Котельникова заключается в том, что
при полосе сигнала F частота стробирования должна быть больше 2F, чтобы принимающая
сторона могла корректно восстановить форму исходного сигнала. По этой причине для
стандартного телефонного канала с полосой F=3кГц, при отсутствии шумов и при V=2
нельзя получить скорость передачи более 6кбит/с. Здесь нет противоречия с теоремой
Шеннона. Ведь в отсутствие шумов значение V не будет иметь ограничения сверху! Здесь не
имеется в виду, что максимальная амплитуда сигнала может достигнуть киловольтов.
Согласитесь, телефонных абонентов такая перспектива вряд ли бы порадовала. Но в
отсутствии шумов можно и в пределах одного вольта представить себе любое число уровней
сигнала. Фактически теорема Шеннона проясняет то, как уровень шумов ограничивает
предельное значение V при заданной максимальной амплитуде сигнала.

По этой причине еще висящие кое-где телеграфные провода обречены. Надо заметить, что и
медные телефонные провода, закопанные в земле, ждет та же участь. Предстоит выкопать
миллионы тонн медных кабелей (похоже, российские бомжи уже начали эту работу).
Медные провода будут заменены оптоволоконными волноводами.

История теоремы Найквиста поучительна. В России считается, что эту теорему на несколько
лет раньше доказал Котельников, но из соображений секретности ему ее не разрешили
опубликовать. В СССР этим преимуществом никто не воспользовался, но приоритет был для
нашей страны утрачен и во всем остальном мире эта теорема заслуженно носит имя
Найквиста. Это хороший пример вреда, наносимого системой секретности в науке.

При передаче буквенного сообщения длиной М (М считается достаточно большим)


требуется не менее M×log(n)/log(m) сигналов. n - число букв в алфавите, а m - число уровней
сигнала. При использовании энтропийного подхода для описания пересылки текстов следует
учитывать, что не любые буквенные комбинации образуют осмысленные слова и не любые
комбинации слов образуют осмысленные сообщения.

Следует иметь в виду, что реальная пропускная способность для конкретного пользователя
определяется не только полосой пропускания канала, но и загруженностью его трафиком
других клиентов. Ведь и пропускная способность автомобильной магистрали зависит не
только от числа полос, но и загруженности автомобилями.

Телефония, фототелеграф и факс


В 1876 году Э. Грей и А. Г. Белл одновременно сделали заявку на изобретение телефонного
аппарата. Белл откупил у Грея права на это изобретение, усовершенствовал предложенное
решение и совместно с Блейком и Эдисоном организовал первые телефонные сети. Вначале
телефонная связь использовала электромеханические схемы преобразования и передачи
голоса. Трансатлантический телефонный кабель был проложен в 1956 году. Современная
телефония базируется на сотнях, а возможно и тысячах изобретений. Системы коммутации
телефонных каналов прошли путь от ручного переключения, через этап
электромеханических шаговых искателей, к аналого-цифровым коммутаторам. Первый
автоматический коммутатор был разработан Штроугером еще в 19-ом веке. К этому его
подвигнула осведомленность конкурентов о его делах и он счел, что любопытные операторы
ручной телефонной станции ему не к чему.

Телефония стимулировала многие области электроники. Вскоре после второй мировой


войны стала широко внедряться импульсно-кодовая модуляция, пакетная схема передачи
данных, а позднее и цифровая телефония (ISDN).

В 1902 году Артур Корн (Германия) запатентовал систему фотоэлектрического сканирования


изображения, а в 1910 году заработала первая международная факсимильная связь Берлин-
Париж-Лондон. До 60-х годов этого века рынок факсимильной аппаратуры был ограничен.

В 1968 году международная комиссия CCITT разработала рекомендации по факсимильному


оборудованию, которое было способно передавать страницу за 6 минут при разрешении 3.85
линий на мм. Позднее в 1976 году аналоговая факсимильная техника была улучшена. Это
позволило сократить время передачи страницы до 3 минут. В 1980 году разработан стандарт
для цифровых факс-машин (группа 3), здесь уже предусматривается сжатие информации, что
позволяет сократить время передачи стандартной страницы до 1 мин при скорости передачи
4800 бит/с. Следует иметь в виду, что сжатие информации в сочетании с ошибками
пересылки может приводить к неузнаваемости изображения локальному или полному. По
этой причине число линий сканирования, которые используются при обработке
изображения, с целью сжатия может варьироваться (1-4) и определяется в результате диалога
между отправителем и получателем, а передача каждой скан-линии завершается довольно
длинным кодом, предназначенным для надежного распознавания завершения строки
сканирования, а также коррекции ошибок. Факсимильное оборудование группы 3 может и не
обеспечивать сжатия передаваемых (принимаемых) данных. В 1984 году разработаны
требования к факс-аппаратам группы 4. Система базируется на двухмерной системе
кодирования изображения (MMR - Modified Modified Reed).

Стандартные проводные линии связи имеют ослабление 6 дБ/км на частоте 800 Гц, или 10
дБ/км на частоте 1600 Гц. С самого начала развития телефонии проводная система и
оборудование проектировалось исходя из возможностей человеческого уха и голосового
аппарата. По этой причине все традиционные системы телефонии имели полосу пропускания
3-3,5КГц. На рис. 2.1.1 показана зависимость ослабления от частоты передаваемого сигнала
для медной линии с сечением 0,5 мм.
Рис. 2.1.1. Зависимость ослабления сигнала в медной линии сечением 0,5мм от частоты

От частоты зависит фаза (из расчета на километр) и волновое сопротивление скрученной


пары (см. рис. 2.1.2), по этой причине искажения формы сигнала при заметной длине линии
неизбежны.

Из формулы [2.1] видно, что расширять пропускную способность канала можно за счет
широкополосности и высокого отношения сигнал-шум. Существует много источников шума,
один из главных тепловые шумы (N = kTB, где T – температура в градусах Кельвина, B –
полоса пропускания приемника, а k – постоянная Больцмана). На практике существенно
большее влияние оказывают различного рода наводки. Увеличeние пропускной способности
сети достигается путем сокращения длины кабеля (уменьшение расстояния между узлами
сети), заменой типа кабеля, например, на провод с большим сечением, или применив
оптоволоконный кабель. Определенный эффект может быть получен и с помощью
усовершенствованной системы шумоподавления (новый, более эффективный модем).

Характеристики каналов передачи данных

Рис. 2.1.2. Зависимость волнового импеданса скрученной пары и фазы (сечение 0,5мм) от
частоты

Сопротивление скрученной пары от коммутатора до терминального оборудования может


лежать в пределах 800-20000 Ом. Следует учитывать, что при подаче питания на
терминальное оборудование (телефон) по подводящему кабелю, большое его сопротивление,
помимо прочего, приведет к падению питающего напряжения. В многожильных кабелях
определенные проблемы создают перекрестные наводки и шумы. Обычно рассматриваются
два случая перекрестных наводок:

 Источник сигнала и приемник находятся по одну сторону кабеля (NEXT - near end
crosstalk);
 Приемник и источник находятся на разных концах кабеля (FEXT - far end crosstalk).

NEXT-наводки при большом числе пар проводов в кабеле подчиняются закону f1.5 , а их
уровень составляет около 55 дБ при частоте 100 кГц. FEXT-наводки сильно зависят от схемы
коммутации и разводки проводов и обычно менее опасны, чем NEXT. Еще одним
источников наводок является импульсный шум внешних электромагнитных переходных
процессов. Этот вид наводок обычно характеризуется процентом времени, в течении
которого его уровень превышает порог чувствительности, и варьируется в зависимости от
обстоятельств в очень широких пределах.

При передаче по линии сигналы модулируются, при этом важно обеспечить сохранение
среднего уровня сигнала (постоянной составляющей). Определенные искажения сигнала
вносит сам кабель. Заметное влияние на характер искажений оказывает межсимвольная
интерференция (ISI - Intersymbol Interference). Эта интерференция возникает из-за
расплывания импульсов в процессе их передачи по линии и наезжания их друг на друга.
Проблема усложняется тем, что характеристики передающей линии могут меняться со
временем (коммутаторы и маршрутизаторы). По этой причине очень важно обеспечить
идентичность условий передачи различных частот при наличии таких вариаций. Для
решения этой задачи используются линейные эквилайзеры (рис. 2.1.3 и 2.1.4), которые
выполняют эту операцию во всем спектре частот, или после стробирования для реального
спектра сигнала. Этот метод чувствителен к шумам в системе. Эквилайзеры с решающей
обратной связью (DFE - Decision Feedback Equalizer) не чувствительны к шумам, они
управляются принятой информацией. Но влияние ошибок при приеме информации в этом
случае может быть усилено.

Рис. 2.1.3. Линейное выравнивание (эквилизация)

Рис. 2.1.4. Эквилизация с помощью решающей обратной связи

На практике линейное выравнивание и эквилизация с обратной связью совмещаются друг с


другом и со специальными методами формирования передаваемых сигналов. Проблема
усугубляется тем, что одна и та же линия используется для передачи данных в обоих
направлениях одновременно.

Для улучшения отношения сигнал/шум следует поднимать амплитуду передаваемого по


линии сигнала. Выбранное значение определяется требованиями перекрестных наводок и
возможностями существующих БИС. В результате компромисса выбрана амплитуда 2.5 В на
нагрузке 135 ом. Любые нелинейные искажения должны быть менее 36 дБ по отношению к
основному сигналу. Учитывая динамический диапазон сигналов в линиях связи, отношение
сигнал шум предполагается равным 20 дБ, что соответствует ограничению 6дБ на число
ошибок 1/106 для гауссова распределения шума. При аналого-цифровом преобразовании
одному биту соответствует 6 дБ.

Обычно двухпроводная линия (тем более 4-х проводная) используется для одновременного
двухстороннего обмена (full duplex). Эта задача может быть решена схемотехнически
мультиплексированием по времени (TDD - Time Division Duplex) или частоте (FDD -
Frequency Division Duplex). TDD довольно легко реализовать, этот метод не требует сложных
фильтров и эквилайзеров. Метод TDD привлекателен при малых длинах кабеля для
коммутируемых телефонных сетей.

Эхоподавление
Рис. 2.1.5. Схема эхо-компенсации

Более широко для реализации двухстороннего обмена по одной паре проводов используется
метод эхо-компенсации. Этот метод предполагает вычитание передаваемого сигнала из
принимаемого, определяя тем самым истинную форму входного сигнала. Если на
приведенном рисунке 2.1.5 Zвх равно волновому сопротивлению линии, то выходной сигнал
передатчика не будет влиять на работу приемника. Здесь предполагается, что выходное
сопротивление передатчика много меньше z= zлинии. Учитывая вариации ослабления сигнала,
схема эхо-компенсации должна уметь работать в очень широком динамическом диапазоне
амплитуд, сохраняя удовлетворительную линейность. Это обстоятельство, а также
зависимость zлинии от частоты, приводит к заметному усложнению схем эхо-компенсации
(Рис. 2.1.6). Системы эхо-компенсации весьма чувствительны к временному разбросу
срабатывания пороговых схем, так как это приводит к фазовому сдвигу вычитаемых друг из
друга сигналов.

Рис. 2.1.6. Схема эхо-компенсации с адаптивным фильтром

На рис. 2.1.7 показана зависимость скорости пропускания от сопротивления петли


передающей линии для разных схем кодирования сигнала (пунктирной линией отображен
вариант четырехуровневого кодирования). Те, кто работал с выделенными линиями, усвоили
эту зависимость на практике. Если сопротивление линии более 1,5 кОм вы скоро будете
знать дежурных вашей телефонной станции по имени, узнаете, что такое грозовые вставки и
что они имеют привычку окисляться.
Рис. 2.1.7. Зависимость максимальной скорости передачи данных от сопротивления петли
передающей линии

Различные методы модуляции приводят к разным уровням перекрестных наводок, и, как


следствие, могут обеспечить разные скорости пропускания сигналов. Так применение
линейной эквилизации при амплитудной модуляции дает улучшение пропускной
способности примерно в 5 раз. Из рисунка 2.1.8 видно, что переход от линейного
выравнивания к эквилизации с обратной связью позволяет добиться улучшения почти в 1,5
раза. Многоуровневый метод кодирования увеличивает скорость пропускания еще на 30%.
Следует, правда, иметь в виду, что многоуровневый метод кодирования характеризуется
большим уровнем импульсных помех и, следовательно, ошибок.

Рис. 2.1.8. Минимальное отношение сигнал-шум при скорости передачи ~150кбит/с

На рис. 2.1.8 показана зависимость отношения сигнал-шум от сопротивления петли для


разных схем передающего канала. Пунктиром проведены зависимости для случая
четырехуровневого кодирования. Кривые 1 соответствует случаю амплитудной модуляции с
линейным выравниванием, а кривые 2 - варианту эквилизации с обратной связью.

Современные сверхскоростные системы коммуникаций порождают новые проблемы и новые


решения. То, что сегодня кажется сверхскоростным (например, 6,4 Гбит/c), через несколько
лет окажется ординарным, достаточно вспомнить состояние магистральных каналов
Интернет десять лет назад, когда 2Мбит/с представлялось фантастической скоростью. (В
2006 году опорные каналы сети РАН в Москве уже имеют скорость 10Гбит/c).

Впрочем, не следует забывать, что мы практически вплотную подошли к теоретическому


верхнему пределу скорости передачи, задаваемому временем поляризации диэлектрика (10-13
сек - 10ТГц)..

Проблемы передачи данных через сети


Сегодня большинство маршрутизаторов не способно эффективно обрабатывать потоки,
создаваемые Ethernet 1Гбит/с. Может показаться странным, сетевые карты на эту скорость
существуют относительно давно, а только самые дорогие модели маршрутизаторов способны
нормально работать с такими потоками. Здесь предполагается, что маршрутизатор имеет 2
или более гигабитных и несколько 100Мбит/c-каналов. Для решения задачи маршрутизации
такой прибор должен для каждого пакета просмотреть таблицу маршрутизации, принять
решение, на какой из выходов переадресовать пакет, и реализовать это переключение и все
это за время менее 0,5нсек. За это время сигнал по обычной проводной линии успеет
распространиться лишь на 10 см!.

Любой транзистор или тем более полупроводниковый ключ имеет сравнимую с этим
временем задержку передачи сигнала. Как же тогда достигается такое быстродействие?

Проблема решается с помощью изощренной системе конвейеров (pipelining). Пакет проходит


через эту систему, из него выделяется адрес места назначения, этот адрес сравнивается сразу
с большим числом кодов из маршрутной таблицы. По результатам сравнения принимается
решение относительно следующего шага. Когда пакет достигает конечной точки своего пути
в маршрутизаторе, нужный ключ в требуемом направлении уже открыт. При этом конец
пакета может еще не прийти на вход маршрутизатора. Приведенное выше описание
алгоритма конвейерной обработки является достаточно упрощенным, так как реально там
оказывается задействовано много таких конвейеров, особенно если требуется
гарантированное качество обслуживания. На практике это достаточно дорогостоящее
устройство. По этой причине не удивляйтесь, что стоимость маршрутизатора, способного
работать с загрузками 1 Гбит/с (тем более 10 Гбит/с) по нескольким каналам, окажется
весьма высокой.

Во весь рост эта проблема встала уже перед разработчиками магистральных многоканальных
(до 1000 и более) переключателей сетей АТМ. Там, хотя тактовая скорость всего 150 Мбит/c,
система должна принимать решение за время меньше одной наносекунды, так как ячейки
могут приходить через все входы одновременно, поднимая загрузку центрального
коммутатора в 1000 и более раз. Можете себе представить масштаб проблемы для 1000-
канальных ATM-коммутаторов, работающих при рабочих частотах 622 Мбит/с?

Не менее простые задачи приходится решать, когда пакет из гигабитного канала


направляется в канал, рассчитанный на 100 Мбит/c. Если такой пакет один, то это не так
страшно, он сначала весь записывается в буфер, а затем ретранслируется через 100
мегабитный канал. Здесь имеет место полная аналогия с переходом 100 Мбит/с -> 10 Мбит/с.
Понятно, что в случае потока таких пакетов буфер, каким бы большим он ни был, рано или
поздно будет переполнен, а после переполнения буфера будет теряться 9 из 10 пакетов.
Проблема улаживается с помощью окна перегрузки в случае протокола TCP или с помощью
посылки отправителю соответствующих уведомлений ICMP в остальных вариантах
протоколов из стека TCP/IP. Последнее решение не представляется уж слишком изящным,
ведь ICMP-пакеты только увеличивают загрузку канала, но главное - они могут просто не
дойти до отправителя из-за того, что канал перегружен. Я уже не говорю, что в случае
видеоконференций, такой метод подавления потерь из-за перегрузки вообще не пригоден,
ведь для получения нормального изображения и звука нужна постоянная и вполне
определенная скорость передачи. Следует также учитывать задержку на пути отправитель-
получатель и обратно, и все это время высокий процент потерь будет сохраняться. Именно
это стало причиной введения кадров PAUSE в логику работы GE и 10GE локальных
сетей.

Весьма важной темой при построении сетей является оптимизация их топологии. Эта
проблема решается марштутизацией пакетов или потоков. В одних сетях выбор маршрута
обмена определяется на фазе формирования виртуального соединения (X.25, ISDN, ATM,
Frame Relay и т.д.), в других, например в Интернет (TCP/IP), маршрут выбирается
динамически и может быть изменен в ходе сессии, если текущий путь окажется недоступен
или, если откроется возможность движения по более короткому пути.
   UP: 2 Преобразование, кодировка и передача информации

2.1.1 Влияние шумов и помех


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Прекрасна благодушная язвительность,

с которой в завихрениях истории


  хохочет бесноватая действительность
над мудрым разумением теории.

Игорь Губерман

Шумы определяют емкость канала и задают частоту ошибок при передаче цифровых
данных. Шум по своей природе нестабилен и можно говорить лишь о том, что его величина с
некоторой вероятностью лежит в определенном интервале значений. Плотность вероятности
p(x) определяет вероятность того, что случайный сигнал X имеет значение амплитуды в
интервале между x и x+x. При этом вероятность того, что значение х лежит в интервале
между x1 и x2 определяется равенством:

, условием нормировки при этом является равенство

. P(x) – вероятность, а p(x) – плотность вероятности. Вероятность того, что x

меньше некоторой величины y равна , откуда следует, что P{x1 <="" x2} = P(x2) – P{x1}, а

Так называемый белый шум подчиняется непрерывному нормальному (Гауссову) распределению , где а – среднее
значение x, а σ – среднеквадратичное отклонение х от a. В случае шумов среднее значение х с учетом полярности часто принимает нулевое значение (а=0).

В этом случае, если мы хотим знать вероятность того, что амплитуда шумового сигнала лежит в пределах  v, то можно воспользоваться выражением
Для вычисления P{x1<x<-x1} обычно используются равенства

и . Тогда P{x1<x<-x1} = = .</x<-x

Распределение P(x) обычно называется функцией ошибок (erf(x) = -erf(-x)). Полезной с практической точки зрения является вероятность

P{-k σs}=Pk(kσ) = , которая позволяет оценить возможность того, что шумовой сигнал превысит некоторый порог, заданный значением k.

Из числа дискретных распределений наиболее часто используемым является распределение Пуассона.

, где n = 0, 1, 2, …; mP, m – число испытаний. Распределение Пуассона описывает вероятность


процессов, где P<<1. При большом значении m отношение n/m приближается к значению вероятности P.

Среднее значение x , а для дискретного распределения . Среднеквадратичное отклонение 

случайной величины х определяется как: , то же для дискретного распределения

Как уже говорилось, во многих случаях шум имеет гауссово распределение с нулевым средним значением амплитуды. В этих случаях среднее значение
мощности шумового сигнала равно вариации функции плотности вероятности. В этом случае отношение сигнал-шум будет равно:

2
. Если шум носит чисто тепловой характер, то σ =kTB, где k - постоянная Больцмана, Т - абсолютная
2
температура, а B - полоса сигнала на входе приемника. В общем случае σ = EnB [Вт], где полоса B измеряется в Гц, En - энергия шума.

Если сигнал стационарный, можно принудительно понижать B, путем усреднения или фильтрации. Самый доступный метод уменьшения уровня шумов -
снижение температуры T. В каждом конкретном случае нужно учитывать, что помимо тепловых существуют и другие виды шумов (фликкер, межгалактический
и пр.). Но тепловой шум обычно превалирует.

Шум определяет вероятность ошибки при передаче сообщения по каналу связи и, в конечном итоге, пропускную способность канала (см. теорему Шеннона;
раздел 2.1 Передача сигналов по линиям связи ).

2.2 Представление электрических сигналов


в цифровой форме
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)
Цифровые методы передачи данных
Асинхронный режим
Различные методы кодирования
Манчестерский код
Схемы AMI и ADI
Системы 2B1Q, B3ZS, HDB2 и др.
Коммутация сигналов в телефонии

Цифровые методы передачи данных


Прогресс последних лет в области повышения пропускной способности каналов в заметной
мере связан с развитием технологии передачи цифровых данных. Здесь нужно решить
проблемы синхронизации, эффективного кодирования и надежной передачи. Чем шире
импульс, тем большую энергию он несет, тем лучше отношение сигнал/шум, но тем ниже и
предельная скорость передачи. Раньше каждому двоичному разряду соответствовал импульс
или перепад в кодовой последовательности. Сегодня перепад возникает лишь при смене
последовательности нулей на последовательность единиц или наоборот. Цифровой метод
имеет целый ряд преимуществ перед аналоговым:

 Высокую надежность. Если шум ниже входного порога, его влияние не ощущается,
возможна повторная посылка кода.
 Отсутствие зависимости от источника информации (звук, изображение или
цифровые данные).
 Возможность шифрования, что повышает безопасность передачи.
 Независимость от времени. Можно передавать не тогда, когда информация
возникла, а когда готов канал.

На рисунке 2.2.1В представлена уже не последовательность импульсов, а


последовательность переходов из одного состояния в другое. При этом уровень +V
соответствует логической <1>, а -V - логическому <0>. Переключение из состояния <0> в
состояние <1> и наоборот (бод) уже не соответствует передаче одного бита.

Рис. 2.2.1 Передача цифровых кодов по передающей линии

На практике число нулей или единиц следующих подряд не лимитировано. По этой причине
на принимающей стороне при этом рано или поздно возникает проблема синхронизации
временных шкал передатчика и приемника. Для решения этой проблемы существует два
метода передачи данных: синхронный и асинхронный. Асинхронный метод используется
для относительно низкоскоростных каналов передачи и автономного оборудования.
Синхронный метод применяется в скоростных каналах и базируется на пересылке
синхронизующего тактового сигнала по отдельному каналу или путем совмещения его с
передаваемыми данными. При наличии синхронизации приемника и передатчика можно
допустить более длинные последовательности нулей или единиц, что способствует
повышению пропускной способности. На рис. 2.2.2 показана схема канала, использующая
технику импульсно-кодовой модуляции. Импульсно-кодовая модуляция (ИКМ) была
предложена в 30-ые годы 20-го века, но реализована лишь в 1962 году.

Рис. 2.2.2. Система коммуникаций с использованием кодово-импульсной модуляции (pcm)

Шаг квантования в АЦП должен быть много меньше диапазона вариации входного сигнала.
Число уровней квантования n выбирается из соображений минимизации искажений сигнала
и повышения уровня s/n. При разумных предположениях (биполярность сигнала (+V -V),
однородность распределения уровня сигнала в рабочем диапазоне, ошибка квантования не
более S/2, где S шаг квантования, и т.д.) [S/N]db = 10 log10(22n) = 6n (N - шум квантования при
этом равен S2/12). Это означает, что при 2n уровнях квантования и при условии, что входной
сигнал может варьироваться во всем рабочем диапазоне АЦП, отношение сигнал-шум (S/N),
связанное с самим процессом квантования, будет равно 6n при n=8 это составит 48 дБ).
Отсюда следует известное значение относительного расстояния между уровнями
квантования, равное 6 дБ. Звуковой сигнал может иметь динамический диапазон 40 дБ, что
создает определенные проблемы, которые преодолеваются путем прямого и обратного
логарифмического преобразования (см. рис. 2.4.1).

Асинхронный режим
Типичный кадр данных в асинхронном канале начинается со стартового бита, за которым
следует 8 битов данных. Завершается такой кадр одним или двумя стоп-битами. Стартовый
бит имеет полярность противоположную пассивному состоянию линии и переводит
приемник в активное состояние. Пример передачи такого кадра показан на рис. 2.2.3.

Рис. 2.2.3. Пример передачи кадра в асинхронном режиме

Одним из способов обеспечения надежной синхронизации является применение в приемнике


частоты, например, в 8 раз больше частоты следования данных. При этом стробирование
данных может производиться примерно в середине сигнала бита (см. рис. 2.2.4).
Рис. 2.2.4. Схема синхронизации и стробирования с 8-кратной тактовой частотой приемника

Начальный и стоп-биты на каждый байт данных снижают пропускную способность канала и


по этой причине используются только для низких скоростей обмена. Увеличение же длины
блока данных приводит к ужесточению требований к точности синхронизации. При
использовании синхронного метода передачи необходимы специальные меры для выделения
кадра в общем потоке данных. Для решения этой задачи используется специальная
сигнатура. Если такая последовательность встретится внутри кадра, она видоизменяется
путем ввода в нее двоичных нулей (bit stuffing). Синхронный приемник нуждается в
синхронизирующем сигнале, передаваемом передатчиком. Обычно это реализуется путем
введения определенного вида кодирования сигнала, например, биполярного кодирования. В
этом случае используется три уровня сигнала: +v соответствует логической 1; -v -
логическому нулю, а 0 вольт логическому нулю или единице. Пример такого типа
кодирования показан на рис. 2.2.5.

Различные методы кодирования

Рис. 2.2.5. Пример биполярного кодирования сигнала (схема RZ - return-to-zero)

Другой разновидностью такого рода кодирования является использование манчестерского


кода. В этой схеме логической единице и нулю соответствует не уровни напряжения, а
перепады. Так логической единице поставлен в соответствие переход с низкого уровня на
высокий, а логическому нулю - с высокого на низкий (схема NRZ - non-return-to-zero).
Пример представления сигнала с использованием манчестерского кода показан на рис. 2.2.6.

Манчестерский код
Рис. 2.2.6. Кодирование сигнала с использованием манчестерского кода.

Манчестерский код достаточно неэффективно использует пропускную способность канала.


Оба описанные выше кода требуют удвоения полосы для передачи данных. Этого можно
избежать, используя схему цифровой фазировки DPLL - Digital Phase Locked Loop). Эта
схема предполагает применение кодирования NRZI (non-return-zero-inverted). Здесь сигнал
сначала кодируется с использованием кода NRZ и только затем последовательность
преобразуется в NRZI. В процессе такого преобразования логический нуль из NRZ вызывает
определенную модификацию исходного кода, в то время как логическая единица не
приводит ни к каким вариациям. Здесь создаются условия, при которых количество
переходов 0/1 и 1/0 в единицу времени достаточно велико, чтобы обеспечить надежную
синхронизацию. Схема NRZI кодирования с использованием DPLL проиллюстрирована на
рис. 2.2.7.

Рис. 2.2.7. NRZI-кодирование

Симметричная скрученная пара проводов с волновым сопротивлением 120 Ом обеспечивает


пропускную способность 2048 Мбит/с (система кодирования HDB3, длина проводов ~100м),
а 100 Ом - 1544 Мбит/с (амплитуда сигналов 3 в, система кодирования B8ZS). Номинальное
значение перепада обычно составляет 750 мВ.

Схемы AMI и ADI


Наиболее простая схема передача данных путем представления <0> и <1> с помощью двух
уровней напряжения не применяется из-за того, что линия обычно используется для подачи
на оконечное (терминальное) оборудование. Проблема может быть решена, если <0>
характеризуется 0 вольт (приращение над постоянным уровнем), а <1> попеременно
сигналами положительной и отрицательной полярности (AMI - Alternate Mark Inversion).
Такая схема создает проблему синхронизации, когда подряд следует большое число нулей.
Необходимо, чтобы было достаточное число переходов 0->1 и 1->0 в единицу времени.
Существует также схема ADI (Alternate Digit Inversion), где инверсия полярности
производится для каждого из передаваемых двоичных разрядов. Но эта схема менее
эффективна.

По этой причине система кодирования AMI была модифицирована в HDB3 (High Density
Bipolar 3). Цифра 3 указывает на максимально возможное число последовательных нулей в
кодовой последовательности. AMI требует, чтобы <1> передавались попеременно сигналами
противоположной полярности, так последовательность 11011 должна быть передана как +-
0+-. HDB3 заменяет любую группу из 4 нулей последовательностью из 3 нулей, за которой
следует нарушение последовательности отображения единиц. Таким образом,
последовательность 11000001 будет отображена как +-000-0+ (возможен инверсный вариант,
когда символы + заменяются на - и наоборот). Дальнейшего улучшения балансировки
сигнала можно достичь, если заменить код, содержащий 4 нуля подряд,
последовательностью b00v (b - обычный биполярный сигнал, v - нарушение
последовательности). В США используют схему кодировки B8ZS (Bipolar with 8 Zeros
Substitution), где 8 нулей кодируются как 00b0vb0v. В 1986 году ansi принял решение о
введение схемы кодирования 2B1Q (2 Binary into 1 Quaternary). При этой схеме каждая пара
бит преобразуется в четверичные элементы +3 +1 -1 -3. Код синхронизации (SW -
Synchronization Word) при этом содержит 9 четверичных элементов, повторяющихся каждые
1.5 мс:

+3 +3 -3 -3 -3 +3 -3 +3 +3 (+3 соответствует +2.5 В)

В Германии используется схема кодировки 4B3T (4 двоичных разряда кодируются в 3


циклических кода).

Системы 2B1Q, B3ZS, HDB2 и др.


Двоичная информация передается блоками, обычно зазываемыми кадрами (или пакетами). В
рамках системы 2B1Q для передачи 144 кбит/с требуется частота модуляции не менее 72
кбод. На практике для передачи кадров и выполнения функций управления необходимо
создать дополнительные виртуальные каналы. Это доводит требуемую частоту модуляции до
80 кбод. Сводные данные по наиболее популярным схемам кодирования приведены в табл.
2.2.1.

Таблица 2.2.1.

Название
Расшифровка Описание
метода
Один бит исходной последовательности кодируется
1B2B  
комбинацией из 2 бит половинной длительности
B3ZS bipolar with
Биполярный код с заменой 000/000000/00000000 на
B6ZS 3/6/8 zero
последовательности 00v/0vb0vb/000vb0vb (или b0v для B3ZS)
B8ZS substitution
HDB2 (/3) High density Биполярный код высокой плотности второго (третьего) порядка.
bipolar code of Эквивалентен коду с возвратом к нулю (RZ) и с инверсией для
order 2 (/3) логических 1. Последовательность 000 (соответственно 0000)
заменяется на 00v или b0v (соответственно 000v или b00v).
Число b сигналов между v-сигналами всегда нечетно. В
результате возникает трехуровневый код.
Двухуровневый двоичный код (класса 1B2B) без возвращения к
нулю. Используется инверсия полярности для каждой
coded mark
CMI логической 1 (единице ставится в соответствие 11 или 00), а для
inversion
каждого логического нуля вводится смена полярности в
середине интервала.

Кадр содержит 120 пар бит (quats), что соответствует 240 бит, 8 кадров образуют
мультифрэйм. Первый кадр мультифрэйма выделяется путем посылки Inverted
Synchronization Word (ISW). В конце каждого кадра всегда присутствуют специальные биты,
которые служат для целей управления (бит активации, бит холодного старта, биты состояния
питания, биты управления синхронизацией и т.д.). Структура кадра выглядит следующим
образом:

Биты quats Канал Биты quats Канал


ISW (кадр 1) 127-134 64-67 b
1-18 1-9
SW (кадры 2-8) 135-142 68-71 b
19-26 10-13 B-канал 1 143-144 72 d
27-34 14-17 B-канал 2 145-152 73-76 b
34-36 18 D-канал 153-160 77-80 b
37-44 19-22 b 161-162 81 d
45-52 23-26 b 163-170 82-85 b
53-54 27 d 171-178 86-89 b
55-62 28-31 b 179-180 90 d
63-70 32-35 b 181-188 91-94 b
71-72 36 d 189-196 95-98 b
73-80 37-40 b 197-198 99 d
81-88 41-44 b 199-206 100-103 b
89-90 45 d 204-214 104-107 b
91-98 46-49 b 215-216 108 d
99-106 50-53 b 217-224 109-112 b
107-108 54 d 225-232 113-116 b
109-116 55-58 b 233-234 117 d
117-124 59-62 b Контроль и
235-240 118-120
125-126 63 d управление
Кадры следуют каждые 1.5мс. Здесь нужно следить за тем, чтобы не было корреляции между
сигналами, следующими в противоположных направлениях. Для этого используются
скрэмблеры.

Коммутация сигналов в телефонии


В традиционной телефонной сети для соединения с требуемым клиентом используются
аппаратные коммутаторы. Если коммутатор имеет n входов и n выходов, то одновременно
можно реализовать не более n связей. Реально это число всегда меньше и клиент слышит в
трубке “короткие гудки” сигнала “занято”. В случае комбинирования традиционного
коммутатора с m-канальными мультиплексорами пакетов по времени можно осуществить до
m*n связей одновременно. При этом становится возможным объединить нескольких
клиентов так, что они все одновременно могут говорить друг с другом. Схема такого
переключателя каналов показана на рис. 2.2.8.

Рис. 2.2.8. Схема переключателя каналов с мультиплексированием по времени.

Кружочки на пересечениях линий представляют собой ключи, замыкая которые можно


соединить i-й входной канал с j-м выходным. На каждой линии может быть только один
замкнутый ключ. Такая схема коммутации называется TST (Time-Space-Time). Именно она
преобладает сегодня при построении сетей ISDN. Магистральные каналы ISDN строятся в
соответствии со стандартом T1.

Такая схема при числе входных и выходных каналов равном N=1000 требует миллиона
элементарных переключателей. Можно рассмотреть вариант, когда используются
коммутаторы с n входами и k выходами. Схема коммутатора с N=16, n=4 и k=2 показана на
рис. 2.2.9. Число элементарных переключателей в таком коммутаторе М равно:

M = 2kN + k(N/n)2

Первое слагаемое характеризует число элементарных переключателей во входной и


выходной секциях системы, а второе - число элементарных переключателей в k внутренних
модулях При N=1000, n=50 и k=10 требуется 24000 элементарных переключателей вместо
миллиона (но и число одновременно формируемых каналов становится много меньше 1000).
Рис. 2.2.9. Каскадный переключатель-мультиплексор.

Совершенно другим типом коммутатора является переключатель с разделением по времени.


Будем считать, что такой коммутатор имеет n входных и столько же выходных каналов. В
данном методе входные каналы последовательно сканируются и формируется входной кадр
из n доменов. Каждому домену соответствует k бит. Для переключателей на потоки Т1 k = 8,
а скорость обработки составляет 8000 кадров в секунду. Центральным узлом такого
устройства является коммутатор с разделением по времени, который воспринимает входные
кадры и генерирует выходные кадры с измененным порядком временных доменов. Этот
коммутатор имеет встроенный буфер для n k-битных слов. На рис. 2.2.10 показана структура
такого коммутатора. Во входном кадре временные домены пронумерованы от 0 до 5 (n = 5).
Последовательность бит с i-го входного канала с помощью мультиплексора TDM (изображен
в левой части рисунка) помещается в i-й временной домен входного кадра. Входной кадр
заносится в буфер коммутатора. В коммутаторе формируется таблица перекодировки
(lookup-таблица), которая определяет, какому временному домену в выходном потоке будет
соответствовать тот или иной домен во входном кадре. В сущности, эта таблица решает, на
какой выходной канал попадут данные, пришедшие по заданному входному каналу. Если вы
думаете, что ранее не сталкивались с такого рода таблицами, то это заблуждение.

Первая lookup-таблица, с которой вы познакомились в вашей жизни, была таблицей


умножения. Ведь она является таблицей соответствия, и вы реально не производите никаких
арифметических действий, пользуясь ей. Когда нужно определить, чему равно 5×5, мы не
производим умножение, а извлекаем результат непосредственно из памяти.

Рис. 2.2.10. Коммутатор с разделением по времени.


С помощью таблицы перекодировки формируется выходной кадр.На рис. 2.22 коммутатор
связывает нулевой входной канал с 4-м выходным каналом, первый входной канал с 5-м
выходным и т.д. Выходной демультиплексор (изображен справа) преобразует номер
временного домена выходного кадра в номер выходного канала. Так, временной домен с
номером 4 попадет в 4-й выходной канал. В сущности, здесь с помощью пакетной
методики осуществляется коммутация каналов.

В процессе работы коммутатор должен запоминать n кодов, соответствующих временным


доменам, а затем считывать их снова в пределах одного периода, равного по длительности
125 мкс. Если каждая ячейка памяти имеет время доступа t мкс, то для всей этой процедуры
потребуется 2nt мкс (2nt = 125, что означает n = 125/2t). По этой причине с 100-
наносекундной памятью можно реализовать коммутатор на 625 каналов. На основе данной
схемы можно реализовать многокаскадный коммутатор на много большее число каналов.

При цифровой передаче данных желательно максимально эффективно использовать


имеющуюся полосу пропускания. Одним из способов повышения эффективности является
сжатие данных (архивация) на входе канала и обратное преобразование со стороны
приемника.

2.3 Цифровые каналы T1 и Е1


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Системы (каналы) T1 имеют пропускную способность, соответствующую 24 аналоговым


каналам с полосой 0-3.3 кГц (американская версия стандарта). Частота стробирования равна
8 кГц, что соответствует передаче 8000 кадров в сек. После каждых 6000 футов
коаксиального кабеля ставятся системы регенерации сигналов. Все 24 канала
мультиплексируются на общий коаксиальный кабель, предварительно производится PCM-
преобразование сигналов. 24 канала по 8 бит (при 8-битном АЦП) дает 192 бита на кадр.
Один дополнительный (193-ий) бит используется для целей синхронизации (F). Таким
образом частота бит в канале Т1 составляет 193*8000=1,554 Мбит/с (это стандарт США, его
европейский аналог - Е1 имеет 30 каналов и пропускную способность 2048 кбит/c). Это
соответствует частоте кадров 667/с. Каждый восьмой бит (младший) байта (временного
домена на рис. 2.3.1) используется для целей управления, что несколько снижает
пропускную способность. В ISDN каналы 1,544 и 2,048 Мбит/с, форматы которых здесь
описаны, называются первичными.

8-битовые PCM-блоки генерируются каждые 125мксек (8000/с). Структура данных при


передаче со скоростью 1,544 Мбит/с представлена ниже (ISDN 2*B+D):

Рис. 2.3.1. Структура кадров для американского (вверху) и европейского (внизу) стандартов
передачи данных
Скорости передачи 1,544 (кодирование B8ZS) и 2,048 Мбит/с (HDB3) называются
первичными скоростями. Кадры структурированы так, что временные домены (таймдомен на
рис. 2.3.1) для передачи данных по каналам B1 и B2 чередуются. В Европе используется
2048Мбит/с интерфейс. Каждый 6-ой кадр используется для сигнальных целей. Количество
временных доменов в кадре определяет число телефонных разговоров, которые могут
осуществляться одновременно. Для американского стандарта это число равно 24, а для
европейского 30 (в последнем случае учтено то, что часть доменов используется в
служебных целях).

Все современные коммутаторы управляются центральным процессором. Такие коммутаторы


обычно называются коммутаторами, управляемыми встроенной памятью (SPC - Stored
Program Controlled exchanges).

2.4 Методы преобразования и передачи


звуковых сигналов
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
2.4.1 Дельта-модуляция 2 10
2.4.2 Кодировщики голоса (Vocoder) 2 2
2.4.3 Передача голоса по каналам Интернет 6 12
Итого    

А- и мю-преобразования
Адаптивные преобразователи голоса в код
Стандарт MUSICAM
Телефонные сети

На физическом уровне в ISDN используется кодово-импульсная модуляция с частотой


стробирования 8кГц (что превосходит ограничение Найквиста = 2×3.3кГц, где 3.3кГц -
полоса пропускания канала для традиционной телефонной сети). Эмпирически установлено,
что для удовлетворительного воспроизведения речи, достаточно 4096 уровней квантования
сигнала (12 разрядов АЦП). Такое разрешение диктуется большим динамическим
диапазоном сигналов. По этой причине возникает возможность преобразования 12-битных
кодов в 8-битные, что формирует информационный поток в 64 Кбит/c. Для этого
используется логарифмическое преобразование. Природа позаботилась о человеке, снабдив
его логарифмической чувствительностью слуха, в противном случае у нас в мозгу
перегорали бы предохранители при близком выстреле или грозовом разряде. Следует
учесть, что цифровое преобразование звукового сигнала существенно понижает его
энтропию. Логарифмическое преобразование наталкивается на определенные трудности при
низких значениях входного сигнала, ведь логарифм для значений меньше 1 имеет
отрицательную величину. Функция же преобразования должна пройти через нуль. В США
две логарифмические кривые смещаются в направлении оси ординат (вертикальная ось), в
результате получается функция вида:

А- и мю-преобразования
y ~ log(1 +x) (так называемая -зависимость [-law])
В Европе используется функция преобразования вида:
y ~ ax в области значений x вблизи нуля и
y ~ 1 + log(Ax) при “больших” значениях x (A-зависимость [a-law], см. рис. 2.4.1)

Для дальнейшего упрощения процесса преобразования реальные кривые апроксимируются


последовательностью отрезков прямых, наклоны которых каждый раз меняется вдвое. На
практике функция табулируется (рекомендация G.711) и отличия - и A-функций
пренебрежимо малы. Но следует учитывать, что при реализации практической связи между
Европой и Америкой, например телефонной, необходим /A-конвертор.

Для кодирования используется симметричный код, у которого первый бит характеризует


полярность сигнала.

Рис. 2.4.1. Иллюстрация функций преобразования сигналов

Адаптивные преобразователи голоса в код


Дальнейшим усовершенствованием схемы PCM является адаптивный дифференциальный
метод кодово-импульсной модуляции (Рис. 2.4.2). Здесь преобразуется в код не уровень
сигнала в момент времени ti, а разница уровней в моменты ti и ti-1. Так как обычно сигнал
меняется плавно, что типично для человеческой речи, можно заметно сократить
необходимое число разрядов АЦП. Принципиальное отличие между PCM и ADPCM (1984
год) заключается в использовании адаптивного АЦП и дифференциального кодирования,
соответственно. Адаптивный АЦП отличается от стандартного PCM-преобразователя тем,
что в любой момент времени уровни квантования расположены однородно (а не
логарифмически), причем шаг квантования меняется в зависимости от уровня сигнала.
Применение адаптивного метода базируется на том, что в человеческой речи
последовательные уровни сигнала не являются независимыми. Поэтому, преобразуя и
передавая лишь разницу между предсказанием и реальным значением, можно заметно
снизить загрузку линии, а также требования к широкополосности канала. Следует иметь в
виду, что метод не лишен серьезных недостатков: уровень шумов, связанный с квантованием
сигнала, выше; при резких изменениях уровня сигнала, превышающих диапазон АЦП,
возможны серьезные искажения.

Рис. 2.4.2. Адаптивный преобразователь голоса в код

Расширение диапазона преобразования достигается умножением шага квантования на


величину несколько больше (или меньше) единицы.

При дифференциальном преобразовании на вход кодировщика подается не сам сигнал, а


разница между текущим значением сигнала и предыдущим (рис. 2.4.3).

Рис. 2.4.3. ADPCM-преобразователь голоса в код для 32кбит/с

Блок прогнозирования является адаптивным фильтром, который использует


предшествующий код для оценки последующего стробирования. На вход кодировщика
поступает сигнал, пропорциональный разнице между входным сигналом и предсказанием.
Чем точнее предсказание, тем меньше бит нужно, чтобы с нужной точностью закодировать
эту разницу. Характер человеческой речи позволяет заметно снизить требования к каналу
при использовании адаптивного дифференциального преобразователя.

Для компактных музыкальных дисков (CD) характерна полоса 50Гц - 20 кГц, обычная же
речь соответствует полосе 50 Гц - 7 кГц. Только звуки типа Ф или С имеют заметные
составляющие в высокочастотной части звукового спектра. Для высококачественной
передачи речи используется субдиапазонный ADPCM-преобразователь (Adaptive Differential
Pulse Code Modulation). В нем звук сначала стробируется с частотой 16 кГц, производится
преобразование в цифровой код с разрешением не менее 14 бит, а затем подается на
квадратурный зеркальный фильтр (qmf), который разделяет сигнал на два субдиапазона
(50Гц-4кГц и 4кГц-7кГц). Диапазоны этих фильтров перекрываются в области 4кГц.
Нижнему диапазону ставится в соответствие 6 бит (48кбит/с), а верхнему 2 бита (16 Кбит/с).
Выходы этих фильтров мультиплексируются, формируя 64 кбит/с -поток.

Стандарт MUSICAM
На CD используется 16-битное кодирование с частотой стробирования 44,1 кГц, что создает
информационный поток 705 Кбит/c. Для стерео сигнала этот поток может удвоиться.
Практически это не так - сигналы в стереоканалах сильно коррелированы, и можно
кодировать и передавать лишь их разницу, на практике высокочастотные сигналы каналов
суммируются, для различия каналов передается код их относительной интенсивности.
Исследования показывают, что для акустического восприятия тонкие спектральные детали
важны лишь в окрестности 2 кГц. Для передачи звуковой информации с учетом этих
факторов был разработан стандарт MUSICAM (Masking pattern Universal Sub-band Integrated
Coding and Multiplexing), который согласуется с ISO MPEG (Moving Picture Expert Group;
стандарт ISO 11172). При кодировании музыкальных произведений не всякие комбинации
звуков возможны (они воспринимались бы как неблагозвучные). Это является базой для
дополнительного сжатия музыкальных данных. C точки зрения энтропии одной ноте
соответствует <3 бита. Анологичное утверждение справедливо и для передачи человеческого
голоса, только здесь вместо нот следует рассматривать фонемы. При разговоре за счет
вариации скорости произношения информационный поток может варьироваться до 5 раз.
MUSICAM развивает идеологию деления звукового диапазона на субдиапазоны, здесь 20кГц
делится на 32 равных интервалов. Логарифмическая чувствительность человеческого уха и
эффект маскирования позволяет уменьшить число разрядов кодирования. Эффект
маскирования связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо
нечувствительно к малым амплитудам близких частот. Причем чем ближе частота к частоте
маскирующего сигнала, тем сильнее этот эффект (см. рис. 2.4.4). Сплошной линией на
рисунке показана нормальная зависимость порога чувствительности уха, а пунктиром -
зависимость порога чувствительности в присутствии 500-герцного тона с амплитудой в 110
дБ.

Рис. 2.4.4. Изменение порога чувствительности человеческого уха под влиянием эффекта
маскирования.

При разбиении на субдиапазоны можно оценить эффект маскирования и передавать только


ту часть информации, которая этому эффекту не подвержена. При этом уровень ошибок
квантования следует держать лишь ниже порога маскирования, что также снижает
информационный поток. Для стробирования высококачественных звуковых сигналов
используются частоты 32, 44,1 или 48 кГц. Стандартом предусмотрено три уровня
кодирования звука, отличающиеся по сложности и качеству. На первом уровне производится
разбивка на 32 диапазона, определение диапазонных коэффициентов и формирование
кадров, несущих по 384 результатов стробирования. Уровень 2 формирует кадры с 1152
результатами стробирования и дополнительными данными. Уровень 3 допускает
динамическое разбиение на субдиапазоны и уплотнение данных с использованием кодов
Хафмана. Любой декодер способен работать на своем и более низком уровне.

Для улучшения качества передачи низких частот в дополнение к суб-диапазонным фильтрам,


используется быстрое Фурье-преобразование (FFT). Результирующая частота бит при
передаче звуковых данных оказывается не постоянной. Практическое измерение показывает,
что частота редко превышает 110кбит/с, применение 128кбит/с делает качество
воспроизведения неотличимым от CD. Ограничение скорости на уровне 64 Кбит/с вносит
лишь незначительные искажения.

Телефонные сети
Люди, работающие на ЭВМ дома, часто подсоединяются к Интернету посредством модема
через коммутируемую телефонную сеть с привлечением протоколов SLIP или PPP. Схема
подключения показана на рис. 2.17.

Рис. 2.4.5. Подключение ЭВМ через модем и цифровую телефонную станцию.

Рис. 2.4.6. Подключение к Интернету через модемный пул.

Если телефонная станция — аналоговая, то кодеки не нужны. Число промежуточных


телефонных станций может варьироваться в широких пределах. Сервис-провайдеры обычно
имеют у себя модемные пулы, которые позволяют подключиться большому числу клиентов
одновременно (рис. 2.4.6).

В традиционной телефонной сети для соединения с требуемым клиентом используются


аппаратные коммутаторы. Если коммутатор имеет N входов и N выходов, то число
коммутирующих ключей будет равно N2 и одновременно можно реализовать не более N
связей. Реально это число всегда меньше, и клиент слышит в трубке «короткие гудки»
сигнала «занято». На рис. 2.4.7 показана обобщенная схема большой телефонной сети.
Рис. 2.4.7. Схема телефонной сети.

Телефонные компании знают, что некоторые каналы-направления оказываются загружены


особенно сильно, например, Москва–СанктПетербург. В таких случаях иерархия станций
может быть нарушена. На самом верхнем уровне станции образуют полносвязный граф,
чтобы исключить неоправданные транзитные связи. Неоднозначность пути устраняется
процессорами станций, при этом всегда выбирается кратчайший путь.

Ниже в таблицах представлены данные по скоростям передачи аудиоданных по


традиционным цифровым и отповолоконным каналам (см. также раздел 3.5.6).

Таблица 2.4.1 Скорости передачи данных по цифровым каналам

Быстродействие Число аудио


Линия
Мбит/с каналов
DS-0 0,064 1
T-1 1,544 24
T-1C 3,152 48
T-2 6,312 96
T-3 44,736 672

Таблица 2.4.2. Скорости передачи данных по оптическим каналам

Быстродействие
Линия OC-x Число аудио каналов STM-x
Мбит/с
1 51,84 672 -
3 155,52 2016 1
9 466,56 6048 3
12 622.08 8064 4
24 1244,16 16128 8
48 2488,32 32256 6
6 976,64 4512 2
92 953,28 29024 4

Еще одним методом, нацеленным на повышение эффективности преобразования входного


аналогового сигнала в код, является дельта-модуляция.

2.4.1 Дельта-модуляция
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Дельта-модуляция представляет собой вариант дифференциальной импульсно-кодовой


модуляции, где для кодирования разностного сигнала используется только один бит. Этот
бит служит для того, чтобы увеличить или уменьшить оценочный уровень. Примером
реализации дельта-модуляции может служить схема, показанная на рис. 2.4.1.1. Сигнал ЦАП
отслеживает входной сигнал in(t). Здесь компаратор заменил дифференциальный усилитель,
который используется в дифференциальном импульсно-кодовом модуляторе.

Рис. 2.4.1.1 Схема устройства линейной дельта-модуляции

Если скорость нарастания входного сигнала велика, то уровень на выходе ЦАП будет
отставать и сможет нагнать In(t) только, когда входной сигнал начнет уменьшаться. Данный
метод не является разумной альтернативой PCM. Для улучшения характеристик дельта-
преобразователя реверсивный счетчик можно заменить цифровым процессором, при этом
шаг S становится переменным, но кратным некоторому базовому значению.
Существуют много других способов кодирования человеческого голоса, среди них наиболее
эффективный реализован в приборах, носящих название - вокодер (VOCODER).

2.4.2 Кодировщики голоса (Vocoder)


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Эта технология находит применение в военных системах связи, в диспетчерских службах, а


также в системах пейджерной связи. Разработчики преобразователей голоса учли
особенности работы горла, голосовых связок и всего речевого аппарата. Звонкие и глухие
звуки воспроизводятся здесь различными способами (с помощью импульсного генератора и
генератора шума, соответственно). Блок-схема преобразователя звука типа вокодер показана
на рис. 2.4.2.1. Исходный спектр человеческого голоса здесь делится на ряд субдиапазонов
(на рис. 2.4.2.1 их число равно16) по 200 Гц каждый. Эти субдиапазоны выделяются
узкополосными фильтрами, за которыми следуют выпрямители и фильтры низких частот (20
Гц). Выходные сигналы этих фильтров мультиплексируются и преобразуются в цифровую
форму. Частота стробирования этих сигналов составляет примерно 50 Гц. Разрядность АЦП
в этом случае может составлять 3 бита. На принимающей стороне осуществляется цифро-
аналоговое преобразование (ЦАП) и мультиплексирование. Сбалансированные амплитудные
модуляторы, управляемые ЦАП и переключателем, выдают сигналы на узкополосные
фильтры. Все эти сигналы смешиваются в сумматоре, а результат воспроизводится.

Не трудно видеть, что в случае схемы, показанной на рис. 2.4.2.1, необходимое


быстродействие передающей линии составляет 3 бита * 50 Гц * 16 каналов = 2,4 Кбит/с.
Дальнейший выигрыш может быть получен за счет цифрового сжатия. Число каналов
(фильтров) и ширина пропускаемой полосы частот может варьироваться, соответственно
будет меняться и качество воспроизведения звука. Минимально возможная полоса
пропускания передающей линии, при которой значение передаваемого текста еще
воспринимается правильно, лежит ниже 1 Кбит/с.

Предшествующая фраза, включая пробелы и знаки препинания, содержит около 150


символов. Для ее произношения требуется около 10 сек (15 символов в сек). Но даже
вокодеру потребуется для этого предложения передать не менее 10000 бит. Откуда такое
отличие? Во-первых, человеческая речь индивидуальна и эта фраза, произнесенная разными
людьми, будет звучать по-разному, кроме того, существует эмоциональная окраска, которой
практически лишена буквенная запись. Во-вторых, даже самая совершенная современная
система сжатия звуковой информации не идеальна и остается широкое поле для дальнейшего
совершенствования. Пути могут быть разными в зависимости от поставленной задачи. Если
требуется передать только информацию, следует преобразовать звук в символьную
(буквенную) форму, передать эти данные в цифровом виде, а на принимающей стороне
осуществить обратное преобразование. Само буквенное представление может быть также
подвергнуто некоторому сжатию, но это неизбежно увеличит задержку воспроизведения. В
сущности, данная схема является развитием идей, заложенных в вокодере.

В случае необходимости передачи индивидуальных особенностей голоса, сначала должен


проводиться анализ этих персональных отличий. Особенности голоса в закодированном виде
передаются принимающей стороне, где эти данные используются в дальнейшем при
воспроизведении закодированного текста. Эти схемы потребуют довольно мощных
сигнальных процессоров и, вероятно, найдут применение лишь в следующем веке.
Рис. 2.4.2.1. Блок-схема кодирования/декодирования человеческого голоса (Vocoder)

2.4.3 Передача голоса по каналам Интернет


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Несколько лет назад появился новый вид услуг в Интернет - голосовая связь (IP-phone,
Vocaltec, Skype). Сегодня имеется 30 миллионов абонентов, регулярно пользующихся IP-
phone и его аналогами, ожидается до 200 миллионов до конца текущего десятилетия,
качество передачи постепенно приближается к уровню цифровой телефонии.

Среди пользователей есть те, для кого это лишь возможность общения, как для
радиолюбителей; но все больше людей использует IP-phone для деловых контактов или даже
как объект бизнеса.

Существуют два алгоритма сжатия звуковой информации, используемых для IP-телефонных


переговоров: GSM (Global system for mobile communications, ftp.cs.tu-
berlin.de/pub/local/kbs/tubmik/gsm), которая обеспечивает коэффициент сжатия 5, и алгоритм
DSP-группы (true speech) с коэффициентом сжатия данных 18 (работает при частотах 7.7
кбит/с). Добавление аппаратных средств сжатия информации позволяет сократить
необходимую полосу до 6.72 Кбит/с. Потеря 2-5% пакетов остается незамеченной, 20%
оставляет разговор понятным. В таблице 2.4.3.1 представлена зависимость необходимой
полосы телекоммуникационного канала от частоты стробирования звукового сигнала,
которая определяет качество воспроизведения.

Таблица 2.4.3.1.

Пропускная способность Частота стробирования


[бит/с] [1/с]
9600 4000
14400 6000
19200 8000
28800 11000

Для подключения к сети IP-phone необходима мультимедийная карта, микрофон, динамики


(или наушники), 8 Мбайт оперативной памяти, доступ к Интернет и соответствующее
программное обеспечение. Качество передачи звука зависит от загруженности IP-канала. В
качестве транспорта используется протокол UDP. Для обеспечения высокого качества звука
нужна гарантированная ширина IP-канала, ведь задержанные сверх меры UDP-дейтограммы
теряются безвозвратно, что и приводит к искажениям. Внедрение протоколов,
гарантирующих определенную ширину канала сделают IP-phone значительно более
привлекательным. Многие компании уже предлагают такое оборудование и программы.
Программы и описания этого вида услуг можно найти по адресам:

ftp://cs.ucl.ac.uk/mice/videoconference
http://www.pulver.com/netwatch
http://www.planeteers.com
http://www.newparadigm.com
http://www.vocaltec.com
http://www.itelco.com
http://www.quarterdeck.com

В последнее время технология передачи звука по каналам Интернет стала широко


использоваться для трансляции новостей и музыки. При этом обеспечивается вполне
удовлетворительное качество даже при передаче стерео программ. В этом случае имеется
возможность применить более эффективное сжатие информации и протоколы типа RTP и
RTCP. Задержка при передаче в этом случае никакого значения не имеет, а качество
доставки гарантировано. Современные системы ip-телефонии снабжены гибкой системой
буферов, позволяющих использовать для передачи паузы, когда один из партнеров молчит.
(См. также "RTP Payload for DTMF Digits, Telephony Tones and Telephony Signals. H.
Schulzrinne, S. Petrack. May 2000" RFC-2833 и "URLs for Telephone Calls. A. Vaha-Sipila. April
2000". RFC-2806).

В настоящее время имеется практически полный набор технологий, чтобы создать


электронную книгу. Такая книга будет представлять собой систему размером с ноут-бук,
снабженное устройством для чтения CD-дисков. Текст книги вместе с иллюстрациями и
необходимыми командными последовательностями записывается на CD. При этом в
перспективе можно рассматривать возможность того, что такое устройство будет читать
"книгу" вслух (вывод на наушники). В настоящее время имеется достаточно большое
количество книг, записанных на cd. Это, прежде всего, энциклопедические словари, альбомы
музеев, библия и многие другие. Преимущество такой формы книги уже сегодня ощутимо -
вы можете использовать современные поисковые средства, чтобы найти нужный раздел или
какую-то конкретную информацию. По мере развития этой технологии и интеграции ее с
сетями можно будет осуществлять поиск не только по данной книге, но и по книгам или
журналам, ссылки на которые в данной книге содержатся, что может быть особенно полезно
при первичном знакомстве с какой-то проблемой. Я здесь не говорю о компактности, а в
перспективе, и долговечности такой формы записи информации. При звуковом
воспроизведении читатель сможет выбирать, голосом какого актера или актеров будет
читаться данная книга. Разумеется, для этого не потребуется начитывать данный текст самим
актерам. Достаточно иметь запись характерных особенностей голоса и интонаций
конкретного голоса, а процессор сам при генерации звука будет использовать голосовые
особенности того или иного человека. Немного фантазии и можно будет представить, как
ЭВМ будет воспроизводить текст в виде фильма, который она сгенерировала по выданному
ей тексту (ведь сгенерирован же на ЭВМ корабль "Титаник" и море, по которому он плывет).
Аналогичные услуги смогут оказываться и через сеть Интернет. Наибольшие трудности
вызовет реализация качественного воспроизведения. Программы способные
преобразовывать символьный текст в голос уже существуют. Проблема распознавания
индивидуального голоса давно решена в охранных системах. Осталось научиться
использовать результаты такого анализа при воспроизведении.

Подробные подсчеты показали, что дополнительная информация, содержащаяся в


интонации, громкости и индивидуальных особенностях голоса при обычном разговоре не
должна превышать 75% от "смысловой" информации, а при очень быстрой речи она
составляет не более 30%, за то при медленном разговоре эта информация может достигать
150% (в этих условиях человек может различать больше нюансов).

Оперируя с устной речью, в отличии от письменной приходится иметь дело с фонемами, а не


буквами. В русском языке их существует 42 (энтропия Е=log42=5,38). Но существуют и
другие оценки числа фонем, например, 48. Для английского языка характерно использование
45 фонем. Информационная избыточность фонем составляет 80-85%. Устная речь может
быть записана, а письменная прочитана, отсюда можно сделать вывод, что информация,
содержащаяся в определенном тексте, не зависит от ее формы:

Е(буквы) × число букв = Е(фонемы) × число фонем

Отсюда следует, что:

Е(фонемы) =Е(буквы) × n

где n - среднее число букв, приходящихся на одну фонему (средняя длина фонемы в буквах).
Для английского языка n≈1,2.

Для записи музыки характерны аналогичные закономерности. Если мы будем записывать


последовательность нот случайным образом, энтропия такой последовательности будет
велика. Однако с музыкальной точки зрения такая последовательность безсмысленна. Для
обеспечения приемлемо мелодичности в такую последовательность нужно внести
определенную избыточность. Но при слишком большой избыточности, когда последующие
ноты почти однозначно задаются предыдущими, мы получим слишком монотонную
мелодию. По этой причине избыточность простых мелодий не меньше, чем избыточность
нормальной речи. Анализ показал, что для простых мелодий энтропия одной ноты Е=log8=3
битам.
Активно разрабатываются многие новые стандарты и протоколы для обеспечения передачи
звука по IP-каналам, проведения видеоконференций и управления в реальном масштабе
времени. К таким протоколам относятся RTP (Real Time Protocol, RFC-1889, -1890), RTCP
(Real-Time Control Protocol), который является дополнением RTP, и RSVP (resource
reservation protocol, см. разделы проектов IETF nic.nordu.net, ftp.isi.edu, munnari.oz.au и
ds.internic.net или ftp.ietf.org/internet-drafts/draft-ietf-rsvp-spec-16.txt), служащий для
обеспечения своевременной доставки данных при работе в реальном времени. Протокол RTP
способен работать помимо UDP/IP в сетях CLNP, ATM и IPX. Он обеспечивает
детектирование потерь, идентификацию содержимого, синхронизацию и безопасность
(доступ по шифрованному паролю, см. RFC-1423). Проблема синхронизации при передаче
звука особенно важна, так как даже для локальных сетей время доставки пакетов может
варьироваться в весьма широких пределах из-за используемого алгоритма доступа
(например, CSMA/CD), а это приводит к искажениям при воспроизведении. Протоколы RTP
и RTCP позволяют одновременное голосовое общение неограниченного числа людей в
рамках сети Интернет. Протокол же RSVP (или его аналог) в случае внедрения гарантирует
качество связи (разумеется, при достаточной широкополосности канала) за счет повышения
приоритета пакетов реального времени. Следует иметь в виду, что голосовое общение, хотя и
весьма привлекательно, не является единственной и даже главной целью разработчиков. По
мере совершенствования протоколов Интернет сделает возможным управление в реальном
масштабе времени довольно сложными удаленными объектами.

В таблице 2.4.2 представлены характеристики аудио-кодеков, которые можно использовать в


IP-телефонии.

Таблица 2.4.2. Характеристики аудио-кодеков

Кодек Выходная скорость кодека


G.711 64 кбит/с
g.723.1 5,3 или 6,4 кбит/с
g.722 48, 56 или 64 кбит/с
g.728 16 кбит/с
g.728/g.729a 8 кбит/с

При внедрении IP-телефонии желательно, чтобы сетевая инфраструктура обеспечивала:

 Время задержки в одну сторону менее 100 мсек.


 Вероятность потери пакета менее 5%.
 Оборудование должно соответствовать требованиям H.323v2 ("Видеотелефонные
системы и оборудование локальных вычислительных сетей без гарантии качества
обслуживания"), а механизмы безопасности - стандарту H.235. Все системы H.323
должны поддерживать рекомендации G.711, определяющие метод РСМ. Алгоритмы
сжатия данных определяются протоколом Н.245.
 Наличие функции привратника в маршрутизаторе/шлюзе (блокирует установку новых
телефонных соединений при отсутствии необходимых ресурсов)

Одна из возможных реализаций IP-телефонии показана на рис. 2.4.3.1. (MVD – Multiflex


Voice/WAN модуль, включаемый в маршрутизатор, например, Cisco-3662).
Рис. 2.4.3.1. Пример реализации систем в IP-телефонии

На рисунке MVW-модуль (Multiflex Voice/WAN), включаемый в маршрутизатор, например,


CISCO-3662, служит для связи с общедоступной телефонной сетью. Если сеть “А”
размещена в Рио-де-Жанейро, а “В” в Москве, то любой клиент нижней сети сможет
разговаривать с клиентом в Рио “бесплатно”, а с клиентами телефонных сетей “А” и “B” по
локальным тарифам. В левой части рисунка показаны телефонные аппараты, которые
подключаются непосредственно к сегменту локальной сети. Такие приборы уже поступили в
продажу.

Связь может осуществляться как с традиционной старой аналоговой телефонной сетью, так и
с ISDN. Телефонные аппараты могут подключаться непосредственно к интерфейсу
маршрутизатора, к сетевой рабочей станции или к специальному сетевому адаптеру.

Стек протоколов Н.323 представлен в таблице ниже (Э.Танненбаум, Компьютерные сети, 4-е
издание, стр. 776).

Речь Управление
G.7xx Q.931 H.245
H.225
RTCP (Сигналы при (Управление
RTP (RAS)
вызове) вызовами)
UDP TCP
Протокол передачи данных
Протокол физического уровня

RAS - Registration/Admission/Status - Регистрация/Получение доступа/Статус.


Марк Либерман посчитал объем памяти, которая нужна, чтобы записать все, что было когда-
либо сказано людьми. Для этого нужно 42 зеттабайт, если оцифровка выполняется с частотой
16 кГц с разрешением 16-бит.

2.5 Методы преобразования и передачи


изображения
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
2.5.1 Стандарт MPEG-4 65 400
2.5.2 Стандарт MPEG-7 58 1400
2.5.3 Архитектура мультимедиа MPEG-21 12 109
Итого    

JPEG
MPEG-1 и -2
Интерактивное телевидение
MPEG-4
MPEG-7
MPEG-21

Передача изображения представляет собой наиболее тяжелую проблему, так как


человеческий глаз с информационной точки зрения несравненно совершеннее уха.

В 1902 году Артур Корн (Германия) запатентовал систему фотоэлектрического сканирования


изображения, а в 1910 году заработала первая международная факсимильная связь Берлин-
Париж-Лондон. До 60-х годов этого века рынок факсимильной аппаратуры был ограничен.
Основу получения и передачи изображения составляет преобразование его в матрицу
пикселей (pixel - picture element - элемент картинки). Такое преобразование обычно делается
путем сканирования изображения (построчного и покадрового), показанного на рис. 2.5.1.

Рис. 2.5.1. Схема разложения изображения на элементы методом сканирования

Обратный ход луча строчной и кадровой развертки делаются невидимыми. В передающих


приборах изображение представляется в виде потенциальной картинки, в которой яркость
элемента определяется количеством электронов, размещенных в определенной области
экрана. Это может делаться, например, с помощью электронно-лучевой трубки. Начиная с
80-х годов, для разложения изображения на элементы начали использоваться приборы с
зарядовой связью (ПЗС), в этом случае каждому пикселю ставится в соответствие
полупроводниковый конденсатор, заряд которого пропорционален яркости элемента. Если
изображение цветное, каждой точке ставится в соответствие 3 величины, пропорциональные
яркости изображения по трем базовым цветам (красному, зеленому и голубому - RGB).
Отношение ширины изображения к высоте обычно равно 4:3. В Северной и Южной Америке
число строк развертки равно 525, а частота кадров составляет 30/сек, а в Европе 625 строк
при 25 кадрах/сек. Только 483 из 525 строк в NTSC и 576 из 625 строк в PAL/SECAM
отображаются. Время обратного хода кадровой развертки во многих случаях используется
для передачи телетекста (новости, погода, спорт, биржевые цены и пр.). Восприятие
телевизионной картинки зависит от времени реакции памяти глазных видео датчиков. У
пожилых людей это время обычно меньше и по этой причине они воспринимают картинку,
передаваемую с частотой кадров 25/сек, как мигающую. Чтобы улучшить восприятие без
увеличения частоты кадров (это потребовало бы большей полосы передачи), используется
алгоритм, при котором сначала воспроизводятся нечетные строки, а затем четные. Каждый
из этих полукадров называется полем, а сам алгоритм черезстрочной разверткой. Первым
стандартом цветного телевидения был NTSC (National Television Standards Committee, США).
В Европе цветное телевидение появилось позже, что позволило использовать новые более
прогрессивные технологии. Так появилась система SECAM (Sequential Couleur Avec
Memorire; Франция и Восточная Европа) и PAL (Phase Alternating Line; остальная Европа).
Во всех указанных системах приходилось решать проблему совместимости с черно-белым
телевидением, для чего приходилось осуществлять линейное сложение RGB-сигналов для
получения сигнала яркости (Y). Сигнал яркости передается на частотах, используемых для
черно-белого телевидения, а сигналы цветности на прилегающих более высокочастотных
диапазонах.

В России в 1967 году был принят стандарт SECAM. Географическое распределение


телевизионных стандартов представлено на рисунке ниже.
Рис. 2.5.1a. Географическое распределение телевизионных стандартов (взято из википедии)

Последние годы ознаменовались интенсивными разработками систем телевидения высокого


разрешения - HDTV (High Definition TeleVision). Эти системы характеризуются удвоением
разрешения. И вновь разработки США, Европы и Японии совершенно не совместимы. Все
эти системы характеризуются несколько иным отношением ширины картинки к высоте 16:9
вместо 4:3, что ближе к форме кадра 35-мм пленки на которую до сих пор снималось кино.
Весь мир готовится к переходу на цифровое телевидение. В простейшем варианте цифровое
видео - это последовательность кадров, каждый из которых характеризуется прямоугольной
матрицей пикселей. Пиксел можно характеризовать одним битом, тогда мы получим
качество, которое получается при передаче цветной фотографии обычным факсом. При
описании пикселя 8 битами можно иметь до 256 уровней яркости, что вполне пригодно для
черно-белого видео. Для цветного отображения картины используются электронно-лучевые
трубки, где по соседству располагаются три окошка маски, по одному для каждого из цветов.
В этом вы можете убедиться, вооружившись лупой и рассмотрев через нее экран своего
дисплея. Непрерывный аналоговый сигнал строчной развертки в цифровом варианте
заменяется последовательностью кодов, длина которой определяется разрешением по
горизонтали. В цифровом варианте возможна замена черезстрочной развертки отображением
одного и того же кадра четыре раза. К сожалению, для широковещательного телевидения
такое решение неприемлемо, так как современные телевизионные приемники не имеют
памяти.

Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на
каждую из трех цветовых компонент). Самое интересное, что человеческий глаз не способен
различить такое число оттенков! Таким образом, для описания картинки на экране,
содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой
информации по B-каналу ISDN, если не используется сжатие данных, потребуется около 2,5
минут. Эта цифра помогает понять актуальность проблемы сжатия графической
информации. XGA-стандарт дисплея (1024×768 × 24 бита на пиксел при 24 кадрах/сек)
требует потока цифровых данных 453 Мбит/с.
При передаче чисто текстовой информации электронная почта имеет по этой причине
абсолютное преимущество перед факсом, ведь в случае факса передается отсканированное
черно-белое изображение. В перспективе можно ожидать внедрения обязательного сжатия
информации при передаче почтовых сообщений с последующей дешифровкой данных
принимающей стороной. Первым шагом на этом пути является внедрение системы MIME.
Такое усовершенствование электронной почты сделает ее еще более грозным конкурентом
факс-машин. Ведь передача графических образов уже не является монополией
факсимильных систем, а возможность шифрования почтовых сообщений (например, в PGP)
и электронные подписи делает электронную почту более устойчивой в отношении перехвата.

Современная транспортировка мультимедийных данных совершенно не мыслима без


использования одного или даже нескольких методов сжатия информации.

В 1968 году CCITT разработала рекомендации по факсимильному оборудованию, которое


было способно передавать страницу за 6 минут при разрешении 3.85 линий на мм. Позднее в
1976 году аналоговая факсимильная техника была улучшена. Это позволило сократить время
передачи страницы до 3 минут. В 1980 году разработан стандарт для цифровых факс-машин
(группа 3), здесь уже предусматривается сжатие информации, что позволяет сократить время
передачи страницы до 1 мин при скорости передачи 4800 бит/с. Следует иметь в виду, что
сжатие информации в сочетании с ошибками пересылки может приводить к неузнаваемости
изображения локальному или полному. По этой причине число линий сканирования, которые
используются при обработке изображения, с целью сжатия может варьироваться (1-4) и
определяется в результате диалога между отправителем и получателем, а передача каждой
скан-линии завершается довольно длинным кодом, предназначенным для надежного
распознавания завершения строки сканирования, а также коррекции ошибок. Факсимильное
оборудование группы 3 может и не обеспечивать сжатия передаваемых (принимаемых)
данных. В 1984 году разработаны требования к факс-аппаратам группы 4. Система
базируется на двухмерной системе кодирования изображения (MMR - Modified Modified
Reed).

Факсимильное оборудование поделено на 4 группы. Первая группа практически совпадает с


традиционным фототелеграфным оборудованием (6 минут на страницу при разрешении 3.85
линий на миллиметр). Динамической вариации кодовой таблицы не предусмотрено. При
этом для кодирования очередной линии сканирования используются результаты, полученные
для предшествующей линии. Следует учитывать, что зона сканирования факс-машины
больше размера изображения и всегда имеются пустые строки и поля, что предоставляет
дополнительные возможности для сжатия передаваемой информации. Существует три
режима кодирования: вертикальный, горизонтальный и проходной. Последний режим
реализуется, когда позиция в эталонной строке a2 находится слева от b1 (см. рис. 2.5.2;
вериткальному и горизонтальному режиму соответствует нижняя часть рисунка). При
“вертикальном” режиме кодирования (a2 справа от b1 и |b1a1|<= 3) позиция b1 кодируется
относительно позиции a1. Относительное положение b1a1 может принимать одно из семи
значений V(0), VR(1), VR(2), VR(3), VL(1), vL(2) и VL(3) (см. табл. 2.5.1). Индексы r и l
указывают на то, что b1 находится справа или слева по отношению к a1, а число в скобках
обозначает расстояние b1a1. Если используется “горизонтальный” режим кодирования (a2
справа от b1 и |b1a1|>3), длины b0b1 и b1b2 отображаются с помощью кодовой комбинации
H+M(b0b1)+M(b1b2). H представляет собой код 001, взятый из двумерной кодовой таблицы.
M(b0b1) и M(b1b2) являются кодовыми словами, которые характеризуют длину и цвет
субстрок b0b1 и b1b2 соответственно.
Рис. 2.5.2. Режимы кодирования: проходной; вертикальный; горизонтальный

Стандарт JPEG (Joint Photographic Expert Group) имеет четыре режима и много опций. Схема
работы алгоритма JPEG с частичной потерей данных показана на рис. 2.5.3. Коэффициент
сжатия данных составляет 20:1 или даже больше.

Рис. 2.5.3. Преобразование данных в протоколе JPEG

Отображение графического образа может выполняться последовательно (примерно так, как


мы читаем текст: слева направо и сверху вниз) или с использованием прогрессивного
кодирования (сначала передается вся картинка с низким разрешением, затем
последовательно четкость изображения доводится до максимальной). Последний метод
весьма удобен для систем WWW, где, просмотрев изображение низкого разрешения, можно
отменить передачу данных, улучшающих четкость, и тем самым сэкономить время. Хорошо
распознаваемое изображение получается при сжатии порядка 0,1 бита на пиксел.

Факс-оборудование группы 4 может поддерживать так называемый расширенный режим,


когда часть рабочего поля кодируется без использования алгоритмов уплотнения
информации (как правило, это участки, где попытка сжать либо ничего не дает, либо даже
приводит к увеличению объема передаваемых данных). Оборудование этой группа
использует на канальном уровне процедуры HDLC LAPB. Рекомендуемой полосой
пропускания канала, к которому подключается такое оборудование, является 64 Кбит/с.

Таблица 2.5.1. Кодирование элементов изображения

Режим Элементы, подлежащие


Обозначение Код
кодирования кодированию
Проход a1a2 p 0001
Горизонтальный b0b1,b1b2 h 001+m(b0b1)+m(b1b2)
1
b1 под a1 b1a1=0 v(0)
011
b1 справа от a1 b1a1=1 vr(1)
000011
b1a1=2 vr(2)
0000011
Вертикальный b1a1=3 vr(3)
010
b1 слева от a1 b1a1=1 vl(1)
000010
b1a1=2 vl(2)
0000010
b1a1=3 vl(3).
0000001ххх

Перед началом передачи терминалы должны обменяться своими идентификаторами (TID -


terminal identification). В последнее время появились факс-аппараты, которые печатают
изображение на обычную бумагу с разрешением 300-400 точек на дюйм. Такая схема удобна,
но имеет некоторые недостатки. Такие аппараты дороги, печать может начаться не ранее,
чем будет передана вся страница; передающий аппарат может иметь более низкое
разрешение, нужно уметь адаптироваться к любому разрешению, что приводит к тому, что
скорость печати изображения при низком разрешении остается столь же низкой, как и при
высокой.

В 1970 году в Бритиш Телеком были разработаны основные принципы еще одного вида
передачи графической информации - телетекста, первые опыты по его внедрению относятся
к 1979 году. Стандарт на мозаичное представление символов был принят CEPT в 1983 году.
Каждому символу ставится в соответствие код длиной в 7-8 бит. На экране такой символ
отображается с помощью специального знакового генератора, использующего таблицу.

Полному экрану видео текста, содержащему 24 строки по 40 символов, соответствует 960


байт, для передачи которых по коммутируемой телефонной сети требуется 6,4 секунды. D-
канал ISDN может пропустить эту информацию за 1 сек, а B-канал быстрее за 0,1 сек.
Телетекст позволяет более эффективно использовать каналы связи и не налагает чрезмерных
требований на устройства отображения.

Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на
каждую из трех цветовых компонент). Таким образом, для описания картинки на экране,
содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой
информации по B-каналу ISDN, если не используется сжатие, потребуется около 2,5 минут.
Эта цифра помогает понять актуальность проблемы сжатия графической информации. Таким
образом, чтобы выдержать конкуренцию со стороны электронной почты разработчикам
факс-систем нужно упорно работать.

Стандарты для представления и передачи изображения разрабатывает Joint Photographic


Expert Group (JPEG). Для сжатия графической информации в настоящее время используется
дискретное косинусное двухмерное преобразование (DCT - Discrete Cosine Transform),
которое дает субъективно наилучший результат и описывается уравнением:

    [2.5.1]
где v - горизонтальная координата графического блока, u - вертикальная, x - вертикальная
координата внутри блока, а y - горизонтальная координата внутри блока, C(u), C(v) = 1/
для u,v = 0 и С(u), С(v) = 1 в противном случае. Два члена в квадратных скобках являются
ядрами преобразования, показанными ниже на рис. 2.5.4, а p(x,y) представляет собой
пиксельные данные блока реального рисунка. Начало координат в обоих случаях в верхнем
левом углу. Процесс кодирования сводится к разбиению изображения на блоки 8*8 пикселей
и выполнению процедуры двухмерного DCT для каждого из этих блоков. Полученные
коэффициенты преобразования дискретизируются. 64 числа, характеризующие уровень
сигнала, превращаются в 64 коэффициента преобразования (амплитуды пространственных
частот), которые хорошо поддаются процедуре сжатия. Дискретизатор округляет
коэффициенты, эта процедура вносит некоторые ошибки, но обратное преобразование на
принимающей стороне за счет усреднения частично устраняет вносимые искажения. На
практике дискретизатор реализует несколько более сложный алгоритм.

Интуитивно метод DCT базируется на выявлении того, насколько вышестоящий блок


отличается от нижестоящего. Для реального представления (сжатия) коэффициентов
преобразования здесь также используются коды Хафмана.

Рис. 2.5.4. Графическое представление двухмерного преобразования по формуле [2.5.1]

DCT обеспечивает сжатие на уровне 0.5-1.0 бит/пиксель при хорошем качестве изображения.
Сжатие требует времени, а максимально приемлемым временем задержки при пересылке
изображения является 5 секунд. На рис. 2.5.5 приведена качественная оценка четкости и
соответствия оригиналу изображения в зависимости от величины сжатия (DCT). Если
использовать скорость обмена 64 кбит/с, то степени сжатия 0,01 бита на пиксель будет
соответствовать время передачи изображения 0,04 секунды, а сжатию 10 - время передачи
40сек.
Рис. 2.5.5. Качество DCT-изображения для различных значений сжатия информации
(картинка имеет разрешение 512*512 пикселей; заполненные квадратики соответствуют
цветному изображению, а незаполненные - черно-белому)

Отдельную проблему представляет печать изображения. Здесь полутона реализуются с


помощью вариации размера элементов изображения. При цветной печати помимо RGB
представления используется CMYC система ( Cyan, Magenta, Yellow и Black)и
соответствующие картриджи. Черный цвет в RGB соответствет коду 0,0,0, а в CMIK - 75%;
68%; 67% и 90%. Сжатие требует времени, а максимально приемлемым временем задержки
при пересылке изображения является 5 секунд. Если использовать скорость обмена 64
Кбит/с, то степени сжатия 0,01 бита на пиксел будет соответствовать время передачи
изображения 0,04 секунды, а сжатию 10 - время передачи 40сек. Порядок передачи
оцифрованных значений не совпадает с классической схемой развертки и отображен на рис.
2.5.6.

Рис. 2.5.6. Порядок передачи оцифрованных параметров изображения в рамках стандарта


JPEG

Все системы сжатия требуют наличия двух алгоритмов: один для сжатия данных
отправителем, другой для восстановления получателем. Эти алгоритмы принципиально
асимметричны. Во-первых, для многих приложений мультимедийный документ, например,
фильм может быть сжат один раз (при записи на сервер или DVD-диск), а декодироваться
тысячи раз на стороне клиентов. По этой причине процедура сжатия может быть достаточно
сложной, дорогой и долгой. Алгоритм же декодирования должен быть достаточно простым и
дешевым. Впрочем, в случае видеоконференций медленное кодирование (сжатие)
совершенно неприемлемо. По этой причине алгоритмы сжатия данных в реальном масштабе
времени принципиально отличаются от алгоритмов кодирования данных при записи на
видео или DVD.

Еще одним источником асимметрии сжатия-декомпрессии для мультимедиа является


отсутствие требования обратимости процедур. В результате работы программы
декомпрессии получится совсем не тот файл, который поступил на вход программы сжатия
медиа-данных. Это происходит потому, что процесс сжатия в этом случае сопряжен с
потерей части данных. Схемы сжатия могут быть поделены на две категории: энтропийное
кодирование и кодирование отправителем.

Энтропийное кодирование подразумевает сжатие данных без потери. К этому типу


относится, например алгоритмы Хафмана и Зива-Лемпеля (статистическое сжатие).
Рассмотрим также простой случай такого кодирования. Пусть мы имеем кодовую
последовательность:

314159260000000000000271828182811111111110707193800000002001

Предположим также, что каким-то образом мы добились того, что символ R в


последовательности встретиться не может, тогда указанную выше строку можно переписать
в виде:

31415926R0132718281828R11007071938R072001

Здесь повторения одного и того же символа отображаются символом R, за которым следует


код повторяющегося символа и число этих повторений. Понятно, что в такой схеме двойные
или тройные повторения какого-либо сокращения строки не вызовут. Еще одним примером
энтропийного кодирования является метод CLUT (Color Look Up Table). При RGB-
представлении изображения каждый пиксел характеризуется тремя байтами, что
соответствует 224 оттенков. На практике такое многообразие встречается не так уж часто.
Например, в случае мультипликационного фильма число цветов может не превышать 256.
Можно получить коэффициент сжатия почти в три раза путем построения таблицы объемом
в 768 байт, куда будут занесены коды используемых 256 цветов. Каждый пиксел в этом
варианте характеризуется индексом его RGB-кода в таблице. Данный алгоритм может
служить примером, когда кодирование более трудоемко, чем декодирование.

Кодирование на стороне отправителя обычно сопряжено с потерей определенной доли


данных. Одним из довольно часто используемых способов кодирования является
привлечение дифференциальных методик. Здесь предполагается, что значительных
изменений уровня сигнала быть не может. Если это происходит, то данные теряются и
неизбежны искажения. Другим примером кодирования этого рода является DCT, описанное
выше. Еще одним кодированием отправителя можно считать векторное дискретное
преобразование изображения. Такое преобразование подразумевает разбивку изображения
на равные прямоугольные области. Формируется также кодовая книга, которая также
содержит набор прямоугольных блоков изображения, возможно получаемых из некоторой
картинки. Вместо пересылки прямоугольника изображения посылается значение индекса
соответствующего элемента из кодовой книги. Если эта книга формируется динамически, то
она также должна быть послана получателю. При этом подразумевается, что исходное
изображение может быть разложено на элементы, содержащиеся в кодовой таблице. В
принципе данный метод представляет собой двухмерную реализацию алгоритма CLUT. В
реальной картинке могут встретиться фрагменты, несовпадающие элементами из кодовой
книги. В этом случае может быть выполнена подмена элементом, наиболее похожим на
имеющийся фрагмент.

Проблема сжатия и передачи движущегося изображения еще сложнее. Алгоритм


кодирования такого изображения описан в рекомендациях CCITT H.261 и предполагает, что
скорость передачи при этом лежит в интервале 40кбит/с - 2Мбит/с. Следует иметь в виду,
что видео телефония и видеоконференции требуют синхронной передачи звука и
изображения (стандарт H.221, например 46,4 Кбит/с для видео и 16 Кбит/с для звука).
Нормальный формат телевидения имеет 625 и 525 строк развертки и частоту кадров 25-30 в
секунду. Цветное телевидение использует сигналы R (red), G (green) и B (blue), причем
яркость луча (y) определяется соотношением: Y = 0.30R + 0.59G + 0.11B (при отображении
белого цвета). Информация о цветах определяется формулами: СB = B - Y и CR = R - Y. Зная
величины y, CB и СR, можно восстановить значения R, G и B. При сжатии цветного
изображения учитывается тот факт, что человеческий глаз извлекает большую часть
информации из контуров предметов, а не из цветных деталей. Например в рекомендации
CCIR 601 предлагается использовать полосу 13.5 Мгц для кодирования Y и только по 6.75
Мгц для СB и CR. Такая схема требует 216 Мбит/с, что в 3375 раза превышает возможности
стандартного 64кбит/с B-канала ISDN. Приемлемыми решениями могут быть:

a. снижение числа строк до 288 (формат 625 строк) для отображения яркости;
b. использование максимально возможного сжатия графических данных;
c. повышение пропускной способности канала. Для разрешение по горизонтали вполне
достаточно 3 Мгц. Рекомендация 601 требует 720 пикселей для яркости и 360 для
каждой из составляющих цветов. В настоящее время используется стандарт CIF
(Common Intermediate Format). Для некоторых приложений рекомендовано вдвое
более низкое разрешение по каждой из осей (quarter CIF). PCM-кодирование CIF с 8
битами на пиксель требует 352х288х(1+1/4+1/4)х29.97х8 = 36.5 Мбит/с.

Отдельную проблему представляет печать изображения. Здесь полутона реализуются с


помощью вариации размера элементов изображения. При цветной печати помимо RGB
представления используется CMYC система (Cyan, Magenta, Yellow и Black) и
соответствующие картриджи. Черный цвет в RGB соответствует коду 0,0,0, а в CMIK - 75%;
68%; 67% и 90%.

Проблема сжатия информации была, есть и всегда будет актуальной. При известных
современных методах, чем больше эффективность сжатия - больше задержка (наилучший
результат можно получить, используя сжатие всего фильма, чем кадра или тем более
строки). В каждом конкретном случае выбирается то или иное компромиссное решение. При
работе в реальном масштабе времени, где в процессе обмена участвует человек, задержки
более секунды вызывают раздражение, и приходится ограничиваться сравнительно
скромными коэффициентами сжатия.

При пересылке движущегося изображения производится сравнение текущего кадра с


предшествующим. Если кадры идентичны, никакого информационного обмена не
происходит. Если кадры отличаются лишь смещением какого-то объекта, выявляются
границы этого объекта, направление и величина вектора его перемещения. Так как
использование индивидуальных векторов перемещения для каждого пикселя слишком
расточительно, используется общий вектор для блока пикселей 16*16 по яркости и для
соответствующего блока 8*8 по цвету. Точность задания вектора перемещения обычно
лежит в пределах 1/2 пикселя (стандарт MPEG-2). Только эта информация и передается по
каналу связи. Выявление движущихся объектов осуществляется путем вычитания
изображения двух последовательных кадров. Если бы передавалась всегда только разница
кадров, происходило бы накопление ошибок. Кроме того, как кодер, так и декодер содержат
прямой и обратный DCT-преобразователь. Если комбинация прямого и обратного DCT-
преобразования не приводит к получению исходного объекта, то такого рода эффекты могут
заметно усилиться. Для исключения этого время от времени производится передача
непосредственно видеосигнала. Практически преобразователь изображения представляет
чудо современной технологии, которое даст работу еще не одному поколению математиков и
инженеров.

Нисколько не проще система передачи и мультиплексирования потока видео данных,


который содержит помимо обычной информации описания формы движущихся объектов,
векторы перемещения, коэффициенты дискретизации и многое другое. Схема передачи
графической информации имеет 4-х уровневую, иерархическую структуру. Передача
каждого кадра изображения начинается с 20-битного кода PSC (Picture Start Code, эта
сигнатура позволяет выделить начало кадра изображения в общем потоке), далее следует 5-
битовый код TR (Temporal Reference, временная метка, которая позволяет поместить
соответствующую часть изображения в правильную точку экрана). Изображение
пересылается частями, имеется 4 уровня: кадр, группа блоков GoB (Group of Blocks),
макроблоки (MB) и просто блоки.

Ядро всей структуры составляет процедура передачи кадра (внутренний слой, существуют
еще слои GoB, MB и блока, см. рис. 2.5.7, 2.5.8, 2.5.9)

Рис. 2.5.7. Схема передачи кадра изображения

Поле Ptype содержит 6 бит, которые характеризуют формат изображения (используется ли


формат CIF или QCIF). Однобитное поле PEI указывает на то, следует ли далее 8-битное
поле PSpare (предназначено на будущее). Если PEI=0, начинается цикл передачи GoB.
Группа блоков составляет одну двенадцатую картинки CIF или одну треть QCIF. GoB
описывает Y (яркость), 176 пикселей для каждой из 48 строк и соответствующие 88*24
элементов для CB и CR.

GBSC - (Group of Blocks Start Code) представляет собой 16-разрядное слово, за которым
следует 4 бита номера GoB (GN - GoB number). GN указывает, какой части изображения
соответствует данный GoB. Поле gquant имеет 5 бит и указывает на номер преобразователя
(одного из 31 дискретизаторов), который используется данным GoB. Смысл GEI идентичен
PEI. GEI и GSpare позволяют сформировать структуру данных, идентичную той, что
используется на уровне кадра.

Формат пересылки mb сложнее (см. [17]). Каждый GoB делится на 33 макроблока (MB),
каждый из которых соответствует 16 строкам по 16 пикселей Y (четыре блока 8*8) и CB и CR.
Каждый макроблок начинается с его адреса MBA (MacroBlock Address), имеющего
переменную длину и определяющего положение макроблока в GoB.
Рис. 2.5.8. Блок-схема кодирования и передачи изображения

Макроблоки не передаются, если данная часть изображения не изменилась. За MBA следует


код переменной длины Mtype, характеризующий формат макроблока (применен ли метод
подвижного вектора MVD и т.д.) и последующую информацию. CBP (Coded Block Pattern)
представляет собой кодовое слово переменной длины, которое несет в себе информацию о
том, какой из шести блоков преобразования (8*8) содержит коэффициенты (слой блоков).
CBP нужно не для всех типов макроблоков. Каждый блок завершается флагом EOB (End of
Block).

Рис. 2.5.9. Размещение блоков в макроблоках

Сама природа алгоритма кодирования и передачи графических данных такова, что число бит
передаваемых в единицу времени зависит от характера изображения. Чем динамичнее
изменяется картинка, тем больше поток данных. Для выравнивания потока данных широко
используется буферизация. Буферизация в свою очередь порождает дополнительные
задержки, которые в случае видео-конференций или видео-телефонии не должны превышать
нескольких сотен миллисекунд.

Так как при передаче изображения широко используются коды переменной длины, она
крайне уязвима для любых искажений. В случае ошибки будет испорчена вся информация
вплоть до следующего стартового кода GoB. Из-за рекурсивности алгоритма формирования
картинки, искажения будут оставаться на экране довольно долго. Использование векторов
перемещения может привести к дрейфу искажений по экрану и расширению их области. Для
того чтобы уменьшить последствия искажений, в передаваемый информационный поток
включаются коды коррекции ошибок BCH (511,493; Forward Error Correction Code), которые
позволяют исправить любые две ошибки или кластер, содержащий до 6 ошибок в блоке из
511 бит (см. рис. 2.5.10). Алгоритм работает в широком диапазоне скоростей передачи
информации. Для реализации коррекции ошибок в поток двоичных данных включается 8
пакетов, каждый из которых включает в себя 1 кадровый бит, 1 бит индикатор заполнения,
492 бита кодированных данных и 18 бит четности. Поле Fi (индикатор заполнения) может
равняться нулю, тогда последующие 492 бита не являются графической информацией и
могут игнорироваться. Алгоритм предназначен для работы в динамическом диапазоне частот
40:1.
Рис. 2.5.10. Схема передачи данных с коррекцией ошибок

Во время переговоров или в ходе видеоконференции может возникнуть необходимость


отобразить текст, выделить на экране какой-то объект, послать факс и т.д. Для решения
таких задач можно использовать D-канал, но это не оптимально, так как он имеет свои
специфические функции. Поэтому более привлекательным представляется создание
специального протокола, работающего в рамках B-канала (H.221). Для этих целей
используется младший бит каждого из октетов, что позволяет создать канал с пропускной
способностью 8 Кбит/с. этот сервисный канал использует кадры по 80 бит. Первые 8 бит
служат для целей синхронизации (FAS - Frame Alignment Signal) и выполняют следующие
функции:

 выделение начала кадра (исключение имитации этого в информационном потоке);


 выделение начала блока кадров (опционно до 16 кадров);
 выполнение функций счетчика в многокадровых блоках (по модулю 16), может
использоваться в многоточечных соединениях;
 нумерация соединений;
 CRC-контроль (опционно);
 ”A-бит” для определения кадр/мультикадр/синхронизация при пересылке в
противоположном направлении (A=0 - передача, см. также структуру кадров isdn );

При работе с каналами на 384, 1536 и 1920 Кбит/с сервисный канал использует тайм-слот 1.
Следующие 8 бит имеют название BAS (Bit Allocation Signal) и выполняют следующие
функции:

 код, характеризующий возможности канала (узко/широко полосная передача звука,


различные видео параметры, тип шифрования и т.д.);
 коды команд, определяющие значения передаваемых кадров;
 ESC-последовательности.

Очевидно, что BAS-коды (H.242) должны быть надежно защищены от ошибок. Для этой
цели они пересылаются с использованием кодов, допускающих коррекцию ошибок. При
работе оба приемника непрерывно ищут разделительный код кадров. Когда он обнаружен,
бит А для выходного канала делается равным нулю. Только после получения А=0 терминал
может быть уверен в том, что удаленный терминал правильно воспринял код BAS. Работа с
кодами BAS описана в документе H.242. При установлении режима обмена терминалы
обмениваются командами BAS. Команда действительна для последующих двух кадров,
следовательно, при частоте кадров 100 Гц, изменения режима могут производиться каждые
20 мс.

Многоточечный вызов может рассматриваться как несколько связей между терминалами и


бриджом MCU (Multipoint Control Unit) по схеме точка-точка. Простой MTU передает на
каждый из терминалов смешанный аудио-сигнал от остальных терминалов. Каждый
терминал осуществляет широковещательную передачу для остальных терминалов,
участвующих в обмене. При видео обмене на терминал выводится только одна картинка.
Дополнительную информацию по данной тематике можно найти в рекомендациях H.231,
H242 и H.243.

Для передачи нормального телевизионного изображения необходимо 364 Кбит/с (4х64


Кбит/c). Интеграция телевидения с сетями передачи данных, появление видеотелефона и
широкое внедрение видеоконференций становится велением времени. Требования к каждому
из этих видов услуг варьируется значительно в зависимости от приложения. Например,
ставшие обычными телевизионные мосты требуют высокого качества передачи изображения
и звука. А в некоторых дорогостоящих отраслях науки, где международное сотрудничество
стало неизбежным, важным является передача статических изображений (чертежи, схемы,
описания алгоритмов, и т.д.) с высоким (иногда более высоким, чем в телевидении)
разрешением. Здесь важно передать звук с приемлемым качеством (но заметно хуже, чем на
ТВ) и обеспечить синхронное перемещение маркера мыши по экрану в ходе обсуждения
переданного документа. Экономия только на авиа билетах (не говоря о командировочных и
времени экспертов) способна перекрыть издержки по оплате канала для видеоконференции.
В этом режиме приемлемым может считаться один кадр в 1-4 секунды.

Рисунок известного французского художника Клода Серрэ из книги “Черный юмор и люди в
белом” (см. начало раздела) может служить иллюстрацией того, к чему может привести
использование протокола TCP при передаче изображения в реальном масштабе времени.
Предположим, что в процессе передачи изображения носа пакеты были повреждены, тогда
спустя некоторое время, определяемое размером окна (TCP), будет проведена повторная их
передача. Тем временем переданные ранее пакеты будут использованы для построения
изображения, а часть картинки, содержавшаяся в пакетах, посланных вместо поврежденных,
будет отображена совсем не там, где это следует. Реально из-за повреждения пакетов
возможны в этой версии и более тяжелые искажения изображения. Именно это является
причиной использования UDP для передачи видео и аудио информации при видео и аудио
конференциях (еще лучшего результата можно достичь, использую протокол RTP).
Протокол UDP не требует подтверждения и повторной передачи при ошибке доставки.
Поврежденные пакеты вызовут искажения изображения (или звука) лишь локально.

Ситуация меняется в случае посылки изображения или звукового послания по электронной


почте. Здесь в случае повторной передачи пакетов в конечном итоге будет сформирован
файл, уже не содержащий ошибок. Такое решение приемлемо всякий раз, когда большая
задержка появления изображения или звука не играет никакой роли.

Стандарт MPEG-1 и -2
Стандарт MPEG 1 (ISO 11172; см. http://www.chiariglione.org/mpeg/standards /mpeg-1/mpeg-
1.htm) определяет методы сжатия данных, позволяющие довести скорости передачи видео- и
аудио информации до 1,5 Мбит/с, что соответствует скоростям обмена обычных CD-ROM.
Стандарт MPEG-2 содержит в себе 9 частей. Первые три стали международными
стандартами MPEG-2. (см. http://www.chiariglione.org/mpeg/ standards/ mpeg-2/mpeg-2.htm;
ISO/IEC JTC1/SC29/WG11).

Часть 1 MPEG-2 относится к объединению одного или более элементарных аудио или видео
потоков, а также прочих данных в один или несколько потоков, удобных для записи или
передачи.

Программный поток подобен создаваемому системами мультиплексирования MPEG-1. Он


формируется в результате объединения одного или более элементарных потоков пакетов
PES (Packetized Elementary Streams), которые имеют общую временную шкалу.
Программный поток формируется для использования в относительно надежной среде и
удобен для приложений, которые могут включать в себя программную обработку данных.
Пакеты программного потока могут иметь переменную и относительно большую длину.
Модель систем MPEG-2 показана на рис.

Рис. 2.5.11. Модель систем MPEG-2

Транспортный поток объединяет один или более потоков PES с общей или разными
временными шкалами. Элементарные потоки с общей временной шкалой образуют
программу. Транспортный поток формируется для использования в относительно
ненадежной среде, где вероятны ошибки, например память или транспортная среда с
высоким уровнем наводок или шума. Пакеты транспортного потока имеют длину 188 байт.

Часть 2 MPEG-2 предоставляет мощные возможности сжатия видеоданных стандарта


MPEG-1 и обладает широким диапазоном средств кодирования. Эти средства группируются
в профайлы, обеспечивая разнообразную функциональность. В таблице 2.5.3 "X" отмечены
возможности, которые реализуются стандартом.

Таблица 2.5.3. Видео профайлы MPEG-2

<tdx< td=""></tdx<>
SNR Пространственно
Уровень Простой Основной Высокий Multiview 4:2:2
масштаб масштабируемый
Высокий   X     X    
Высокий-
  X   X X    
1440
Основной X X X   X X
Низкий   X X        

С момента окончательного одобрения MPEG-2 Видео в ноябре 1994, был разработан еще
один профайл. Он использует существующие средства кодирования MPEG-2 Видео, но
способен работать с изображениями, имеющими разрешение 4:2:2 и более высокую скорость
передачи. Несмотря на то, что MPEG-2 Видео не разрабатывался для студийных целей, серия
выполненных тестов показала, что MPEG-2 достаточно хорош, а во многих случаях даже
лучше, чем предлагается спецификациями, разработанными для более высоких скоростей
передачи или студийных приложений.

Профайл 4:2:2 был окончательно одобрен в январе 1996 и сейчас является неотъемлемой
частью стандарта MPEG-2 Видео.

Профайл Multiview (MVP) является еще одной из последних разработок. Он позволяет,


используя существующие средства кодирования MPEG-2, эффективно закодировать
последовательность кадров, полученных от двух камер, снимающих одну и ту же сцену
(например, для получения стерео образа).

Часть 3 MPEG-2 представляет собой обратно совместимое многоканальное расширение


стандарта MPEG-1 аудио. На рис. 2.5.14 показана структура блока данных MPEG-2 аудио,
демонстрирующая это свойство.

Рис. 2.5.12. Структура блока аудио-данных в MPEG-2

Части 4 и 5 MPEG-2 соответствуют частям 4 и 5 MPEG-1.

Часть 6 MPEG-2 - Команды и управление цифровой медийной записью DSM-CC (Digital


Storage Media Command and Control) представляет собой спецификацию набора протоколов,
которые реализуют средства для управления потоками данных в MPEG-1 и MPEG-2. Эти
протоколы могут использоваться для поддержки приложений для автономных и
распределенных систем. В модели DSM-CC, поток исходит от сервера и поступает клиенту.
Сервер и клиент рассматриваются в качестве пользователей сети DSM-CC. DSM-CC
определяет логические объекты, называемые сессией и менеджером ресурсов SRM (Session
and Resource Manager), которые осуществляют логическое централизованное управление
сессиями и ресурсами (см. рис. 2.5.13).
Рис. 2.5.13. Эталонная модель DSM-CC

Часть 7 MPEG-2 является спецификацией алгоритма кодирования многоканального аудио,


полностью совместимого с MPEG-1.

Часть 8 MPEG-2 первоначально планировалась для кодирования видео, когда входные


кодировщики выдают по 10 бит на одно стробирование. Работа была приостановлена, когда
выяснилось, что промышленность проявляет ограниченный интерес к этой проблеме.

Часть 9 MPEG-2 является спецификацией интерфейса реального времени RTI (Real-time


Interface) для декодеров транспортного потока, которые могут использоваться с любыми
сетями.

Часть 10 является секцией стандарта, предназначенной для тестирования DSM-CC.

Работа над форматом MPEG-2 была завершена в 1997 г. Стандарт MPEG-2 является
усовершенствованием MPEG-1 и базируется на схеме шифрования с потерями и передачи
без потерь. Кодирование в MPEG-2 идентично используемому в MPEG-1 (I- P- и B-кадры; D-
кадры не используются). I-кадр (Intracoded) представляет собой изображение,
закодированное согласно стандарту JPEG при полном разрешении по яркости и половинном
разрешении по цвету. Такие кадры должны появляться периодически, чтобы исключить
накопления ошибок (включаются в выходной поток 1-2 раза в сек). Эти кадры обеспечивают
совместимость с MPEG-1. P-кадры (Predictive) содержат отличие блоков в последнем кадре
изображения по отношению к предыдущему кадру. P-кадры базируются на идее
макроблоков, которые содержат 16*16 пикселей яркости и 8*8 пикселей цветности. Для
декодирования P-кадра необходимо иметь исчерпывающие данные о предыдущем кадре. B-
кадры (Bi-directional) характеризуют отличие двух последовательных изображений. B-кадры
сходны с P-кадрами, но позволяют устанавливать связь макроблоков не только с
предшествующим, но и с последующим кадром. Кадры следуют в последовательности: I B B
P B B P B B I. Здесь применено двойное косинусное преобразование с числом
коэффициентов 10*10 (против 8*8 в MPEG-1). D-кадры (DC-Coded) используются, для
получения изображения низкого разрешения при быстрой перемотке вперед или назад.

Для изображения с размером 356×260 пикселей и 24-битовок кодах цвета коэффициенты


сжатия для MPEG-1 представлены в таблице ниже.

Тип Размер К-т сжатия


I 18 кбайт 7:1
P 6кбайт 20:1
B 2,5кбайт 50:1
Среднее 4,8кбайт 27:1

Если кадр 356×260 требует 4,8кбайт, то это создаст следующий видеопоток:

30 кадров/сек × 4,8 кбайт/кадр × 8 бит/пиксель = 1,2 Мбит/сек

MPEG-2 предназначен для широковещательного телевидения (включая прямое спутниковое -


DBS) и для записи на CD-ROM и поддерживает четыре разных стандарта разрешения:
352*240 (низкое), 720*480 (базовое), 1440*1152 (высокое-1440) и 1920*1080 (высокое).
Последние два стандарта относятся к телевидению высокого разрешения (HDTV). Низкое
разрешение служит для обеспечения совместимости с MPEG-1. Стандарт MPEG-1 может
работать в режиме, когда для сжатия данных используется алгоритм JPEG. Эта схема удобна
в случае произвольного доступа к любому из кадров, например, для их редактирования. С
точки зрения эффективности сжатия это совсем не лучшее решение, так как не используется
тот факт, что последовательные кадры отличаются друг от друга незначительно. Даже
простой метод дифференциального сжатия (передача отличия нового кадра от предыдущего)
окажется эффективным. Здесь предполагается, что фон кадра и положение видео-камеры
являются стационарными. Базовое разрешение ориентировано на работу со стандартом
NTSC.

Из этих данных можно получить оценку сверху для пропускной способности визуального
канала человека. Из-за инерциальности человек не различает более 25 кадров в секунду. Один
кадр содержит 1920*1080*24=49766400 бит (здесь предполагается, что человек может
различать 224 оттенков цветов (в реальности возможности много ниже). Угол нашего зрения
много шире телесного угла, перекрываемого телевизионным экраном, но относительно
высокое разрешение мы имеем лишь в близи той точки, на которую мы сфокусировались.
Таким образом, мы можем воспринимать <<1244 Мбит/сек. Практически, эта оценка на
несколько порядков выше реального значения. Понятно, что мозг может обработать на много
порядков меньший объем информации. Оценку возможностей нашей обработки можно
получить из скорости быстрого чтения, когда человек воспринимает содержимое страницы за
время порядка 15 сек. Страница содержит примерно 3 кбайта, что дает скорость
приблизительно 200 байт в сек. Эту цифру можно считать оценкой снизу (ведь буква это
графический образ, а не байт).

Помимо этого MPEG-2 поддерживает 5 профайлов для различных прикладных областей.


Основной профайл ориентирован на общие приложения с базовым разрешением. Простой
профайл сходен с основным профайлом, но не работает с B-кадрами, чтобы облегчить
процедуры кодирования/декодирования. Остальные профайлы служат для обеспечения
масштабируемости и работы с HDTV, они отличаются цветовым разрешением и форматами
информационных потоков. Скорость передачи данных для каждой комбинации разрешения и
профайла различна и лежит в диапазоне от 3 до 100 Мбит/c. Для обычного ТВ характерна
скорость 3-4 Мбит/c.

Кодирование в MPEG-2 идентично используемому в MPEG-1 (I- P- и B-кадры; В-кадры не


используются). I-кадр (Intracoded) представляет собой изображение, закодированное
согласно стандарту JPEG при полном разрешении по яркости и половинном разрешении по
цвету. Такие кадры должны появляться периодически. Эти кадры обеспечивают
совместимость с MPEG-1, и исключают влияние накопления ошибок в процессе передачи. P-
кадры (Predictive) содержат отличие блоков в последнем кадре изображения (базируются на
идее макроблоков). B-кадры (Bidirectional) характеризуют отличие двух последовательных
изображений. Здесь применено двойное косинусное преобразование с числом
коэффициентов 10*10 (против 8*8 в MPEG-1). MPEG-2 предназначен для
широковещательного телевидения (включая прямое спутниковое - DBS) и для записи на CD-
ROM и поддерживает четыре разных стандартов разрешения: 352*240 (низкое), 720*480
(базовое), 1440*1152 (высокое-1440) и 1920*1080 (высокое). Низкое разрешение служит для
обеспечения совместимости с MPEG-1. Базовое разрешение ориентировано на работу со
стандартом NTSC. Последние два стандарта относятся к телевидению высокого разрешения
(HDTV). Помимо этого MPEG-2 поддерживает 5 профайлов для различных прикладных
областей. Основной профайл ориентирован на общие приложения с базовым разрешением.
Простой профайл сходен с основным профайлом, но не работает с B-кадрами, чтобы
облегчить процедуры кодирования/декодирования. Остальные профайлы служат для
обеспечения масштабируемости и работы с HDTV, они отличаются цветовым разрешением и
форматами информационных потоков. Скорость передачи данных для каждой комбинации
разрешения и профайла различна и лежит в диапазоне от 3 до 100 Мбит/c. Для обычного ТВ
характерна скорость 3-4 Мбит/c. В таблице 2.5.4 представлены размеры кадров в битах для
MPEG-1 и MPEG-2.

Таблица 2.5.4. Размеры кадров MPEG-1 и MPEG-2

Тип кадра
 
i p b Средний
mpeg-1 (1,15 Мбит/с) 150,000 50,000 20,000 38,000
mpeg-2 (4 Мбит/c) 400,000 200,000 80,000 130,000

Мультиплексирование аудио- и видеоданных в MPEG-2 показано на рис. 2.5.11. На выходе


пакетизатора мы имеем элементарные потоки пакетов (PES- Packetized Elementary Stream),
содержащих около 30 полей, включая длину, идентификаторы потоков, временные метки,
контрольные суммы и т.д. В MPEG-2 формируется два комплексных потока, программный
поток (PS) длинных пакетов переменной длины сходный с MPEG-1, содержащий видео и
аудио данные и имеющий общую временную шкалу, и транспортный поток (TS) пакетов
постоянной длины (188 байт) без общей временной шкалы. В последнем случае
минимизируется влияние потерь пакетов в процессе транспортировки. Предусмотрено
выделение в потоке составляющих разной степени важности (например, DCT-
коэффициентов и обычных графических данных).

Рис. 2.5.14. Мультиплексирование аудио и видео данных в MPEG-1 и MPEG-2 (внизу)

Преобразование аналогового сигнала в цифровую последовательность осуществляется в


MPEG-2 с помощью кодеков, создавая первичный поток в 140 Мбит/с, который затем
преобразуется для передачи через стандартные каналы 1,5 и 15 Мбит/с (например, для
прямого широковещательного, спутникового телевидения). В соответствии со стандартом
сжатия данных H.320 можно обеспечить передачу видео + аудио по каналу 56 кбит/с с
низким разрешением и частотой 1 кадр/сек. Смотри раздел "Видеоконференции по каналам
ISDN и Интернет".

Интерактивное телевидение
В последнее время благодаря широкому внедрению цифрового телевидения и новых
стандартов передачи изображения (MPEG-2) открылись возможности для "телевидения по
требованию" (интерактивного телевидения) - системы, где клиент может самостоятельно и
индивидуально формировать ТВ-программу. Первые опыты такого рода относятся к 1995
году. Такие системы базируются на существующих сетях кабельного телевидения. Но
развитие оптоволоконных технологий позволяют ожидать полной интеграции кабельного
цифрового телевидения и информационных сетей Интернет. Следует, впрочем, заметить, что
оптоволокно в каждом жилище является пока непозволительной роскошью. Общая схема
такой системы показана на рис. 2.5.15.

Рис. 2.5.15. Схема реализации интерактивного телевидения

Базовый мультимедийный сервер может обслуживать отдельный район города. В пределах


квартала размещается промежуточный центр, где размещается локальный буферный сервер,
где записываются фрагменты программ, заказанные локальными клиентами. Только
новостийные и некоторые спортивные программы передаются в реальном масштабе
времени, все фильмы берутся из локальной фильмотеки или предварительно записываются в
накопитель из центрального мультимедиа-сервера. Транспортной средой здесь может стать
ATM, SDH или Fibre Channel. Оптическое волокно доходит до квартального сервера или
даже до дома клиента. Индивидуальная раздача сигнала на терминалы (телевизоры) может
осуществляться через существующие телевизионные кабели. В этом случае по имеющимся
каналам может передаваться не только программа телевидения и осуществляться
телефонные переговоры, но выполняться полное информационное обслуживание. Сюда
может включаться, помимо заказа ТВ-программ, подписка на газеты, заказ билетов на
транспорт или в театр, получение прогноза погоды и данных о состоянии дорог, доступ к
базам данных, включая библиотеки и фонотеки и многое другое.

Особый интерес представляет возможность практически полного вытеснения традиционных


газет. Клиент сможет получать только интересующие его статьи из любых газет (и только их
и оплачивать). Если какая-то статья его заинтересует и он захочет почитать ее позднее в
машине или на даче, он сможет ее распечатать на принтере, подключенном к его телевизору-
терминалу.

Цены на цветные принтеры в настоящее время спустились ниже 100 долларов, таким
образом нужная копия уже сейчас дешевле стоимости газеты. Экономия на бумаге и
средствах доставки очевидны, да и необходимость в типографиях отпадет, ведь даже книги
можно будет получить непосредственно дома (хотя привлекательность данной услуги и не
вполне очевидна - хорошо сброшированная и переплетенная книга будет привлекательным
объектом еще долго (прогноз относительно будущих книг сотри в разделе "Заключение").
Массовое внедрение таких технологий будет стимулировать падение цен на
соответствующие процессоры и принтеры. Интерактивная схема подключения телевизора-
терминала сделает возможным многие новые виды развлечений, а также выполнение многих
покупок, не выходя из дома. Традиционной почте подписала отсроченный приговор почта
электронная, но появление интерактивных широкополосных средств завершит
многовековую историю почты (да и телеграфа). Ей будет оставлена доставка товаров,
билетов и документов. Побочным продуктом прогресса в данной области станет
общедоступный видеотелефон. Схема видео-сервера представлена на рис. 2.5.16.

Рис. 2.5.16. Блок-схема видео сервера для интерактивного телевидения

Видео-сервер может содержать несколько процессоров (ЦПУ) со встроенной локальной


памяти. Такой сервер должен иметь несколько систем архивов и достаточно мощный сетевой
канал. Один кинофильм требует для записи около 4 Гигабайт. Используемые запоминающие
устройства образуют иерархическую структуру: ЗУПВ (запоминающее устройство с
произвольным доступом), дисковая память (RAID – Redundant Array of Inexpensive Discs),
CD и картриджи магнитных лент. ЗУПВ имеют минимальное время доступа, относительно
малую емкость и достаточно высокую цену, а магнитные ленты – наоборот – относительно
дешевы, характеризуются большим временем доступом, но достаточно большой емкостью.
Сетевой интерфейс связывает сервер с центральной инфраструктурой телевизионной сети.
Но нужно учитывать, что одна из главных составляющих видео-сервера на рисунке не
показана – это управляющее программное обеспечение, которое должно решать проблему
буферизации и шифрования огромного объема данных для достаточно большого числа
клиентов.

В жилье клиента будет входить оптоволоконный кабель, завершающийся интерфейсной


коробкой с разъемами для подключения телефона, телевизора и ЭВМ. Даже современные
ограниченные скорости передачи позволяют решить стоящие проблемы. Во-первых люди не
смотрят телевизор круглые сутки, это позволяет ночью или в рабочее время, когда клиент на
службе, произвести передачу нужных фрагментов ТВ-программы на локальный сервер. Во-
вторых популярность фильмов и программ не однородна, что также снижает требование на
широкополосность. Известно, что наиболее популярный фильм запрашивается примерно в К
раз чаще, чем фильм, занимающий к-ое место в списке популярности (эмпирический закон
Ципфа (Zipf), выведенный из статистики контор по прокату видеокассет). Это означает, что
из предлагаемого списка будут выбраны не все фильмы, а наиболее популярные фрагменты
программ можно передавать по схеме MBONE, минимизируя загрузку каналов (смотри
также описание протокола PIM). Способствовать решению данной проблемы будет и
появление CD с емкостью 4 Гбайта. Но проблем здесь остается немало, так трудно себе
представить, что все клиенты захотят смотреть один и тот же фильм в одно время. Решение
подобной задачи потребует очень большого объема буферной памяти и ощутимо поднимет
требования к широкополосности канала. "Синхронизовать" клиентов можно будет
дифференциацией оплаты для разных временных интервалов, и группированием клиентов,
заказавших близкие времена начала демонстрации фильмов, путем предварительного
оповещения. Но несмотря на все эти ухищрения, локальные серверы должны будут иметь
сложную иерархическую систему буферной памяти, базирующейся на разных принципах
работы (CD, магнитная лента, дисковая память и даже RAM).

В связи с ростом числа сотрудников, работающих из дома, растут требования к полосе


канала (см. The Art of Teleworking, Polycom). Эволюция требований к полосе представлена на
рис. 2.5.17.

Рис. 2.5.17. Требования к полосе видео-канала при разном разрешении и качестве

Практическая реализация фантастической схемы, предложенной в предыдущем абзаце, уже


осуществляется в США и Канаде. Здесь есть немало проблем, например, нужен дешевый
широкополосный кабельный модем (смотри раздел "Модемы", там же приведена схема
подключения телевизора-терминала через кабельный модем). Предстоит написать огромное
число различных сервисных программ, но все базовые технологии уже существуют.

MPEG-3 разрабатывался для систем телевидения высокой четкости с разрешением


1920×1080×30 при скорости потока данных 20-40 Мбит/с. Этот формат стал частью
стандарта MPEG-2. Формат MP3 (не надо смешивать с MPEG-3) предназначен только для
сжатия аудиоинформации. В формате МР3 предусмотрено три вида сжатия двухканальных
аудио данных join stereo, stereo, dual channel (последний обеспечивает наилучшее качество).

Принципиально новым шагом в обработке мультимедиа стал стандарт MPEG-4, где впервые
был введен объектный подход к анализу изображений и звука. Здесь же введено понятие
сцены и базовые принципы ее описания, заложены основы интерактивного взаимодействия
слушателя/зрителя со сценой, впервые рассматриваются в практической плоскости вопросы
интеллектуальной собственности.

Современные серверы, используемые для обработки и генерации видео-материала,


формируют до 1 Тбайта в минуту.

2.5.1 Стандарт MPEG-4


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Какое счастье, что вокруг


Живут привольно и просторно
  Слова и запах, цвет и звук,
Фактура, линия и форма
  И. Губерман

Особенности стандарта MPEG-4


Кодированное представление медийных объектов
Состав медийных объектов
Описание и синхронизация потоков данных для медийных объектов
Доставка потоков данных
Взаимодействие с медийными объектами
Менеджмент и идентификация интеллектуальной собственности
Основные функции в MPEG-4 версия 1
Аудио-система
Видео-система
Анимация лица
Кодирование 2-D сеток с нечетко выраженной структурой
Анимация тела
Звук
DMIF
Профайлы в MPEG-4
Визуальные профайлы
Промышленный форум MPEG-4
Детальное техническое описание MPEG-4 DMIF и систем
Детальное техническое описание визуальной секции MPEG-4
Подробное техническое описание MPEG-4 аудио
Приложение. Словарь и сокращения

MPEG-4 является стандартом ISO/IEC разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал такие известные стандарты как MPEG-1 и MPEG-2. Эти
стандарты сделали возможным интерактивное видео на CD-ROM и цифровое телевидение.
MPEG-4 является результатом работы сотен исследователей и разработчиков всего мира.
Разработка MPEG-4 (в ISO/IEC нотации имеет название ISO/IEC 14496) завершена в октябре
1998. Международным стандартом он стал в начале 1999. Полностью совместимый
расширенный вариант MPEG-4 версия 2 был разработан к концу 1999 и стал международным
стандартом в начале 2000. Работы над этим документом продолжаются (см.
http://sound.media.mit.edu/mpeg4/SA-FDIS.pdf). MPEG-4 предназначен для решения трех
проблем:

 Цифровое телевидение;
 Интерактивные графические приложения (synthetic content);
 Интерактивное мультимедиа World Wide Web.

Стандарт можно купить в ISO, связь через e-mail:sales@iso.ch. Программное обеспечение


MPEG-4 может быть получено через сеть по адресу: www.iso.ch/ittf. Эти программы
бесплатны, но это не означает, что они не защищены патентами. Смотри также
http://mpeg.telecomitalialab.com/standards/mpeg-4/mpeg-4.htm.
1. Особенности стандарта MPEG-4
Стандарт MPEG-4 предоставляет технологии для нужд разработчиков, сервис-провайдеров и
конечных пользователей.

 Для разработчиков, MPEG-4 позволяет создавать объекты, которые обладают


большей адаптивностью и гибкостью, чем это возможно сейчас с использованием
разнообразных технологий, таких как цифровое телевидение, анимационная графика
WWW и их расширения. Новый стандарт делает возможным лучше управлять
содержимым и защищать авторские права.
 Для сетевых провайдеров MPEG-4 предлагает прозрачность данных, которые могут
интерпретироваться и преобразовываться приемлемые сигнальные сообщения для
любой сети посредством стандартных процедур. MPEG-4 предлагает индивидуальные
QoS-дескрипторы (Quality of Service) для различных сред MPEG-4. Точное
преобразование параметров QoS для каждой из сред в сетевые значения QoS
находится за пределами регламентаций MPEG-4 (оставлено на усмотрение сетевых
провайдеров). Передача QoS-дескрипторов MPEG-4 по схеме точка-точка
оптимизирует транспортировку данных в гетерогенных средах.
 Для конечных пользователей, MPEG-4 предлагает более высокий уровень
взаимодействия с содержимым объектов. Стандарт транспортировать мультимедиа
данные через новые сети, включая те, которые имеют низкую пропускную
способностью, например, мобильные. Описания приложений MPEG-4 можно найти
на странице http://www.cselt.it/mpeg.

Стандарт MPEG-4 определяет следующее:

1. Представляет блоки звуковой, визуальной и аудиовизуальной информации,


называемые "медийными объектами". Эти медийные объекты могут быть
естественного или искусственного происхождения; это означает, что они могут быть
записаны с помощью камеры или микрофона, а могут быть и сформированы
посредством ЭВМ;
2. Описывает композицию этих объектов при создании составных медийных объектов,
которые образуют аудиовизуальные сцены;
3. Мультиплексирование и синхронизацию данных, ассоциированных с медийными
объектами, так чтобы они могли быть переданы через сетевые каналы, обеспечивая
QoS, приемлемое для природы специфических медийных объектов; и
4. Взаимодействие с аудиовизуальной сценой, сформированной на принимающей
стороне.

1.1. Кодированное представление медийных


объектов
Аудиовизуальные сцены MPEG-4 формируются из нескольких медийных объектов,
организованных иерархически. На периферии иерархии находятся примитивные медийные
объекты, такие как:

 статические изображения (например, Фон изображения),


 видео-объекты (например, говорящее лицо - без фона)
 аудио-объекты (например, голос данного лица);
 и т.д.
MPEG-4 стандартизует число таких примитивных медиа-объектов, способных представлять
как естественные, так и синтетические типы содержимого, которые могут быть 2- или 3-
мерными. Кроме медиа-объектов, упомянутых выше и показанных на рис. 1, MPEG-4
определяет кодовое представление объектов, такое как:

 текст и графика;
 говорящие синтезированные головы и ассоциированный текст, использованный для
синтеза речи и анимации головы;
 синтезированный звук

Медиа-объекты в его кодированной форме состоит из описательных элементов, которые


позволяют обрабатывать его в аудио-визуальной сцене, а также, если необходимо,
ассоциированный с ним поток данных. Важно заметить, что кодированная форма, каждого
медиа-объекта может быть представлена независимо от его окружения или фона.

Кодовое представление медиа-объектов максимально эффективно с точки зрения получения


необходимой функциональности. Примерами такой функциональности являются разумная
обработка ошибок, легкое извлечение и редактирование объектов и представление объектов
в масштабируемой форме.

1.2. Состав медийных объектов


На рис. 1 объясняется способ описание аудио-визуальных сцен в MPEG-4, состоящих из
отдельных объектов. Рисунок содержит составные медиа-объекты, которые объединяют
примитивные медиа-объекты. Примитивные медиа-объекты соответствуют периферии
описательного дерева, в то время как составные медиа-объекты представляют собой суб-
деревья. В качестве примера: визуальные объекты, соответствующие говорящему человеку,
и его голос объединены друг с другом, образуя новый составной медиа-объект.

Такое группирование позволяет разработчикам создавать комплексные сцены, а


пользователям манипулировать отдельными или группами таких объектов.

MPEG-4 предлагает стандартизованный путь описания сцен, позволяющий:

 помещать медиа-объекты, где угодно в заданной координатной системе;


 применять преобразования для изменения геометрического или акустического вида
медиа-объекта;
 группировать примитивные медиа-объекты для того чтобы образовать составные
медиа-объекты;
 использовать потоки данных, чтобы видоизменять атрибуты медиа-объектов
(например, звук, движущуюся текстуру, принадлежащую объекту; параметры
анимации, управляющие синтетическим лицом);
 изменять, интерактивно, точку присутствия пользователя на сцене (его точку
наблюдения и прослушивания).

Описание сцены строится во многих отношениях также как и в языке моделирования


виртуальной реальности VRML (Virtual Reality Modeling language).
Рис. 1. Пример сцены MPEG-4

1.3. Описание и синхронизация потоков


данных для медийных объектов
Медиа-объектам может быть нужен поток данных, который преобразуется в один или
несколько элементарных потоков. Дескриптор объекта идентифицирует все потоки
ассоциированные с медиа-объектом. Это позволяет иерархически обрабатывать
кодированные данные, а также ассоциированную медиа-информацию о содержимом
(называемом “информация содержимого объекта”).

Каждый поток характеризуется набором дескрипторов для конфигурирования информации,


например, чтобы определить необходимые ресурсы записывающего устройства и точность
кодированной временной информации. Более тог, дескрипторы могут содержать подсказки
относительно QoS, которое необходимо для передачи (например, максимальное число бит/с,
BER, приоритет и т.д.)

Синхронизация элементарных потоков осуществляется за счет временных меток блоков


данных в пределах элементарных потоков. Уровень синхронизации управляет
идентификацией таких блоков данных (модулей доступа) и работой с временными метками.
Независимо от типа среды, этот слой позволяет идентифицировать тип модуля доступа
(например, видео или аудио кадры, команды описания сцены) в элементарных потоках,
восстанавливать временную базу медиа-объекта или описания сцены, и осуществлять их
синхронизацию. Синтаксис этого слоя является конфигурируемым самыми разными
способами, обеспечивая работу с широким спектром систем.

1.4. Доставка потоков данных


Синхронизованная доставка потока данных отправителя получателю, использующая
различные QoS, доступные в сети, специфицирована в терминах слоя синхронизации и
доставки, которые содержат двухслойный мультиплексор (см. рис. 2).
Первый слой мультиплексирования управляется согласно спецификации DMIF (Delivery
Multimedia Integration Framework). Это мультиплексирование может быть реализовано
определенным в MPEG мультиплексором FlexMux, который позволяет группировать
элементарные потоки ES (Elementary Streams) с низкой избыточностью.
Мультиплексирование на этом уровне может использоваться, например, для группирования
ES с подобными требованиями по QoS, чтобы уменьшить число сетевых соединений или
значения задержек.

Слой "TransMux" (Transport Multiplexing) на рис. 2 моделирует уровень, который предлагает


транспортные услуги, удовлетворяющие требованиям QoS. MPEG-4 специфицирует только
интерфейс этого слоя, в то время как остальные требования к пакетам данных будут
определяться транспортным протоколом. Любой существующий стек транспортных
протоколов, например, (RTP)/UDP/IP, (AAL5)/ATM, или MPEG-2 Transport Stream поверх
подходящего канального уровня может стать частным случаем TransMux. Выбор оставлен за
конечным пользователем или серис-провайдером, и позволяет использовать MPEG-4 с
широким спектром операционного окружения.

Рис. 2. Модель системного слоя MPEG-4

Использование мультиплексора FlexMux является опционным и, как показано на рис. 2, этот


слой может быть пустым, если нижележащий TransMux предоставляет все необходимые
функции. Слой синхронизации, однако, присутствует всегда. С учетом этого возможно:

 идентифицировать модули доступа, транспортные временные метки и эталонную


временную информацию, а также регистрировать потерю данных.
 опционно выкладывать данные от различных элементарных потоков в потоки
FlexMux
 передавать управляющую информацию:
 индицировать необходимый уровень QoS для каждого элементарного потока и потока
FlexMux;
 транслировать данные требования QoS в действительные сетевые ресурсы;
 ассоциировать элементарные потоки с медиа-объектами
 передавать привязку элементарных потоков к FlexMux и TransMux каналам

1.5. Взаимодействие с медийными


объектами
Пользователь видит сцену, которая сформирована согласно дизайну разработчика. В
зависимости от степени свободы, предоставленной разработчиком, пользователь имеет
возможность взаимодействовать со сценой. Пользователю могут быть разрешены следующие
операции:

 изменить точку наблюдения/слушания на сцене;


 перемещать объекты по сцене;
 вызывать последовательность событий путем нажатия кнопки мыши на определенных
объектах, например, запуская или останавливая поток данных;
 выбирать предпочтительный язык, когда такой выбор возможен;

1.6. Менеджмент и идентификация


интеллектуальной собственности
Важно иметь возможность идентифицировать интеллектуальную собственность в MPEG-4
медиа-объектах. Полный перечень требований для идентификации интеллектуальной
собственности можно найти на базовой странице MPEG в разделе ‘Management and Protection
of Intellectual Property’.

MPEG-4 включает в себя идентификацию интеллектуальной собственности путем


запоминания уникальных идентификаторов, которые выданы международными системами
нумерации (например ISAN, ISRC, и т.д. [ISAN: International Audio-Visual Number, ISRC:
International Standard Recording Code]). Эти числа могут использоваться для идентификации
текущего владельца прав медиа-объекта. Так как не все содержимое идентифицируется этим
числом, MPEG-4 версия 1 предлагает возможность идентификации интеллектуальной
собственности с помощью пары ключевых значений (например:”композитор“/”John Smith“).
Кроме того, MPEG-4 предлагает стандартизованный интерфейс, который тесно интегрирован
с системным слоем для людей, которые хотят использовать системы, контролирующие
доступ к интеллектуальной собственности. С этим интерфейсом системы контроля прав
собственности могут легко интегрироваться со стандартизованной частью декодера.

2. Основные функции в MPEG-4 версия 1


2.1. DMIF
DMIF поддерживает следующие функции:

 Прозрачный интерфейс MPEG-4 DMIF-приложения независящий оттого, является ли


партнер удаленным интерактивным или локальной запоминающей средой.
 Контроль установления каналов FlexMux
 Использование однородных сетей между интерактивными партнерами: IP, ATM,
мобильные, PSTN, узкополосные ISDN.

2.2. Системы
Как объяснено выше, MPEG-4 определяет набор алгоритмов улучшенного сжатия для аудио
и видео данных. Потоки данных (Elementary Streams, ES), которые являются результатом
процесса кодирования, могут быть переданы или запомнены независимо. Они должны быть
объединены так, чтобы на принимающей стороне возникла реальная мультимедийная
презентация.

Системные части MPEG-4 обращаются к описаниям взаимодействий между аудио и видео


компонентами, которые образуют сцену. Эти взаимодействия описаны на двух уровнях.

 Двоичный формат для сцен BIFS (Binary Format for Scenes) описывает
пространственно-временные отношения объектов на сцене. Зрители могут иметь
возможность взаимодействия с объектами, например, перемещая их на сцене или
изменяя свое положение точки наблюдения в 3D виртуальной среде. Описание сцены
предоставляет широкий набор узлов для композиционных 2-D и 3-D операторов и
графических примитивов.
 На нижнем уровне, Дескрипторы объектов OD (Object Descriptors) определяют
отношения между элементарными потоками, имеющими отношение к конкретному
объекту (например, аудио- и видео-потоки участников видеоконференции). OD
предоставляют также дополнительную информацию, такую как URL, необходимые
для доступа к элементарным потокам, характеристики декодеров, нужных для их
обработки, идентификация владельца авторских прав и пр.

Некоторые другие особенности работы системы MPEG-4:

 Интерактивно, включая: взаимодействие клиент-сервер; общая модель событий или


отслеживание действий пользователя; общая обработка событий и отслеживание
взаимодействий объектов на сцене пользователем или с помощью событий,
генерируемых на сцене.
 Средство объединения большого числа потоков в один общий поток, включая
временную информацию (мультиплексор FlexMux).
 Средство для запоминания данных MPEG-4 в файле (файловый формат MPEG-4,
‘MP4’)
 Интерфейсы для различных терминалов и сетей в виде Java API (MPEG-J)
 Независимость транспортного уровня.
 Текстовые презентации с международной лингвистической поддержкой, выбор
шрифта и стиля, согласование времени и синхронизация.
 Инициализация и непрерывное управление буферами приемных терминалов.

Идентификация временной привязки, синхронизация и механизмы восстановления.

 Наборы данных, включающие идентификацию прав интеллектуальной собственности


по отношению к медиа-объектам.

2.3. Аудио-система
MPEG-4 аудио предлагает широкий перечень приложений, которые покрывают область от
понятной речи до высококачественного многоканального аудио, и от естественных до
синтетических звуков. В частности, он поддерживает высокоэффективную презентацию
аудио объектов, состоящих из:

 Речь: Кодирование речи может производиться при скоростях обмена от 2 кбит/с до 24


кбит/с. Низкие скорости передачи, такие как 1.2 кбит/с, также возможны, когда
разрешена переменная скорость кодирования. Для коммуникационных приложений
возможны малые задержки. Когда используются средства HVXC (Harmonic Vector
Excitation Coding), скорость и высота тона могут модифицироваться пользователем
при воспроизведении. Если используются средства CELP (Code Excited Linear
Predicted), изменение скорости воспроизведения может быть реализовано с помощью
дополнительного средства.
 Синтезированная речь: TTS-кодировщики (TeleTipeSetter) с масштабируемой
скоростью в диапазоне от 200 бит/с до 1.2 кбит/с которые позволяют использовать
текст или текст с интонационными параметрами (вариация тона, длительность
фонемы, и т.д.), в качестве входных данных для генерации синтетической речи. Это
включает следующие функции.
 Синтез речи с использованием интонации оригинальной речи
 Управление синхронизацией губ и фонемной информации.
 Трюковые возможности: пауза, возобновление, переход вперед/назад.
 Международный язык и поддержка диалектов для текста (т.е. можно сигнализировать
в двоичном потоке, какой язык и диалект следует использовать)
 Поддержка интернациональных символов для фонем.
 Поддержка спецификации возраста, пола, темпа речи говорящего.
 Поддержка передачи меток анимационных параметров лица FAP (Facial animation
parameter).
 Общие аудио сигналы. Поддержка общей кодировки аудио потоков от низких
скоростей до высококачественных. Рабочий диапазон начинается от 6 кбит/с при
полосе ниже 4 кГц и распространяется до широковещательного качества передачи
звукового сигнала для моно и многоканальных приложений.
 Синтезированный звук: Поддержка синтезированного звука осуществляется
декодером структурированного звука (Structured Audio Decoder), который позволяет
использовать управление музыкальными инструментами с привлечением
специального языка описания.
 Синтетический звук с ограниченной сложностью: Реализуется структурируемым
аудио декодером, который позволяет работать со стандартными волновыми
форматами.

Примерами дополнительной функциональности является возможность управления


скоростью обмена и масштабируемость в отношении потоков данных, полосы пропускания,
вероятности ошибок, сложности, и т.д. как это определено ниже.

 Возможность работы при изменении скорости передачи допускает изменение


временного масштаба без изменения шага при выполнении процесса декодирования.
Это может быть, например, использовано для реализации функции "быстро вперед"
(поиск в базе данных) или для адаптации длины аудио-последовательности до
заданного значения, и т.д.
 Функция изменения шага позволяет варьировать шаг без изменения временного
масштаба в процессе кодирования или декодирования. Это может быть использовано,
например, для изменения голоса или для приложений типа караоке. Эта техника
используется в методиках параметрического и структурированного кодирования
звука.
 Изменение скорости передачи допускает анализ потока данных с разбивкой на
субпотоки меньшей скорости, которые могут быть декодированы в осмысленный
сигнал. Анализ потока данных может осуществляться при передаче или в декодере.
 Масштабируемость полосы пропускания является частным случаем
масштабируемости скорости передачи данных, когда часть потока данных,
представляющая часть частотного спектра может быть отброшена при передаче или
декодировании.
 Масштабируемость сложности кодировщика позволяет кодировщикам различной
сложности генерировать корректные и осмысленные потоки данных.
 Масштабируемость сложности декодера позволяет заданную скорость потока
данных дешифровать посредством декодеров с различным уровнем сложности.
Качество звука, вообще говоря, связано со сложностью используемого кодировщика и
декодера.
 Аудио эффекты предоставляют возможность обрабатывать декодированные аудио
сигналы с полной точностью таймирования с целью достижения эффектов смешения,
реверберации, создания объемного звучания, и т.д.

2.4. Видео-система
Стандарт MPEG-4 Видео допускает гибридное кодирование естественных (пиксельных)
изображений и видео вместе с синтезированными сценами (генерированными на ЭВМ). Это,
например, допускает виртуальное присутствие участников видеоконференций. Видео
стандарт содержит в себе средства и алгоритмы, поддерживающие кодирование
естественных (пиксельных) статических изображений и видео последовательностей, а также
средства поддержки сжатия искусственных 2-D и 3-D графических геометрических
параметров.

2.4.1. Поддерживаемые форматы


Следующие форматы и скорости передачи будут поддерживаться MPEG-4 версия 1:

• Скорости передачи: обычно между 5 кбит/с и 10 Mбит/с


• Форматы: progressive а также interlaced видео
• Разрешение: обычно от sub-QCIF вплоть до HDTV

2.4.2. Эффективность сжатия


 Эффективное сжатие видео будет поддерживаться для всех скоростей обмена. Сюда
входит компактное кодирование текстур с качеством, регулируемым от уровня
“приемлемо” (для высоких сжатий данных) вплоть до “практически без потерь”.
 Эффективное сжатие текстур для 2-D и 3-D сеток.
 Произвольный доступ к видео, обеспечивающий такие функции как пауза, быстрый
переход вперед или назад для записанного видео.

2.4.3. Функции, зависящие от содержимого (Content-Based)


 Кодирование, учитывающее содержимое изображения и видео, позволяет разделить
кодовое преобразование и реконструкцию видео-объектов произвольной формы.
 Произвольный доступ к содержимому видео последовательности открывает
возможность реализации функций пауза, быстрый переход вперед или назад для
записанного видео-объектов.
 Расширенное манипулирование видео последовательностями позволяет наложения
естественный или синтетический текст, текстуры, изображения и видео. Примером
может служить наложение текста на движущийся видео объект, когда текст движется
синфазно с объектом.

2.4.4. Масштабируемость текстур изображений и видео


 Масштабируемость сложности в кодировщике позволяет кодировщикам различной
сложности генерировать корректный и осмысленный поток данных для данной
текстуры, изображения или видео.
 Масштабируемость сложности в декодере позволяет декодировать потоки текстур,
изображений или виде декодерами различного уровня сложности. Достигаемое
качество, вообще говоря, зависит от сложности используемого декодера. Это может
подразумевать, что простые декодеры обрабатывают лишь часть информационного
потока.
 Пространственная масштабируемость позволяет декодерам обрабатывать
некоторую часть общего потока, сформированного кодировщиком, при
реконструкции и отображении текстур, изображений или видео-объектов при
пониженном пространственном разрешении. Для текстур и статических изображений
будет поддерживаться не более 11 уровней масштабируемости. Для видео
последовательностей поддерживается не более трех уровней.
 Временная масштабируемость позволяет декодерам обрабатывать некоторую часть
общего потока, сформированного кодировщиком, при реконструкции и отображении
видео при пониженном временном разрешении. Поддерживается не более трех
уровней.
 Масштабируемость качества позволяет разбить поток данных на несколько
составляющих различной мощности так, чтобы комбинация этих составляющих могла
при декодировании давать осмысленный сигнал. Разложение потока данных на
составляющие может происходить при передаче или в декодере. Полученное
качество, вообще говоря, зависит от числа компонент, используемых при
реконструкции.

2.4.5. Кодирование формы и Alpha-представление


 Кодирование формы будет поддерживаться, чтобы помочь описанию и композиции
изображений и видео, а также видео-объектов произвольной формы. Приложения,
которые используют двоичные побитовые карты изображения, служат для
презентаций баз данных изображений, интерактивных игр, наблюдения, и анимации.
Предлагаются эффективные методы кодирования двоичных форм. Двоичная альфа-
маска определяет, принадлежит или нет пиксель объекту. Она может быть включена
(‘on’) или выключена (‘off’).
 ‘Серая шкала’ или ‘alpha’ кодирование формы

Alpha-плоскость определяет прозрачность объекта, которая не обязательно является


однородной. Многоуровневые alpha-карты часто используются для затенения различных
слоев последовательности изображений. Другими приложениями, которые используют при
работе с изображениями ассоциированные двоичные alpha-маски, являются презентации баз
данных изображений, интерактивные игры, наблюдения, и анимация. Предлагаются
методики, которые позволяют эффективно кодировать двоичные и альфа-плоскости с серой
шкалой изображения. Двоичная альфа-маска определяет, принадлежит ли пиксель данному
объекту. Маска с серой шкалой предоставляет возможность точно определить прозрачность
каждого пикселя.

2.4.6. Надежность в средах, подверженных ошибкам


Устойчивость к ошибкам будет поддерживаться, чтобы обеспечить доступ к изображениям
и видео через широкий спектр систем памяти и передающих сред. Это включает в себя
операции алгоритмов сжатия данных в среде, подверженной сбоям при низких скоростях
передачи (т.e., меньше чем 64 Кбит/с).

2.4.7. Анимация лица


Часть стандарта, связанная с ‘анимацией лица’, позволяет посылать параметры, которые
помогают специфицировать и анимировать синтезированные лица. Эти модели не являются
сами частью стандарта MPEG-4, стандартизированы только параметры.

 Определение и кодирование анимационных параметров лица (модельно независимое):


 Позиции характерных деталей и их ориентация для определения сеток при анимации
лица.
 Визуальные конфигурации губ, соответствующие фонемам речи.
 Определение и кодирование параметров описания лица (для калибровки модели):
 3-D позиции характерных признаков (деталей)
 3-D калибровочные сетки для анимации головы.
 Текстурная карта лица.
 Персональные характеристики.
 Кодирование лицевой текстуры.

2.4.8. Кодирование 2-D сеток с нечетко выраженной


структурой
 Предсказание, базирующееся на сетке, и трансфигурация анимационных текстур
 2-D-формализм с регулярной сеткой и отслеживанием перемещения анимированных
объектов
 Предсказание перемещения и отложенная передача текстуры с динамическими
сетками.
 Геометрическое сжатие для векторов перемещения:
 2-D сжатие сетки с неявной структурой и реконструкция в декодере.

3. Главные функции в MPEG-4 версия 2


Версия 2 была зафиксирована в декабре 1999. Существующие средства и профайлы из
версии 1 в версии 2 не заменены; новые возможности будут добавлены в MPEG-4 в форме
новых профайлов. Системный слой версии 2 обладает обратной совместимостью с версией 1.

3.1. Системы
Версия 2 систем MPEG-4 расширяет версию 1, с тем, чтобы перекрыть такие области, как
BIFS-функциональность и поддержка Java (MPEG-J). Версия 2 также специфицирует
формат файлов для записи содержимого MPEG-4.

3.2. Видео-системы
3.2.1. Натуральное видео
Видео MPEG-4 версия 2 добавляет новые возможности в следующих областях:

 увеличенная гибкость объектно-ориентированного масштабируемого кодирования,


 улучшенная эффективность кодирования,
 улучшенная стабильность временного разрешения при низкой задержке буферизации,
 улучшенная устойчивость к ошибкам,
 кодирование нескольких изображений: промежуточные или стереоскопические
изображения будут поддерживаться на основе эффективного кодирования нескольких
изображений или видео последовательностей. Частным примером может служить
кодирование стереоскопического изображения или видео путем сокращения
избыточности информации за счет малого различия изображений в стереопаре.

3.2.2. Анимация тела


В версии 2 к анимации лица, существовавшей в версии 1, добавлена анимация тела.

3.2.3. Кодирование 3-D полигональных сеток


Версия 2 MPEG-4 предоставляет набор средств для кодирования многогранных 3-D сеток.
Многогранные сетки широко используются для представления 3-D объектов.

3.3. Звук
MPEG-4 Аудио версия 2 является расширением MPEG-4 Аудио версия 1. В новой версии
добавлены новые средства и функции, все прежние возможности и функции сохранены.
Версия 2 MPEG-4 Аудио предоставляет следующие возможности:

 Улучшенная устойчивость к ошибкам


 Кодирование аудио, которое сочетает в себе высокое качество и малые задержки
 Масштабируемость зерна изображения (масштабируемость разрешения вплоть до 1
кбит/с на канал)
 Параметрическое аудио-кодирование для манипулирования звуком при низких
скоростях.
 Сжатие пауз в разговоре (CELP) для дальнейшего понижения потока данных при
кодировании голоса.
 Параметрическое кодирование речи, устойчивое к ошибкам.
 Пространственная ориентация - возможность реконструировать звуковое окружение,
используя метод моделирования.
 Обратный канал, который полезен для настройки кодирования или масштабируемого
воспроизведения в реальном времени.
 Низкая избыточность транспортного механизма MPEG-4 для звука

3.4. DMIF
Основные средства, вводимые DMIF версия 2 предоставляют поддержку (ограниченную)
мобильных сетей и мониторирования QoS.

3.4.1. Поддержка мобильных сетей


Спецификация H.245 была расширена (H.245v6), чтобы добавить поддержку систем MPEG-
4; спецификация DMIF предоставляет возможность работу с сигналами H.245. Мобильные
терминалы могут теперь использоваться системами MPEG-4, такими как BIFS и OD-потоки.

3.4.2. Мониторирование QoS


DMIF V.2 вводит концепцию мониторирования качества обслуживания (QoS). Реализуемого
в сети. Интерфейс DMIF-приложения был соответственно расширен. Модель допускает до
трех различных режимов мониторирования QoS: непрерывное мониторирование, контроль
специфических очередей, и наблюдение за нарушениями QoS

3.4.3. Пользовательские команды с ACK


Модель DMIF позволяет приложениям партнеров обмениваться любыми сообщениями
пользователей (поток управляющих сообщений). В DMIF V2 добавлена поддержка
сообщений-откликов.

3.4.4. Управление информацией уровня Sync MPEG-4


V.2 улучшает модель DMIF, чтобы позволить приложениям обмениваться прикладными
данными со слоем DMIF. Это добавление было введено, чтобы сделать возможным в
пределах модели обмен блоками протокольных данных уровня Sync. Это комбинация чисто
медийных данных (PDU) и логической информации уровня Sync. Модель подтверждает, что
в пределах существующего транспортного стека существуют средства, которые
перекрываются с Sync-слоем систем MPEG-4. Это случай RTP и MPEG-2 элементарных
потоков пакетов PES (Packetized Elementary Steams), а также MP4-атомов в файловом
формате. Во всех таких случаях очевидной реализацией DMIF является преобразование
информации уровня Sync, извлеченной из этих структур, а также из SL-PDU, в однородное
логическое представление заголовка пакета уровня Sync. Как следствие, введены
соответствующие параметры для DAI, с учетом обеспечения их семантической
независимости от транспортного стека и приложения.

3.4.5. DAI-синтаксис на языке СИ


DMIF V.2 вводит информативное дополнение, который предоставляет синтаксис C/C++ для
прикладного интерфейса DMIF, как это рекомендуется API-синтаксисом.

4. Расширения MPEG-4 за пределы версии


2
MPEG в настоящее время работает с номером расширения версии 2, в визуальной и
системной областях. Никаких работ по расширению MPEG-4 DMIF или Аудио за пределы
версии 2 не проводились.

4.1. Визуальная область системы


В визуальной области подготавливается добавление следующих методик:

 Масштабируемость пространственного разрешения (Fine Grain) находится на фазе


голосования, с предложенными ‘Профайлами поточного видео’ (‘Advanced Simple’ и
‘Fine Grain Scalability’). Масштабируемость пространственного разрешения
представляет собой средство, которое допускает небольшие изменения качества
путем добавления или удаления слоев дополнительной информации. Это полезно во
многих ситуациях, особенно для организации потоков, но также и для динамического
(‘статического’) мультиплексирования предварительно закодированных данных в
широковещательной среде.
 Средства для использования MPEG-4 в студии. Для этих целей были приняты меры
для сохранения некоторой формы совместимости с профайлами MPEG-2. В
настоящее время, простой студийный профайл находится на фазе голосования (Simple
Studio Profile), это профайл с кодированием только I-кадра при высоких скоростях
передачи данных (несколько сот Мбит/с), который использует кодирование формы
(shape coding). Ожидается добавление профайла ядра студии (Core Studio Profile) (с I и
P кадрами).
 Изучаются цифровые камеры. Это приложение потребует кодирования без потерь и
not just the visually lossless that MPEG-4 has provided so far. A Preliminary Call for
Proposals was issued in October 2000.

4.2. Системы
4.2.1. Advanced BIFS
Продвинутый BIFS предоставляет дополнительные узлы, которые могут быть использованы
в графе сцены для мониторирования доступности и управляемости среды, такие как посылка
команд серверу, продвинутый контроль воспроизведения, и так называемый
EXTERNPROTO, узел, который обеспечивает дальнейшую совместимость с VRML, и
который позволяет написание макросов, определяющих поведение объектов. Предусмотрено
улучшенное сжатие данных BIFS, и в частности оптимальное сжатие для сеток и для
массивов данных.

4.2.2. Текстуальный формат


Расширяемый текстовой формат MPEG-4 XMT (Extensible Textual format) является базовым
для представления MPEG-4 описаний сцен, использующих текстовой синтаксис. XMT
позволяет авторам текста обмениваться его содержимым друг с другом. Консорциумом
Web3D разработаны средства обеспечения совместимости с расширяемым X3D (Extensible
3D), и интеграционным языком синхронизованного мультимедиа SMIL (Synchronized
Multimedia Integration Language) от консорциума W3C.

Формат XMT может быть изменен участниками SMIL, VRML, и MPEG-4. Формат может
быть разобран и воспроизведен непосредственно участником W3C SMIL, преобразован в
Web3D X3D и заново воспроизведен участником VRML, или компилирован в презентацию
MPEG-4, такую как mp4, которая может быть затем воспроизведена участником MPEG-4.
Ниже описано взаимодействие с XMT. Это описание содержит в себе MPEG-4, большую
часть SMIL, масштабируемую векторную графику (Scalable Vector Graphics), X3D, а также
текстуальное представление описания MPEG-7 (смотри http://www.cselt.it/mpeg, где имеется
документация на стандартe MPEG-7).

XMT содержит два уровня текстуального синтаксиса и семантики: формат XMT-A и формат
XMT-Ù.

XMT-A является версией MPEG-4, базирующейся на XML, содержащей субнабор X3D. В


XMT-A содержится также расширение MPEG-4 для X3D, что бы работать с некоторыми
специальными средствами MPEG-4. XMT-A предоставляет прямое соответствие между
текстовым и двоичным форматами.

XMT-Ù является абстракцией средств MPEG-4 высокого уровня, базирующейся на W3C


SMIL. XMT предоставляет по умолчанию соответствие Ù и A.
4.2.3. Улучшенная модель синхронизации
Продвинутая модель синхронизации (обычно называемая ‘FlexTime’) поддерживает
синхронизацию объектов различного происхождения с возможно разной временной шкалой.
Модель FlexTime специфицирует временную привязку, используя гибкую модель с
временными ограничениями. В этой модели, медиа-объекты могут быть связаны друг с
другом в временном графе с использованием таких ограничений как "CoStart", "CoEnd", или
"Meet". И, кроме того, для того чтобы обеспечить определенную гибкость и адаптацию к
этим ограничениям, каждый объект может иметь адаптируемую длительность с
определенными предпочтениями для растяжения и сжатия, которые могут быть применены.

Модель FlexTime базируется на так называемой метафоре "пружины". Пружина имеет три
ограничения: минимальная длина, менее которой она не сжимается, максимальная длина,
при которой она может оборваться, и оптимальная длина, при которой она остается ни
сжатой, ни растянутой. Следуя модели пружины, временные воспроизводимые медиа-
объекты могут рассматриваться как пружины, с набором длительностей воспроизведения,
соответствующих этим трем ограничениям пружины. Оптимальная длительность
воспроизведения (оптимальная длина пружины) может рассматриваться как
предпочтительный выбор автора для длительности воспроизведения медиа-объекта.
Участник, где возможно, поддерживает длительность воспроизведения настолько близко к
оптимальному значению, насколько позволяет презентация, но может выбрать любую
длительность между минимальной и максимальной, как это специфицировал автор. Заметим,
что поскольку растяжение или сжатие длительности в непрерывных средах, например, для
видео, подразумевает соответствующее замедление или ускорение воспроизведения, для
дискретных сред, таких как статическое изображение, сжатие или растяжение сопряжено в
основном с модификацией периода рэндеринга.

5. Профайлы в MPEG-4
MPEG-4 предоставляет большой и богатый набор средств для кодирования аудио-
визуальных объектов. Для того чтобы позволить эффективную реализацию стандарта,
специфицированы субнаборы систем MPEG-4, средств видео и аудио, которые могут
использоваться для специфических приложений. Эти субнаборы, называемые ‘профайлами’,
ограничивают набор средств, которые может применить декодер. Для каждого из этих
профайлов, устанавливается один или более уровней, ограничивающих вычислительную
сложность. Подход сходен с MPEG-2, где большинство общеизвестных комбинаций
профайл/уровень имеют вид ‘главный_профайл @главный_уровень’. Комбинация
профайл@уровень позволяет:

• конфигуратору кодека реализовать только необходимый ему субнабор стандарта,


• проверку того, согласуются ли приборы MPEG-4 со стандартом.

Существуют профайлы для различных типов медиа содержимого (аудио, видео, и графика) и
для описания сцен. MPEG не предписывает или рекомендует комбинации этих профайлов,
но заботится о том, чтобы обеспечить хорошее согласование между различными областями.

5.1. Визуальные профайлы


Визуальная часть стандарта предоставляет профайлы для кодирования естественного,
синтетического и гибридного типов изображений. Существует пять профайлов для
естественного видео-материала:
1. Простой визуальный профайл обеспечивает эффективное, устойчивое к ошибкам
кодирование прямоугольных видео объектов, подходящих для приложений
мобильных сетей, таких как PCS и IMT2000.
2. Простой масштабируемый визуальный профайл добавляет поддержку кодирования
временных и пространственных, масштабируемых объектов в простом визуальном
профайле. Он полезен для приложений, которые обеспечивают услуги на более чем
одном уровне качества, связанных с ограничениями скорости передачи данных или
ресурсами декодера, такими как использование Интернет и программное
декодирование.
3. Центральный визуальный профайл добавляет поддержку кодировки время-
масштабируемых объектов произвольной формы в простой визуальный профайл. Он
полезен для приложений, осуществляющих относительно простую интерактивность
(приложения Интернет мультимедиа).
4. Главный визуальный профайл добавляет поддержку кодирования черезстрочных,
полупрозрачных, и виртуальных объектов в центральном визуальном профайле. Он
полезен для интерактивного широковещательного обмена (с качеством для
развлечений) и для DVD-приложений.
5. N-битный визуальный профайл добавляет поддержку кодирования видео объектов,
имеющих пиксельную глубину в диапазоне от 4 до 12 бит в главный визуальный
профайл. Он удобен для использования в приложениях для наблюдения.

Профайлами для синтетических и синтетико-натуральных гибридных визуальных


материалов являются:

6. Простой визуальный профайл для анимации лица (Simple Facial Animation)


предоставляет простые средства анимации модели лица, удобные для таких
приложений как аудио/видео презентации лиц с ухудшенным слухом.
7. Визуальный масштабируемый профайл для текстур (Scalable Texture Visual)
предоставляет пространственное масштабируемое кодирование статических объектов
изображений (текстур), полезное для приложений, где нужны уровни
масштабируемости, такие как установление соответствия между текстурой и
объектами игр, а также работа с цифровыми фотокамерами высокого разрешения.
8. Визуальный профайл базовых анимированных 2-D текстур (Basic Animated 2-D
Texture) предоставляет пространственную масштабируемоcть, SNR-
масштабируемоcть, и анимацию, базирующуюся на сетках для статических объектов
изображений (текстур), а также простую анимацию объектов лица.
9. Гибридный визуальный профайл комбинирует возможность декодировать
масштабируемые объекты натурального видео произвольной формы (как в главном
визуальном профайле) с возможностью декодировать несколько синтетических и
гибридных объектов, включая анимационные статические объекты изображения. Он
удобен для различных сложных мультимедиа приложений.

Версия 2 добавляет следующие профайлы для натурального видео:

10. Профайл ARTS (Advanced Real-Time Simple) предоставляет продвинутый метод


кодирования прямоугольных видео объектов устойчивый к ошибкам, использующий
обратный канал и улучшенную стабильность временного разрешения при
минимальной задержке буферизации. Он удобен для кодирования в случае
приложений реального времени, таких как видеотелефон, телеконференции и
удаленное наблюдение.
11. Центральный масштабируемый профайл добавляет поддержку кодирования
объектов произвольной формы с пространственным и временным масштабированием
в центральный профайл. Главная особенность этого профайла является SNR, и
пространственная и временная масштабируемость для областей и объектов,
представляющих интерес. Он полезен для таких приложений как Интернет,
мобильные сети и широковещание.
12. Профайл ACE (Advanced Coding Efficiency) улучшает эффективность кодирования для
прямоугольных объектов и объектов произвольной формы. Он удобен для таких
приложений как мобильный широковещательный прием, и другие приложения, где
необходимо высокая эффективность кодирования.

Профайлы версии 2 для искусственного и синтетического/натурального гибридного


визуального материала:

13. Продвинутый масштабируемый профайл текстур поддерживает декодирование


текстур произвольной формы и статических изображений, включая масштабируемое
кодирование формы, мозаичное заполнение и противостояние ошибкам. Он полезен
для приложений, требующих быстрого произвольного доступа, а также нескольких
уровней масштабируемости и кодирования статических объектов произвольной
формы. Примерами таких приложений могут служить просмотр статических
изображений в Интернет, а также считывание через Интернет изображений,
полученных из цифровых фотоаппаратов с высоким разрешением.
14. Продвинутый центральный профайл комбинирует возможность декодирования видео
объектов произвольной формы (как в центральном визуальном профайле) с
возможностью декодирования масштабируемых статических объектов произвольной
формы (как в продвинутом масштабируемом профайле текстур.) Он удобен для
различных мультимедийных приложений, таких как интерактивная передача потоков
мультиимедиа через Интернет.
15. Профайл простой анимации лица и тела является супернабором профайла простой
анимации лица с добавлением анимации тела.

В последующих версиях будут добавлены следующие профайлы:

16. Продвинутый простой профайл выглядит как простой, здесь он содержит только
прямоугольные объекты, но он имеет несколько дополнительных средств, которые
делают его более эффективным: B-кадры, компенсация перемещения ¼ пикселя и
компенсация общего перемещения.
17. Масштабируемый профайл тонкой гранулярности допускает большое число
масштабных уровней - до 8 - так что качество доставки можно легко адаптировать к
условиям передачи и декодирования. Он может использоваться с простым или
продвинутым простым в качестве базового уровня.
18. Простой студийный профайл является профайлом с очень высоким качеством для
применения в приложениях студийного редактирования. Он работает только с I-
кадрами, но он действительно поддерживает произвольные формы и большое число
alpha-каналов. Возможная скорость передачи достигает 2 Гбит/c.
19. Центральный студийный профайл добавляет P-кадры к простому студийному
варианту (Simple Studio), делая его более эффективным, но требующим более сложной
реализации.

5.2. Аудио профайлы


Определены четыре аудио-профайла в MPEG-4 V.1:

1. Разговорный профайл предоставляет HVXC, который является параметрическим


кодером голоса, рассчитанным на очень низкие скорости передачи, CELP
узкополосным/широкополосным кодером голоса, или интерфейсом текст-голос.
2. Профайл синтеза предоставляет собой синтез, использующий SAOL, волновые
таблицы и интерфейс текст-голос для генерации звука и речи при очень низких
скоростях передачи.
3. Масштабируемый профайл, супер набор профайла речи, удобен для
масштабируемого кодирования речи и музыки для таких сетей, как Интернет и
NADIB (Narrow band Audio DIgital Broadcasting). Диапазон скоростей передачи лежит
в пределах от 6 кбит/с до 24 кбит/с, при ширине полосы 3.5 и 9 кГц.
4. Главный профайл является расширенным супер набором всех других профайлов,
содержащий средства для синтетического и естественного аудио.

Еще четыре профайла добавлено в MPEG-4 V.2:

1. Профайл высококачественного аудио содержит кодировщик голоса CELP и простой


кодировщик AAC, содержащий систему долгосрочного предсказания.
Масштабируемое кодирование может быть выполнено с помощью AAC
масштабируемого объектного типа. Опционно, может использоваться синтаксис
потока, устойчивый к ошибкам (ER).
2. Профайл аудио с низкой задержкой (Low Delay Audio) содержит HVXC и CELP
кодировщики голоса (опционно использующие синтаксис ER), AAC-кодеры с низкой
задержкой и интерфейс текст-голос TTSI.
3. Профайл натурального аудио содержит все средства кодирования натурального
аудио, доступные в MPEG-4.
4. Профайл межсетевого мобильного аудио (Mobile Audio Internetworking) содержит
AAC масштабируемые объектные типы с малой задержкой, включая TwinVQ и BSAC.
Этот профайл предназначен для расширения телекоммуникационных приложений за
счет алгоритмов не-MPEG кодирования речи с возможностями высококачественного
аудио кодирования.

5.3. Профайлы графики


Профайлы графики определяют, какие графические и текстовые элементы могут
использоваться в данной сцене. Эти профайлы определены в системной части стандарта:

1. Простой 2-D графический профайл предоставляется только для графических


элементов средства BIFS, которым необходимо разместить один или более
визуальных объектов в сцене.
2. Полный 2-D графический профайл предоставляет двухмерные графические функции
и supports такие возможности как произвольная двухмерная графика и текст, если
требуется, в сочетании с визуальными объектами.
3. Полный графический профайл предоставляет продвинутые графические элементы,
такие как сетки и экструзии и позволяет формировать содержимое со сложным
освещением. Полный графический профайл делает возможными такие приложения,
как сложные виртуальные миры, которые выглядят достаточно реально.
4. 3D аудио графический профайл имеет противоречивое на первый взгляд название, в
действительности это не так. Этот профайл не предлагает визуального рэндеринга, а
предоставляет графические средства для определения акустических свойств сцены
(геометрия, акустическое поглощение, диффузия, прозрачность материала). Этот
профайл используется для приложений, которые осуществляют пространственное
представление аудио сигналов в среде сцены.

5.4. Графические профайлы сцены


Графические профайлы сцены (или профайлы описания сцены), определенные в системной
части стандарта, допускают аудио-визуальные сцены только аудио, 2-мерным, 3-мерным или
смешанным 2-D/3-D содержимым.

1. Графический профайл аудио сцены предоставляется для набора графических


элементов сцены BIFS для применение исключительно в аудио приложениях.
Графический профайл аудио сцены поддерживает приложения типа
широковещательного аудио.
2. Графический профайл простой 2-D сцены предоставляется только для графических
элементов BIFS, которым необходимо разместить один или более аудио-визуальных
объектов на сцене. Графический профайл простой 2-D сцены допускает презентации
аудио-визуального материала, допускающий коррекцию, но без интерактивных
возможностей. Графический профайл простой 2-D сцены поддерживает приложения
типа широковещательного телевидения.
3. Графический профайл полной 2-D сцены предоставляется для всех элементов
описания 2-D сцены средства BIFS. Он поддерживает такие возможности, как 2-D
преобразования и alpha-сглаживание. Графический профайл полной 2-D сцены делает
возможными 2-D приложения, которые требуют широкой интерактивности.
4. Графический профайл полной сцены предоставляет полный набор графических
элементов сцены средства BIFS. Графический профайл полной 2-D сцены сделает
возможными приложения типа динамического виртуального 3-D мира и игр.
5. Графический профайл 3D аудио сцены предоставляет средства трехмерного
позиционирования звука в отношении с акустическими параметрами сцены или ее
атрибутами, характеризующими восприятие. Пользователь может взаимодействовать
со сценой путем изменения позиции источника звука, посредством изменения свойств
помещения или перемещая место слушателя. Этот профайл предназначен для
использования исключительно аудио-приложениями.

5.5. Профайлы MPEG-J


Существуют два профайла MPEG-J: персональный и главный:

1. Персональный - небольшой пакет для персональных приборов.

Персональный профайл обращается к ряду приборов, включая мобильные и портативные


аппараты. Примерами таких приборов могут быть видео телефоны, PDA, персональные
игровые устройства. Этот профайл включает в себя следующие пакеты MPEG-J API:

a) Сеть
b) Сцена
c) Ресурс

1. Главный - включает все MPEG-J API.

Главный профайл обращается к ряду приборов, включая средства развлечения. Примерами


таких приборов могут служить набор динамиков, компьютерные системы мультимедиа и т.д.
Он является супер набором персонального профайла. Помимо пакетов персонального
профайла, этот профайл содержит следующие пакеты MPEG-J API:
a) Декодер
b) Функции декодера
c) Секционный фильтр и сервисная информация

5.6. Профайл дескриптора объекта


Профайл описания объекта включает в себя следующие средства:

 Средство описания объекта (OD)


 Средство слоя Sync (SL)
 Средство информационного содержимого объекта (OCI)
 Средство управления и защиты интеллектуальной собственности (IPMP)

В настоящее время определен только один профайл, который включает все эти средства. В
контексте слоев для этого профайла могут быть определены некоторые ограничения,
например, допуск только одной временной шкалы.

6. Верификационное тестирование:
проверка работы MPEG
MPEG выполняет верификационные тесты для проверки того, предоставляет ли стандарт то,
что должно быть. Результаты испытаний можно найти на базовой странице MPEG:
http://www.cselt.it/mpeg/quality_tests.htm

6.1. Видео
6.1.1. Тесты эффективности кодирования
6.1.1.1. Низкие и средние скорости передачи бит (версия 1)
При испытаниях для низкой и средней скорости передачи, рассматривались
последовательности кадров, которые следуют стандарту MPEG-1. (MPEG-2 будет
идентичным для прогрессивных последовательностей за исключением того, что MPEG-1
немного более эффективен, так как имеет несколько меньшую избыточность заголовков).
Тест использует типовую тестовую последовательность для разрешений CIF и QCIF,
закодированный с идентичными условиями по скорости передачи для MPEG-1 и MPEG-4.
Тест был выполнен для низких скоростей от 40 кбит/с до 768 кбит/с.

Тесты эффективности кодирования показывают полное превосходство MPEG-4 перед


MPEG-1 как на низкой, так и на средней скорости передачи.

6.1.1.2. Кодирование, базирующееся на содержимом


(версия 1)
Верификационные тесты для кодирования, базирующегося на содержимом, сравнивают
визуальное качество кодирования object-based и frame-based. Главным соображением было
гарантировать, чтобы object-based кодирование можно было поддерживать без ухудшения
визуального качества. Содержимое теста было выбрано так, чтобы перекрыть широкий
спектр условий моделирования, включая видео сегменты с различными типами движения и
сложностью кодирования. Кроме того, условия теста были выбраны так, чтобы перекрыть
низкие скорости передачи в диапазоне от 256 кбит/с до 384 кбит/с, и высокие скорости
передачи в диапазоне от 512кбит/с до 1.15 Мбит/с. Результаты тестов ясно
продемонстрировали, что объектно-ориентированная функциональность, предоставляемая
MPEG-4, не имеет избыточности или потерь визуального качества, по сравнению с
кодированием frame-based. Не существует статистически значимого различия между
вариантами object-based и frame-based.

6.1.1.3. Профайл продвинутой эффективности


кодирования ACE (Advanced Coding Efficiency) (версия 2)
Формальные верификационные тесты профайла ACE (Advanced Coding Efficiency) были
выполнены с целью проверки, улучшают ли эффективность кодирования три новые средства
версии 2, включенные в визуальный ACE профайл MPEG-4 версии 2 (компенсация общего
перемещения, компенсация перемещения на четверть пикселя и адаптированное к форме
преобразование DCT), по сравнению с версией 1. Тесты исследуют поведение ACE профайла
и главного визуального профайла MPEG-4 версия 1 в режимах object-based и frame-based при
низкой скорости передачи, frame-based при высокой скорости передачи. Полученные
результаты показывают преимущество ACE профайла перед главным профайлом. Ниже
приведены некоторые детали сопоставления работы этих профайлов:

 Для объектно-ориентированного случая, качество, предоставляемое профайлом ACE


при 256 кбит/с равно качеству, обеспечиваемому главным профайлом при скорости
384 кбит/с.
 Для кадр-ориентированного случая, качество, предоставляемое профайлом ACE при
128 кбит/с и 256 кбит/с равно качеству, обеспечиваемому главным профайлом при
скорости 256 кбит/с и 384 кбит/с соответственно.
 Для кадр-ориентированного случая при высоких скоростях передачи, качество,
предоставляемое профайлом ACE при 768 кбит/с равно качеству, обеспечиваемому
главным профайлом при 1024 кбит/с.

При интерпретации этих результатов, нужно заметить, что главный профайл MPEG-4 более
эффективен, чем MPEG-1 и MPEG-2.

6.1.2. Тесты устойчивости к ошибкам


6.1.2.1. Простой профайл (версия 1)
Устойчивость видео к ошибкам в простом профайле MPEG-4 была оценена в ходе тестов,
которые симулируют видео MPEG-4, выполненных при скоростях между 32 кбит/с и 384
кбит/с. Испытания произведены при BER < 10-3, и средней длине блока ошибок около 10мс.
Тестовая методология базировалась на непрерывной оценке качества в течение 3 минут.

Результаты показывают, что в среднем качество видео, полученное для мобильного канала,
является высоким, что воздействие ошибок в видео MPEG-4 остается локальным, и что
качество быстро восстанавливается по завершении блока ошибок.

6.1.2.2. Простой продвинутый профайл реального времени


ARTS (Advanced Real-Time Simple) (версия 2)
Устойчивость видео к ошибкам в MPEG-4 профайле ARTS была оценена в ходе тестов,
аналогичных описанным выше, при скоростях между 32 кбит/с и 128 кбит/с. В этом случае,
остаточный уровень ошибок достигал 10-3, а средняя длительность блока ошибок была около
10 мс или 1 мс.

Результаты испытаний показывают превосходство профайла ARTS над простым профайлом


для всех параметров исследования. Профайл ARTS предпочтительнее простого по времени
восстановления после прохождения блока ошибок.

6.1.3. Тестирование стабильности временного разрешения


6.1.3.1. Простой продвинутый профайл реального времени
ARTS (Advanced Real-Time Simple) (версия 2)
В данном тесте исследовались характеристики видео кодека, использующего технику
преобразования с динамическим разрешением, которая адаптирует разрешение видео
материала к обстоятельствам в реальном времени. Материал активной сцены кодировался
при скоростях 64 кбит/с, 96 кбит/с и 128 кбит/с. Результаты показывают, что при 64 кбит/с,
он превосходит простой профайл, работающий при 96 кбит/с, а при 96 кбит/с, визуальное
качество эквивалентно полученному для простого профайла при 128 кбит/с.

6.1.4. Проверки масштабируемости


6.1.4.1. Простой масштабируемый профайл (версия 1)
Тест масштабируемости для простого масштабируемого профайла был создан для проверки
того, что качество, обеспечиваемое средством временной масштабируемости в простом,
масштабируемом профайле, сравненное с качеством, предоставляемым одноуровневым
кодированием в простом профайле, и с качеством, обеспечиваемым в простом профайле. В
этом тесте используются 5 последовательностей с 4 комбинациями скоростей передачи:

a) 24 кбит/с для базового слоя и 40 кбит/с для улучшенного слоя.


b) 32 кбит/с для обоих слоев.
c) 64 кбит/с для базового слоя и 64 кбит/с для улучшенного слоя.
d) 128 кбит/с для обоих слоев.

Формальные верификационные тесты показали, что при всех условиях, кодирование с


временной масштабируемостью в простом масштабируемом профайле демонстрирует то же
или несколько худшее качество, чем достижимое при использовании однослойного
кодирования в простом профайле. Далее, очевидно, что кодирование с временной
масштабируемостью в простом масштабируемом профайле обеспечивает лучшее качество,
чем симулкастное (одновременная передача по радио и телевидению или передача
несколькими потоками с разной скоростью) кодирование в простом профайле для тех же
условий.

6.1.4.2. Центральный профайл (core profile версия 1)


Верификационный тест был создан для оценки характеристик средств временной
масштабируемости MPEG-4 видео в центральном профайле (Core Profile).

Тестирование было выполнено с использованием метода "Single Stimulus". Тест создавался с


использованием 45 субъектов из двух различных лабораторий. Результаты испытаний
показывают, что качество последовательностей, закодированных с привлечением средств
временного масштабирования сопоставимы по качеству с вариантом без масштабирования.
Очевидно также, что средство временного масштабирования в центральном профайле
обеспечивает лучшее качество при равных условиях, чем симулкастное кодирование в
центральном профайле.

6.2. Звук
Аудио-технология MPEG-4 состоит из большого числа средств кодирования.
Верификационные тесты выполнялись в основном для небольшого набора средств
кодирования, которые имеет сходные области использования, чтобы их можно было
сравнивать. Так как сжатие является критическим параметром в MPEG, сравнение
производилось при сходных скоростях обмена.

Оценка Характеристика восприятия


5 Неощутимо
4 Ощутимо, но не раздражающе
3 Слегка раздражающе
2 Раздражающе
1 Весьма плохо

Первоначальной целью тестов является получение субъективного уровня качества средства


кодирования, работающего при заданной скорости обмена. Большинство аудио тестов
представляют результаты в виде субъективной шкалы оценки качества. Это непрерывная
шкала с максимальным значением 5 баллов, как это показано в табличке выше.

Работа различных средств кодирования MPEG-4 представлена в таблице ниже. Для лучшей
оценки свойств технологии MPEG-4 в тесты были включены несколько кодировщиков от
MPEG-2 и ITU-T и их оценка также включены в таблицу. Результаты из различных тестов не
следует сравнивать.

Общая скорость Типовое значение


Средство кодирования #каналов передачи субъективного
[кбит/c] качества

AAC 5 320 4.6

1995 обратно совместимый MPEG-


5 640 4.6
2 слой II

AAC 2 128 4.8

AAC 2 96 4.4

MPEG-2 слой II 2 192 4.3

MPEG-2 слой III 2 128 4.1

AAC 1 24 4.2
Масштабируемый: CELP база и
1 6 base, 18 enh. 3.7
улучшение AAC

Масштабируемый: Twin VQ база и


1 6 base, 18 enh. 3.6
улучшение AAC

AAC 1 18 3.2

G.723 1 6.3 2.8

Широкополосный CELP 1 18.2 2.3

BSAC 2 96 4.4

BSAC 2 80 3.7

BSAC 2 64 3.0

AAC - LD (однопроходная
1 64 4.4
задержка 20 мсек)

G.722 1 32 4.2

AAC - LD (однопроходная
1 32 3.4
задержка 30 мсек)

Узкополосный CELP 1 6 2.5

Twin VQ 1 6 1.8

HILN 1 16 2.8

HILN 1 6 1.8

При кодировании 5-канального материала при 64 кбит/с/канал (320 кбит/с) Продвинутое


кодирование аудио AAC (Advanced Audio Coding) главного профайла было оценено как
имеющее "неотличимое качество" (относительно оригинала) согласно определению EBU.
При кодировании 2- канального материала при 128 кбит/с как AAC главного профайла так и
AAC профайла низкой сложности были оценены как имеющие "неотличимое качество"
(относительно оригинала) согласно определению EBU.

Два масштабируемых кодировщика, CELP-база с улучшение AAC, и TwinVQ база с


улучшением AAC, работают лучше чем AAC "multicast", работающий при скорости передачи
уровня улучшения, но не так хороши как кодировщик AAC, работающий при полной
скорости передачи.

Широкополосное кодирующее средство CELP демонстрирует прекрасные характеристики


только для голоса.

Побитовое арифметическое кодирование (BSAC) предоставляет весьма малые шаги


масштабирования. На верху диапазона масштабирования это кодирование не имеет
штрафных балов по отношению к AAC, однако в нижней части диапазона оно уступает
односкоростной AAC.

Узкополосный CELP, TwinVQ и индивидуальные гармонические линии и шум (HILN) все


могут обеспечить очень высокое сжатие сигнала.
Средства противодействия ошибкам (ER) обеспечивают эквивалентно хорошую
устойчивость к ошибкам в широком диапазоне условий канальных ошибок, и делают это с
достаточно малой избыточностью по скорости передачи.

7. Промышленный форум MPEG-4


Промышленный форум MPEG-4 является бесприбыльной организацией, имеющей
следующую цель: дальнейшее принятие стандарта MPEG-4, путем установления MPEG-4
в качестве принятого и широко используемого стандарта среди разработчиков
приложений, сервис провайдеров, создателей материалов и конечных пользователей. Далее
следует не исчерпывающая выдержка из устава M4IF о планах работы:

 Целью M4IF будет: продвижение MPEG-4, предоставление информации об MPEG-4,


предоставление средств MPEG-4 или указание мест, где эти данные можно получить,
формирование единого представления об MPEG-4.
 Цели реализуются через открытое международное сотрудничество всех
заинтересованных участников.
 Деятельность M4IF не преследует целей получения финансовой прибыли.
 Любая корпорация и частная фирма, государственный орган или интернациональная
организация, поддерживающая цели M4IF может являться членом форума.
 Члены не обязаны внедрять или использовать специфические технологические
стандарты или рекомендации в качестве следствия своего членства в M4IF.
 Не существует каких-либо лицензионных требований, налагаемых членством в M4IF,
и M4IF не налагает лицензионных ограничений на использование технологии MPEG-
4.
 Начальный членский взнос равен 2,000 $ в год.

M4IF имеет свою WEB-страницу: http://www.m4if.org

Деятельность M4IF начинается там, где кончается активность MPEG. Сюда входят позиции,
с которыми MPEG не может иметь дело, например, из-за правил ISO, таких как патентная
чистота.

8. Детальное техническое описание MPEG-


4 DMIF и систем
Рис. 3 показывает как потоки, приходящие из сети (или запоминающего устройства), как
потоки TransMux, демультиплексируются в потоки FlexMux и передаются соответствующим
демультиплексорам FlexMux, которые извлекают элементарные потоки. Элементарные
потоки (ES) анализируются и передаются соответствующим декодерам. Декодирование
преобразует данные в AV объект и выполняет необходимые операции для реконструкции
исходного объекта AV, готового для рэндеринга на соответствующем аппарате. Аудио и
визуальные объекты представлены в их кодированной форме, которая описана в разделах 10
и 9 соответственно. Реконструированный объект AV делается доступным для слоя
композиции при рэндеринга сцены. Декодированные AVO, вместе с данными описания
сцены, используются для композиции сцены, как это описано автором. Пользователь может
расширить возможности, допущенные автором, взаимодействовать со сценой, которая
отображается.
Рис. 3. Главные компоненты терминала MPEG-4 (принимающая сторона)

8.1. DMIF
DMIF (Delivery Multimedia Integration Framework) является протоколом сессии для
управления мультимедийными потоками поверх общих средств доставки данных. В
принципе это имеет много общего с FTP. Единственное (существенное) отличие заключается
в том, что FTP предоставляет данные, DMIF предоставляет указатели, где получить данные
(streamed).

Когда работает FTP, первым действием, которое производит протокол, является


установление сессии с удаленным партнером. Далее, выбираются файлы, и FTP посылает
запрос об их передаче, партнер FTP пересылает файл через отдельное, сформированное для
этой цели соединение.

Аналогично, когда работает DMIF, первым действием, которое он выполняет, является


установление сессии с удаленным партнером. Позднее, выбираются потоки и DMIF посылает
запрос, передать их, партер DMIF в отклике пришлет указатель на соединение, где будут
проходить потоки, и затем также устанавливает соединение.

По сравнению с FTP, DMIF является системой и протоколом. Функциональность,


предоставляемая DMIF, определяется интерфейсом, называемым DAI (DMIF-Application
Interface), и реализуется через протокольные сообщения. Эти протокольные сообщения для
разных сетей могут отличаться.

При конструировании DMIF рассматривается и качество обслуживания (QoS), а DAI


позволяет пользователю DMIF специфицировать требования для нужного потока. Проверка
выполнения требований оставляется на усмотрение конкретной реализации DMIF.
Спецификация DMIF предоставляет советы, как решать такие задачи на новом типе сети,
таком, например, как Интернет.
Интерфейс DAI используется для доступа к широковещательному материалу и локальным
файлам, это означает, что определен один, универсальный интерфейс для доступа к
мультимедийному материалу для большого числа технологий доставки.

Как следствие, уместно заявить, что интегрирующая система DMIF покрывает три главные
технологии, интерактивную сетевую технику, широковещательную технологию и работу с
дисками; это показано на рис. 4 ниже.

Рис. 4. DMIF осуществляет интеграцию доставки для трех основных технологий

Архитектура DMIF такова, что приложения, которые для коммуникаций базируются на


DMIF, не должны быть чувствительны к нижележащему методу коммуникаций. Реализация
DMIF заботится о деталях технологии доставки, предоставляя простой интерфейс к
приложению.

На рис. 5 представлена указанная выше концепция. Приложение получает доступ к данным


через интерфейс приложения DMIF, вне зависимости от того, откуда получены данные: от
широковещательного источника, локальной памяти или от удаленного сервера. Во всех
сценариях локальное приложение только взаимодействует через универсальный интерфейс
(DAI). Различные варианты DMIF будут затем транслировать запросы локального
приложения в специфические сообщения, которые должны быть доставлены удаленному
приложению, учитывая особенности используемых технологий доставки. Аналогично,
данные, поступающие на терминал (из удаленного сервера, широковещательных сетей или
локальных файлов) доставляются локальному приложению через DAI.

Специализированные версии DMIF подключаются приложением апосредовано, чтобы


управлять различными специфическими технологиями доставки данных, это, однако
прозрачно для приложения, которое взаимодействует только с одним "DMIF фильтром".
Этот фильтр отвечает за управление конкретным примитивом DAI в нужный момент.

Концептуально, "настоящее" удаленное приложение доступное через сеть, например, через


IP или ATM, ничем не отличается от эмулируемого удаленного приложения, получающего
материал от широковещательного источника или с диска. В последнем случае, однако,
сообщения, которыми обмениваются партнеры, должны быть определены, чтобы обеспечить
совместимость (это сигнальные сообщения DMIF). В последнем случае, с другой стороны,
интерфейсы между двумя партнерами DMIF и эмулируемым удаленным приложением
являются внутренними по отношению реализации и не должны рассматриваться в этой
спецификации. Заметим, что для сценариев получения данных широковещательно и из
локальной памяти, рисунок показывает цепочку "Локальный DMIF", "Удаленный DMIF
(эмулированный)" и "Удаленное приложение (эмулированное)". Эта цепочка представляет
концептуальную модель и не должна отражаться в практической реализации (на рисунке она
представлена закрашенной областью).
Рис. 5. Архитектура коммуникаций DMIF

При рассмотрении сценариев с широковещанием и локальной памятью предполагается, что


эмулируемое удаленное приложение знает, как данные доставлены/запомнены. Это
подразумевает знание типа приложения, с которым осуществляется взаимодействие. В
случае MPEG-4, это в действительности предполагает знание идентификатора элементарного
потока, дескриптора первого объекта, названия услуги. Таким образом, в то время как
уровень DMIF концептуально не знает ничего о приложении, которое поддерживает, в
частном случае работы DMIF с широковещанием и локальной памятью это утверждение не
вполне корректно из-за присутствия эмулированного удаленного приложения (которое, с
точки зрения локального приложения является частью слоя DMIF).

При рассмотрении сценария удаленного взаимодействия, слой DMIF ничего не знает о


приложении. Введен дополнительный интерфейс DNI (DMIF-Network Interface), который
служит для подчеркивания того, какого рода информацией должны обмениваться партнеры
DMIF. Дополнительные модули SM (Signaling mapping) служат для установления
соответствия между примитивами DNI и сигнальными сообщениями, используемыми в
конкретной сети. Заметим, что примитивы DNI специфицированы для информационных
целей, и интерфейс DNI в настоящей реализации может отсутствовать.

DMIF допускает одновременное присутствие одного или более интерфейсов DMIF, каждый
из которых предназначен для определенной технологии доставки данных. Одно приложение
может активировать несколько технологий доставки.

8.1.1. Вычислительная модель DMIF


Когда приложение запрашивает активацию услуги, оно использует сервисный примитив
DAI, и формирует соответствующую сессию. Реализация DMIF устанавливает контакт с
соответствующим партнером (который концептуально может быть либо удаленным, либо
эмулируемым локальным партнером) и формирует вместе с ним сетевую сессию. В случае
широковещательного и локального сценариев, способ формирования и управления сессией
находится вне зоны ответственности данного документа. В случае интерактивного сценария
с удаленным сервером, DMIF использует свой сигнальный механизм для формирования и
управления сессией, например, сигнальный механизм ATM. Приложения партнеров
используют эту сессию для установления соединения, которое служит для передачи
прикладных данных, например, элементарных потоков MPEG-4.

Когда приложению нужен канал, оно использует примитивы канала DAI, DMIF транслирует
эти запросы в запросы соединения, которые являются специфическими для конкретных
запросов сетевых реализаций. В случае сценариев широковещания и локальной памяти,
метод установления соединения и последующего управления находится за пределами
регламентаций MPEG-4. В случае сетевого сценария напротив, DMIF использует свой
сигнальный механизм для формирования и управления соединением. Это соединение
используется приложением для целей доставки данных.
На рис. 6 предоставлена схема активации верхнего уровня и начало обмена данными. Этот
процесс включает в себя четыре этапа:

 Приложение-инициатор посылает запрос активизации услуги своему локальному


слою DMIF - коммуникационное соединение между приложением-инициатором и его
локальным партнером DMIF устанавливается в контрольной плоскости (1)
 Партнер-инициатор DMIF запускает сетевую сессию с партнером-адресатом DMIF -
коммуникационное соединение партнером-инициатором DMIF и партнером-
адресатом DMIF устанавливается в контрольной плоскости (2).
 Партнер-адресат DMIF идентифицирует приложение-адресат и переадресует запрос
активации услуги - коммуникационное соединение между партнером-адресатом DMIF
и приложением-адресатом устанавливается в контрольной плоскости (3)
 Приложения партнеров создают каналы (запросы передаются через
коммуникационные пути 1, 2 и 3). Результирующие каналы в пользовательской
плоскости (4) используются приложениями для реального информационного обмена.
DMIF вовлечена во все четыре этапа.

Рис. 6. Вычислительная модель DMIF

Слой DMIF автоматически определяет, предполагается ли предоставление данной услуги


удаленным сервером в конкретной сети, например, в IP, или ATM, широковещательной
сетью, или устройством локальной памяти: выбор основывается на адресной информации
партнера, предоставляемой приложением в качестве части URL, переданной DAI.

8.2. Демультиплексирование,
синхронизация и описание потоков данных
Отдельные элементарные потоки должны быть выделены на уровне доставки из входных
данных некоторого сетевого соединения или из локального устройства памяти. Каждое
сетевое соединение или файл в модели системы MPEG-4 рассматривается как канал
TransMux. Демультиплексирование выполняется частично или полностью слоями вне
области ответственности MPEG-4. Единственным демультиплексирующим средством,
определенным MPEG-4, является FlexMux, которое может опционно использоваться для
снижения задержки, получения низкой избыточности мультиплексирования и для экономии
сетевых ресурсов.

Для целей интегрирования MPEG-4 в системную среду, интерфейс приложения DMIF


является точкой, где можно получить доступ к элементарным потокам, как к потокам sync.
DMIF является интерфейсом для реализации функций, недоступных в MPEG. Управляющая
часть интерфейса рассмотрена в разделе DMIF.

MPEG-4 определяет модель системного декодера. Это позволяет точно описать операции
терминала, не делая ненужных предположений о деталях практической реализации. Это
важно для того, чтобы дать свободу разработчикам терминалов MPEG-4 и декодирующих
приборов. Это оборудование включает в себя широкий диапазон аппаратов от
телевизионных приемников, которые не имеют возможности взаимодействовать с
отправителем, до ЭВМ, которые полноценный двунаправленный коммуникационный канал.
Некоторые приборы будут получать потоки MPEG-4 через изохронные сети, в то время как
другие будут использовать для обмена информацией MPEG-4 асинхронные средства
(например, Интернет). Модель системного декодера предоставляет общие принципы, на
которых могут базироваться все реализации терминалов MPEG-4.

Спецификация модели буфера и синхронизации является существенной для кодирующих


приборов, которые могут не знать заранее, тип терминала и метод получения кодированного
потока данных. Спецификация MPEG-4 делает возможным для кодирующего прибора
проинформировать декодер о ресурсных требованиях, может оказаться невозможным для
приемника реагировать на сообщение передатчика.

8.2.1. Демультиплексирование
Демультиплексирование происходит на уровне доставки, который включает в себя слои
TransMux и DMIF. Извлечение входящих информационных потоков из сетевого соединения
или из памяти включает в себя два этапа. Во-первых, каналы должны быть найдены и
открыты. Это требует наличия некоторого объекта, который осуществляет транспортный
контроль и устанавливает соответствие между транспортными каналами и специальными
элементарными потоками. Таблица карты таких потоков связывает каждый поток с
ChannelAssociationTag (канальной меткой), которая служит указателем для канала, через
который идет поток. Определение ChannelAssociationTags для реального транспортного
канала, а также управление сессией и каналами осуществляется DMIF-частью стандарта
MPEG-4.

Во-вторых, входящие потоки должны быть соответствующим образом


демультиплексированы, чтобы восстановить SL-потоки пакетов от нижележащих каналов
(входящих в принимающий терминал). В интерактивных приложениях, соответствующий
узел мультиплексирования переправляет данные в вышерасположенные каналы (исходящие
из принимающего терминала).

Базовый термин ‘TransMux Layer’ используется, чтобы абстрагироваться от нижележащей


функциональности - существующей или будущей, которая пригодна для транспортировки
потоков данных MPEG-4. Заметим, что этот уровень не определен в контексте MPEG-4.
Примерами могут служить транспортный поток MPEG-2, H.223, ATM AAL 2, IP/UDP.
Предполагается, что слой TransMux предоставляет защиту и средства мультиплексирования,
этот уровень обеспечивает определенный класс QoS. Средства безопасности включают в
себя защиту от ошибок и детектирование ошибок, удобное для данной сети или устройств
памяти.

В любом конкретном сценарии приложения используется один или более специфических


TransMux. Каждый демультиплексор TransMux предоставляет доступ к каналам TransMux.
Требования на информационный интерфейс доступа к каналу TransMux те же, что и для всех
интерфейсов TransMux. Они включают необходимость надежного детектирования ошибок,
доставки, если возможно, ошибочных данных с приемлемой индикацией ошибок и
кадрирование поля данных, которое может включать потоки либо SL либо FlexMux. Эти
требования реализованы в интерфейсе TransMux (системная часть стандарта MPEG-4).
Адаптация потоков SL должна быть специфицирована для каждого стека протоколов.

Средство FlexMux специфицировано MPEG для того, чтобы опционно предоставить гибкий
метод, имеющий малую избыточность и задержку для переукладки данных в тех случаях,
когда ниже лежащие протоколы не поддерживают это. Средство FlexMux само по себе
недостаточно устойчиво по отношению к ошибкам и может либо использоваться в каналах
TransMux с высоким QoS, либо для объединения элементарных потоков, которые достаточно
устойчивы к ошибкам. FlexMux требует надежного детектирования ошибок. Эти требования
реализованы в информационных примитивах прикладного интерфейса DMIF, который
определяет доступ к данным в индивидуальных транспортных каналах. Демультиплексор
FlexMux выделяет SL-потоки из потоков FlexMux.

8.2.2. Синхронизация и описание элементарных потоков

Рис. 7. Архитектура буферов модели системного декодера

Слой sync имеет минимальный набор средств для проверки согласованности, чтобы передать
временную информацию. Каждый пакет состоит из блока доступа или фрагмента блока
доступа. Эти снабженные временными метками блоки образуют единственную
семантическую структуру элементарных потоков, которые видны на этом уровне.
Временные метки используются для передачи номинального времени декодирования.
Уровень sync требует надежного детектирования ошибок и кадрирования каждого
индивидуального пакета нижележащего слоя. Как осуществляется доступ к данным для слоя
сжатия, определяется интерфейсом элементарных потоков, описание которого можно найти
в системной части стандарта MPEG-4. Слой sync извлекает элементарные потоки из потоков
SL.

Чтобы с элементарные потоки могли взаимодействовать с медиа-объектами в пределах


сцены, используются дескрипторы объектов. Дескрипторы объектов передают информацию
о номере и свойствах элементарных потоков, которые ассоциированы с конкретными медиа-
объектами. Сами дескрипторы объектов передаются в одном или более элементарных
потоков, так как допускается добавление и удаление потоков (и объектов) в процессе сессии
MPEG-4. Для того чтобы обеспечить синхронизацию, такие модификации помечаются
временными метками. Потоки дескрипторов объектов могут рассматриваться как описание
потоковых ресурсов презентации. Аналогично, описание сцены также передается как
элементарный поток, позволяя модифицировать пространственно-временную картину
презентации со временем.

8.2.3. Управление буфером


Чтобы предсказать, как декодер будет себя вести, когда он декодирует различные
элементарные потоки данных, которые образуют сессию MPEG-4, модель системного
декодера (Systems Decoder Mode) позволяет кодировщику специфицировать и
мониторировать минимальные буферные ресурсы, необходимые для декодирования сессии.
Требуемые буферные ресурсы передаются декодеру в объектных дескрипторах во время
установления сессии MPEG-4, так что декодер может решить, может ли он участвовать в
этой сессии.

При управлении конечным буферным пространством модель позволяет отправителю,


например, передавать данные, не привязанные к реальному времени, досрочно, если имеется
достаточно места в буфере со стороны приемника. Запомненные данные будут доступны в
любое время, позволяя использовать для информации реального времени при необходимости
большие ресурсы канала.

8.2.4. Идентификация времени


Для операции реального времени, модель синхронизации is assumed in which the end-to-end
delay from the signal output from an encoder to the signal input to a decoder is constant. Более
того, передаваемые потоки данных должны содержать времязадающую информацию в явном
или неявном виде. Существует два типа временной информации. Первый тип используется
для передачи частоты часов кодировщика, или временной шкалы, декодеру. Второй,
состоящий из временных меток, присоединенных к закодированным AV данным, содержит
желательное время декодирование для блоков доступа или композиции, а также время
истечения применимости композиционных блоков. Эта информация передается в заголовках
SL-пакетов сформированных в слое sync. С этой временной информацией, интервалы в
пределах картинки и частота стробирования аудио может подстраиваться в декодере, чтобы
соответствовать интервалам частоте стробирования на стороне кодировщика.

Различные медиа-объекты могут кодироваться кодировщиками с различными временными


шкалами, и даже с небольшим отличием времязадающих частот. Всегда возможно
установить соответствие между этими временными шкалами. В этом случае, однако, никакая
реализация приемного терминала не может избежать случайного повторения или потери AV-
данных, из-за временного наезда (относительное растяжение или сжатие временных шкал).

Хотя допускается работа систем без какой-либо временной информации, определение


модели буферизации в этом случае невозможно.

8.3. Улучшенная модель синхронизации


(FlexTime)
Модель FlexTime (Advanced Synchronization Model) расширяет традиционную модель
хронирования MPEG-4, чтобы разрешить синхронизацию большого числа потоков и
объектов, таких как видео, аудио, текст, графика, или даже программы, которые могут иметь
разное происхождение.

Традиционная модель синхронизации MPEG-4 первоначально была сконструирована для


широковещательных приложений, где синхронизация между блоками доступа
осуществляется через "жесткие" временные метки и эталонные часы. В то время как этот
механизм предоставляет точную синхронизацию внутри потока, он терпит неудачу при
синхронизации потоков, приходящих из разных источников (и возможно с разными
эталонными часами) как это имеет место в случае большинства приложений Интернет и в
более сложных широковещательных приложениях.

Модель FlexTime позволяет разработчику материала специфицировать простые временные


соотношения для выбранных объектов MPEG-4, таких как "CoStart," "CoEnd," и "Meet."
Автор материала может также специфицировать ограничения гибкости для объектов MPEG-
4, как если бы объекты были растяжимыми пружинами. Это позволяет синхронизовать
большое число объектов согласно специфицированным временным соотношениям.

Наибольшую эффективность внедрение этой техники может дать в случае приложений


Интернет, где нужно синхронизовать большое число источников на стороне клиента.
8.3.1. Гибкая длительность
В среде с ненадежной доставкой может так случиться, что доставка определенного
элементарного потока или частей потока, может заметно задержаться относительно
требуемого времени воспроизведения.

Для того чтобы понизить чувствительность к задержке времени доставки, модель FlexTime
основывается на так называемой метафоре "пружины", смотри раздел 4.2.3.

Следуя модели пружины, элементарные потоки, или фрагменты потоков, рассматриваются


как пружины, каждый с тремя 3 ограничениями. Оптимальная длина (длительность
воспроизведения потока) может рассматриваться как подсказка получателю, когда возможны
варианты. Заметим, что при растяжении или сжатии длительности непрерывной среды, такой
как видео, подразумевает соответствующее замедление или ускорение воспроизведения,
когда элементарный поток состоит из статических картинок. В этом случае растяжение или
сжатие предполагает удержание изображения на экране в течение большего или меньшего
времени.

8.3.2. Относительное время начала и конца


Два или более элементарных потоков или потоков сегментов могут быть синхронизованы
друг относительно друга, путем определения того, что они начинаются ("CoStart") или
кончаются ("CoEnd") в одно и то же время или завершение одного совпадает с началом
другого ("Meet").

Важно заметить, что существует два класса объектов MPEG-4. Синхронизация и рэндеринг
объекта MPEG-4, который использует элементарный поток, такого как видео, не
определяется одним потоком, но также соответствующими узлами BIFS и их
синхронизацией. В то время как синхронизация и рэндеринг объекта MPEG-4, который не
использует поток, такой как текст или прямоугольник, определяется только
соответствующими узлами BIFS и их синхронизацией.

Модель FlexTime позволяет автору материала выражать синхронизацию объектов MPEG-4 с


потоками или сегментами потоков, путем установления временных соотношений между
ними.

Временные соотношения (или относительные временные метки) могут рассматриваться как


"функциональные" временные метки, которые используются при воспроизведении. Таким
образом, действующее лицо FlexTime может:

1. Компенсировать различные сетевые задержки с помощью поддержки


синхронизованной задержки прибытия потока, прежде чем действующее лицо начнет
рэндеринг/воспроизведение ассоциированного с ним узла.
2. Компенсировать различные сетевые разбросы задержки путем поддержки
синхронизованного ожидания прибытия сегмента потока.
3. Синхронизовать большое число медиа/BIFS-узлов с некоторым медиа потоком
неизвестной длины или неуправляемым временем прибытия.
4. Синхронизовать модификации BIFS (например, модификации полей сцены) при
наличии большого числа узлов/потоков, когда некоторые потоки имеют неизвестную
длину или неуправляемое время прибытия.
5. Замедлять или ускорять рэндеринг/воспроизведение частей потоков, чтобы
компенсировать ситуации не синхронности, вызванные неизвестной длиной,
неуправляемым временем прибытия или его вариацией.
8.3.3. Поддержка FlexTime в MPEG-4
Модель FlexTime поддерживается в MPEG-4 двумя узлами: TemporalTransform и
TemporalGroup, и дескриптором: SegmentDescriptor. Узел TemporalTransform специфицирует
временные свойства объекта MPEG-4, который нуждается в синхронизации. Узел
TemporalGroup специфицирует временные соотношения между объектами, которые
представлены узлами TemporalTransform, а SegmentDescriptor идентифицирует доли потока,
которые могут быть синхронизованы.

8.3.3.1. Узел TemporalTransform


TemporalTransform поддерживает синхронизацию узлов в пределах сцены с медиа потоком,
или его сегментом, и поддерживает гибкое преобразование ко времени сцены. Этот
группирующий узел может гибко поддерживать замедление, ускорение, замораживание или
смещение временной шкалы сцены для рэндеринга узлов содержащихся в ней. Его дочернее
поле может содержать список узлов типа SF3Dnode, а узел может влиять на замедление,
ускорение, замораживание или смещение временной шкалы композитора, когда он
осуществляет рэндеринг дочерних узлов, которые преобразованы этим узлом. Кроме того,
этот узел имеет поле url, которое может ссылаться на элементарный поток или его сегмент и
в этом случае, узел воздействует на временную шкалу потока, указанного в ссылке.

8.3.3.2. Узел TemporalGroup


Узел TemporalGroup специфицирует временное соотношение между заданным числом
TemporalTransforms, чтобы выровнять временные шкалы узлов, в графе сцены. Временная
настройка среды с целью удовлетворения ограничений и обеспечения гибкости
осуществляется на уровне sync. TemporalGroup может рассматривать временные свойства
его дочек и когда все они готовы, а временные ограничения выполнены, может быть дано
разрешение на их воспроизведение.

8.3.3.3. Дескриптор сегмента (SegmentDescriptor)


Массив SegmentDescriptors добавляется в качестве составного элемента в ES_Descriptor.
SegmentDescriptor идентифицирует и помечает сегмент потока, так что отдельные сегменты
потока могут быть адресуемы с помощью их полей url в узле TemporalTansform.

8.3.4. Модель исполнения


Временное декодирование и настройка часов медиа потоков в соответствии с временными
метками является функцией слоя sync. Модель FlexTime требует небольшого изменения
модели буферизации MPEG-4 и декодирования. Декодирование может быть задержано у
клиента, по отношению к стандартному времени.

Модель буферов для flextime может быть специфицировано следующим образом: "В любое
время от момента, соответствующего его DTS, вплоть до границы времени, заданной
Flextime, AU немедленно декодируется и удаляется из буфера." Так как точное время
удаления из буфера декодирования AU может варьироваться, нельзя быть уверенным, что
оно будет удалено раньше наихудшего времени (максимальная задержка для медиа-потока).
Используя наихудшее время, а не время, заданное DTS, буфер декодирования может
управляться и не так, как предписывается MPEG-4.
8.4. Описание синтаксиса
MPEG-4 определяет язык синтаксического описания чтобы характеризовать точный
двоичный синтаксис для двоичных потоков, несущих медиа-объекты и для потоков с
информацией описания сцены. Это уход от прошлого подхода MPEG, использовавшего язык
псевдо C. Новый язык является расширением C++, и используется для интегрированного
описания синтаксического представления объектов и классов медиа-объектов и сцен. Это
предоставляет удобный и универсальный способ описания синтаксиса. Программные
средства могут использоваться для обработки синтаксического описания и генерации
необходимого кода для программ, которые выполняют верификацию.

8.5. Двоичный формат описания сцены


BIFS (Binary Format for Scene description)
Кроме обеспечения поддержки кодирования индивидуальных объектов, MPEG-4
предоставляет также возможность создать набор таких объектов в рамках сцены.
Необходимая информация композиции образует описание сцены, которая кодируется и
передается вместе с медиа-объектами. Начиная с VRML (Virtual reality Modeling Language),
MPEG разработал двоичный язык описания сцены, названный BIFS. BIFS расшифровывается
как BInary Format for Scenes.

Для того чтобы облегчить авторскую разработку, а также создание средств манипулирования
и взаимодействия, описания сцены кодируются независимо от потоков, имеющих отношение
в примитивным медиа-объектам. Специальные меры предпринимаются для идентификации
параметров, относящихся к описанию сцены. Это делается путем дифференциации
параметров, которые используются для улучшения эффективности кодирования объектов
(например, векторы перемещения в алгоритмах видео-кодирования), а также те, которые
используются в качестве модификаторов объекта (например, положение объекта на сцене).
Так как MPEG-4 должен допускать модификацию последнего набора параметров без
необходимости декодировать самих примитивных медиа-объектов, эти параметры
помещаются в описание сцены, а не в примитивные медиа-объекты. Следующий список
предлагает некоторые примеры информации, представленные в описании сцены.

Как объекты группируются. Сцена MPEG-4 следует иерархической структуре, которая


может быть представлена как ориентированный граф без циклов. Каждый узел графа
является медиа-объектом, как показано на рис. 8. Три структуры не обязательно являются
статическими; атрибуты узла (например, позиционирующие параметры) могут быть
изменены, в то время как узлы могут добавляться, замещаться, или удаляться.

Рис. 8. Возможная логическая структура сцены


Как объекты позиционируются в пространстве и времени. В модели MPEG-4,
аудиовизуальные объекты имеют протяженность в пространстве и во времени. Каждый
медиа-объект имеет локальную координатную систему. Локальная координатная система
объекта является той, в которой объект имеет фиксированное пространственно-временное
положение и шкалу. Локальная координатная система служит в качестве указателя для
манипулирования медиа-объектом в пространстве и во времени. Медиа-объекты
позиционируются на сцене путем спецификации координатного преобразования из
локальной координатной системы объекта в глобальную систему.

Выбор значения атрибута. Индивидуальные медиа-объекты и узлы описания сцены


демонстрируют набор параметров композиционному слою через который может частично
контролироваться их поведение. Среди примеров можно назвать понижение звука (pitch),
цвет для синтетических объектов, активация или дезактивация информации улучшения для
масштабируемого кодирования и т.д.

Другие преобразования медиа-объектов. Как упомянуто выше, структура описания сцены


и семантика узла подвержены сильному влиянию VRML, включая его модель событий. Это
предоставляет MPEG-4 очень богатый набор операторов конструирования сцены, включая
графические примитивы, которые могут использоваться для построения сложных сцен.

8.5.1. Продвинутый формат BIFS


BIFS версия 2 (продвинутый BIFS) включает в себя следующие новые возможности:

 Моделирование продвинутой звуковой среды в интерактивных виртуальных сценах,


где в реальном времени вычисляются такие характеристики как рефлексы в комнате,
реверберация, допплеровсеие эффекты и перегораживание звука объектами,
появляющимися между источником и слушателем. Моделирование направленности
источника звука позволяет осуществлять эффективное включение звуковых
источников в 3-D сцены.
 Анимация тела с использованием на уровне декодера модели тела по умолчанию или
загружаемой модели. Анимация тела осуществляется путем посылки анимационных
параметров в общем потоке данных.
 Применение хроматических ключей, которые служат для формирования формы маски
и значения прозрачности для изображения или видео последовательности.
 Включение иерархических 3-D сеток в BIFS сцен.
 Установление соответствия интерактивных команд и медийных узлов. Команды
передаются серверу через обратный канал для соответстующей обработки.
 PROTOs и EXTERNPROTOs

8.6. Взаимодействие с пользователем


MPEG-4 позволяет пользователю взаимодействие с отображаемым материалом. Это
взаимодействие может быть разделено на две главные категории: взаимодействие на стороне
клиента и взаимодействие на стороне сервера. Взаимодействие на стороне клиента включает
в себя манипуляцию материалом, который обрабатывается локально на терминале конечного
пользователя. В частности, модификация атрибута узла описания сцены, например,
изменения положение объекта, делание его видимым или невидимым, изменение размера
шрифта узла синтетического текста и т.д., может быть выполнено путем трансляции событий
пользователя. Событием пользователя может быть нажатие клавиши мыши или команда,
введенная с клавиатуры.
Другие формы взаимодействия на стороне клиента требуют поддержки со стороны
синтаксиса описания сцены и должны быть специфицированы в стандарте. Использование
структуры событий VRML предоставляет богатую модель, на основании которой
разработчики могут создать вполне интерактивный материал.

Взаимодействие на стороне сервера включает в себя манипуляцию материалом на стороне


отправителя в результате действий пользователя. Это, разумеется, требует наличия
обратного канала.

8.7. IPR идентификация и защита


MPEG-4 предоставляет механизмы для защиты прав интеллектуальной собственности (IPR).
Это достигается путем предоставления кодированных медиа-объектов с опционным набором
данных идентификационной интеллектуальной собственности IPI (Intellectual Property
Identification), несущим информацию о содержимом, типе содержимого и о владельцах прав
на данный материал. Набор данных, если он имеется, является частью дескриптора
элементарного потока, который описывает поточную информацию, ассоциированную с
медиа-объектом. Номер набора данных, который ассоциируется с каждым медиа-объектом
достаточно гибок; другие медиа-объекты могут использовать тот же набор. Предоставление
наборов данных позволяет внедрить механизм отслеживания, мониторинга, выставления
счетов и защиты от копирования.

Каждое широкодиапазонное приложение MPEG-4 имеет набор требований относящихся к


защите информации, с которой оно работает. Эти приложения могут иметь разные
требования по безопасности. Для некоторых приложений, пользователи обмениваются
информацией, которая не имеет собственной ценности, но которая, тем не менее, должна
быть защищена, чтобы защитить права собственности. Для других приложений, где
управляемая информация для ее создателя или дистрибьютора имеет большую ценность,
требуется управление более высокого уровня и более надежные механизмы защиты.
Подразумевается, что дизайн структуры IPMP должен учитывать сложность стандарта
MPEG-4 и разнообразие его применений. Эта структура IPMP оставляет детали системы
IPMP на усмотрение разработчиков. Необходимые уровень и тип управления и защиты
зависят от ценности материала, комплексности, и сложности, связанных с этим материалом
бизнес моделей.

Данный подход позволяет конструировать и использовать системы IPMP специфичные для


доменов (IPMP-S). В то время как MPEG-4 не стандартизует сами системы IPMP, он
стандартизует интерфейс IPMP MPEG-4. Этот интерфейс состоит из IPMP-дескрипторов
(IPMP-Ds) и элементарных потоков IPMP (IPMP-ES).

IPMP-Ds и IPMP-ESs предоставляют коммуникационный механизм взаимодействия систем


IPMP и терминала MPEG-4. Определенные приложения могут требовать нескольких систем
IPMP. Когда объекты MPEG-4 требуют управления и защиты, они имеют IPMP-D,
ассоциированные с ними. Эти IPMP-Ds указывают на то, какие системы IPMP следует
использовать и предоставляют информацию о том, как защищать получаемый материал.
(Смотри рис. 9).

Кроме предоставления владельцам интеллектуальной собственности возможности


управления и защиты их прав, MPEG-4 предлагает механизм идентификации этих прав с
помощью набора данных IPI (Intellectual Property Identification Data Set). Эта информация
может использоваться системами IPMP в качестве входного потока процесса управления и
защиты.
Рис. 9. Интерфейсы IPMP в системе MPEG-4

8.8. Информация содержимого объекта


MPEG-4 позволяет подсоединять к объектам информацию об их материале. Пользователи
стандарта могут использовать этот поток данных ‘OCI’ (Object Content Information) для
передачи текстовой информации совместно с материалом MPEG-4.

8.9. Формат файлов MPEG-4


Формат файла MP4 сконструирован так, чтобы информация MPEG-4 имела легко
адаптируемый формат, который облегчает обмены, управление, редактирование и
представление медиа-материала. Презентация может быть локальной по отношению к
системе осуществляющей этот процесс, или осуществляемой через сеть или другой
поточный механизм доставки (TransMux). Формат файлов сконструирован так, чтобы не
зависеть от конкретного типа протокола доставки, и в тоже время эффективно поддерживать
саму доставку. Конструкция основана формате QuickTime® компании Apple Computer Inc.

Формат файла MP4 сформирован из объектно-ориентированных структур, называемых


атомами. Каждый атом идентифицируется тэгом и длиной. Большинство атомов описывают
иерархию метаданных, несущих в себе такую информацию как индексные точки,
длительности и указатели на медиа данные. Это собрание атомов содержится в атоме,
называемом ‘кино атом’. Сами медиа-данные располагаются где-то; они могут быть в файле
MP4, содержащемся в одном или более ‘mdat’, в медийных информационных атомах или
размещаться вне файла MP4 с доступом через URL.

Мета данные в файле в сочетании с гибкой записью медийных данных в память позволяют
формату MP4 поддерживать редактирование, локальное воспроизведение и обмен, и тем
самым удовлетворять требованиям интермедиа MPEG4.

8.10. MPEG-J
MPEG-J является программной системой a programmatic system (в противоположность
параметрической системе MPEG-4 версия 1), которая специфицирует API для кросс-
операций медиа-проигрывателей MPEG-4 с программами на Java. Комбинируя среду MPEG-
4 и безопасный исполнительный код, разработчики материала могут реализовать
комплексный контроль и механизмы обработки их медиа в рамках аудио-визуальной сессии.
Блок-схема плеера MPEG-J в среде системного плеера MPEG-4 показана на рис. 10. Нижняя
половинка этого рисунка отображает системный параметрический плеер MPEG-4,
называемый также средство презентации (ДП). Субсистема MPEG-J, контролирующая ДП,
называется средством приложения (Application Engine), показана в верхней половине рис. 10.
Приложение Java доставляется в качестве отдельного элементарного потока, поступающего
на терминал MPEG-4. Оно будет передано MPEG-J, откуда программа MPEG-J будет иметь
доступ к различным компонентам и данным плеера MPEG-4. MPEG-J не поддерживает
загружаемых декодеров.

По выше указанной причине, группой был определен набор API с различными областями
применения. Задачей API является обеспечение доступа к графу сцены: рассмотрение графа,
изменение узлов и их полей, и добавление и удаление узлов графа. Менеджер ресурсов API
используется для управления исполнением: он обеспечивает централизованное средство
управления ресурсами. API терминальных возможностей (Terminal Capability) используется,
когда исполнение программы зависит от конфигурации терминала и его возможностей, как
статических (которые не меняются во время исполнения) так и динамических. API медийных
декодеров (Media Decoders) позволяет контролировать декодеры, которые имеются в
терминале. Сетевое API предлагает способ взаимодействия с сетью, являясь прикладным
интерфейсом MPEG-4 DMIF.

Рис. 10. Положение интерфейсов в архитектуре MPEG-J

9. Детальное техническое описание


визуальной секции MPEG-4
Визуальные объекты могут иметь искусственное или натуральное происхождение.

9.1. Приложения видео-стандарта MPEG-4


MPEG-4 видео предлагает технологию, которая перекрывает широкий диапазон
существующих и будущих приложений. Низкие скорости передачи и кодирование
устойчивое к ошибкам позволяет осуществлять надежную связь через радио-каналы с
ограниченной полосой, что полезно, например, для мобильной видеотелефонии и
космической связи. При высоких скоростях обмена, имеются средства, позволяющие
передачу и запоминание высококачественного видео на студийном уровне.

Главной областью приложений является интерактивное WEB-видео. Уже


продемонстрированы программы, которые осуществляют живое видео MPEG-4. Средства
двоичного кодирования и работы с видео-объектами с серой шкалой цветов должны быть
интегрированы с текстом и графикой.
MPEG-4 видео было уже использовано для кодирования видеозапись, выполняемую с
ручной видео-камеры. Эта форма приложения становится все популярнее из-за простоты
переноса на WEB-страницу, и может также применяться и в случае работы со статичными
изображениями и текстурами. Рынок игр является еще одной областью работы приложений
MPEG-4 видео, статических текстур, интерактивности.

9.2. Натуральные текстуры, изображения и


видео
Средства для естественного видео в визуальном стандарте MPEG-4 предоставляют
стандартные технологии, позволяющие эффективно запоминать, передавать и
манипулировать текстурами, изображениями и видео данными для мультимедийной среды.
Эти средства позволяют декодировать и представлять атомные блоки изображений и видео,
называемые "видео объектами" (VO). Примером VO может быть говорящий человек (без
фона), который может быть также создан из других AVO (аудио-визуальный объект) в
процессе формирования сцены. Обычные прямоугольные изображения образуют
специальный случай таких объектов.

Для того чтобы достичь этой широкой цели функции различных приложений объединяются.
Следовательно, визуальная часть стандарта MPEG-4 предоставляет решения в форме средств
и алгоритмов для:

 Эффективного сжатия изображений и видео


 Эффективного сжатия текстур для их отображения на 2-D и 3-D сетки
 Эффективного сжатия для 2-D сеток
 Эффективного сжатия потоков, характеризующих изменяющуюся со временем
геометрию (анимация сеток)
 Эффективного произвольного доступа ко всем типам визуальных объектов
 Расширенной манипуляции изображениями и видео последовательностей
 Кодирования, зависящего от содержимого изображений и видео
 Масштабируемости текстур, изображений и видео
 Пространственная, временная и качественная масштабируемость
 Обеспечения устойчивости к ошибкам в среде предрасположенной к сбоям

9.3. Синтетические объекты


Синтетические объекты образуют субнабор большого класса компьютерной графики, для
начала будут рассмотрены следующие синтетические визуальные объекты:

• Параметрические описания

a) синтетического лица и тела (анимация тела в версии 2)


b) Кодирование статических и динамических сеток Static и Dynamic Mesh Coding with texture
mapping

• Кодирование текстуры для приложений, зависимых от вида

9.4. Масштабируемое кодирование видео-


объектов
Существует несколько масштабируемых схем кодирования в визуальном MPEG-4:
пространственная масштабируемость, временная масштабируемость и объектно-
ориентированная пространственная масштабируемость. Пространственная
масштабируемость поддерживает изменяющееся качество текстуры (SNR и
пространственное разрешение). Объектно-ориентированная пространственная
масштабируемость расширяет 'обычные' типы масштабируемости в направлении объектов
произвольной формы, так что ее можно использовать в сочетании с другими объектно-
ориентированными возможностями. Таким образом, может быть достигнута очень гибкая
масштабируемость. Это делает возможным при воспроизведении динамически улучшать
SNR, пространственное разрешение, точность воспроизведения формы, и т.д., только для
объектов, представляющих интерес, или для определенной области.

9.5. Устойчивость в среде,


предрасположенной к ошибкам
Разработанная в MPEG новая методика, названная NEWPRED ('new prediction' - новое
предсказание), предоставляет быстрое восстановление после ошибок в приложениях
реального времени. Она использует канал от декодера к кодировщику. Кодировщик
переключает эталонные кадры, приспосабливаясь к условиям возникновения ошибок в сети.
Методика NEWPRED обеспечивает высокую эффективность кодирования. Она была
проверена в условиях высоких потоков ошибок:

 Короткие всплески ошибок в беспроводных сетях (BER= 10-3, длительность всплеска


1мс)
 Потери пакетов в Интернет (вероятность потери = 5%)

9.6. Улучшенная стабильность временного


разрешения с низкой задержкой
буферизации
Еще одной новой методикой является DRC (Dynamic Resolution Conversion), которая
стабилизирует задержку буферизации при передаче путем минимизации разброса числа
кодовых бит VOP на выходе. Предотвращается отбрасывание больших пакетов, а
кодировщик может контролировать временное разрешение даже в высоко активных сценах.

9.7. Кодирование текстур и статические


изображения
Следующие три новых средства кодирования текстур и статических изображений
предлагается в версии V.2:

 Wavelet tiling (деление на зоны) позволяет делить изображение на несколько


составных частей, каждая из которых кодируется независимо. Это означает, что
большие изображения могут кодироваться/декодироваться в условиях достаточно
низких требований к памяти, и что произвольный доступ к декодеру существенно
улучшен.
 Масштабируемое кодирование формы позволяет кодировать текстуры произвольной
формы и статические изображения с привлечением масштабируемости. Используя это
средство, декодер может преобразовать изображение произвольной формы с любым
желательным разрешением. Это средство позволяет приложению использовать
объектно-ориентированную пространственную и качественную масштабируемость
одновременно.
 Средство противодействия ошибкам добавляет новые возможности восстановления
при ошибках. Используя пакетирование и технику сегментных маркеров, оно
значительно улучшает устойчивость к ошибкам приложений, таких как передача
изображения через мобильные каналы или Интернет.

Упомянутые выше средства используются в двух новых ‘продвинутых масштабируемых


текстурах’ и продвинутом центральном профайле (advanced core profile).

9.8. Кодирование нескольких видов и


большого числа вспомогательных
компонентов
В MPEG-4 видео версии 1 поддерживается до одного альфа-канала на видео канальный слой
и определены три типа формы. Все три типа формы, т.е. двоичная форма, постоянная форма
и форма с серой шкалой, допускают прозрачность видео объекта. При таком определении
MPEG-4 не может эффективно поддерживать такие вещи как многовидовые видео объекты
(Multiview Video Objects). В версии 2 введено применение множественных альфа-каналов
для передачи вспомогательных компонент.

Базовой идеей является то, что форма с серой шкалой не является единственной для
описания прозрачности видео объекта, но может быть определена в более общем виде.
Форма с серой шкалой может, например, представлять:

 Форму прозрачности
 Форму несоразмерности (Disparity shape) для многовидовых видео объектов
(горизонтальных и вертикальных)
 Форму глубины (Depth shape) (получаемую посредством лазерного дальномера или
при анализе различия)
 Инфракрасные или другие вторичные текстуры

Все альфа-каналы могут кодироваться с помощью средств кодирования формы, т.е. средства
двоичного кодирования формы и средства кодирования формы с серой шкалой, которые
используют DCT с компенсаций перемещения, и обычно имеют ту же форму и разрешение,
что и текстура видео объекта.

В качестве примера использования множественных вспомогательных компонентов в случае


формы несоразмерности для многовидовых видео объектов описаны ниже.

Общим принципом является ограничение числа пикселей, которые следует кодировать при
анализе соответствия между конкретными видами объекта, доступными на стороне
кодировщика. Все области объекта, которые видны со стороны более чем одной камеры,
кодируются только один раз с максимально возможным разрешением. Соотношения
несоразмерности могут быть оценены из исходных видов, чтобы реконструировать все
области, которые были исключены из кодирования путем использования проекции со
скомпенсированной несоразмерностью. Один или два вспомогательных компонентов могут
быть выделены, чтобы кодировать карты несоразмерности, указывающие на соответствие
между пикселями различных видов.

Мы назначаем области, которые используются для кодирования данных от каждой


конкретной камеры как "области интереса" (AOI). Эти AOI могут теперь быть просто
определены как видео объекты MPEG-4, и закодированы с их ассоциированными
значениями несоразмерности. Из-за возможного отражения объектов в различных видах, а
также из-за отклонений цветов или различия экспозиций для разных камер, границы между
областями, которые нужно реконструировать на основе разных исходных видов могут
оказаться видимыми. Чтобы решить эту проблему, необходимо предварительно обработать
пиксели вблизи границ AOI, так чтобы осуществить плавный переход путем интерполяции
пикселей из различных смежных видов в пределах переходной области.

Чтобы реконструировать различные точки зрения из текстуры, проекция поверхности с


компенсации несоразмерности формируется из текстурных данных в пределах конкретных
AOI, с привлечением карты несоразмерностей, полученной из вспомогательной компоненты,
декодированной из видео потока MPEG-4. Каждая AOI обрабатывается независимо, а затем
проекции изображений ото всех AOI собираются для получения окончательного вида видео
объекта с заданной точки зрения. Эта процедура может быть выполнена для системы с двумя
камерами с параллельной установкой, но может быть распространена на случай с
несколькими камерами со сходящимися оптическими осями.

9.8.1. Анимация лица


‘Лицевой анимационный объект’ может использоваться для представления анимированного
лица. Форма, текстура и выражения лица управляются параметрами определения лица FDP
(Facial Definition Parameters) и/или параметрами анимации лица FAP (Facial Animation
Parameters). Объект лица содержит базовый вид лица с нейтральным выражением. Это лицо
может уже отображено. Оно может также получить немедленно анимационные параметры из
потока данных, который осуществит анимацию лица: выражения, речь и т.д. Между тем,
могут быть посланы параметры определения, которые изменять облик лица от некоторого
базового к заданному лицу со своей собственной формой и (опционно) текстурой. Если это
желательно, через набор FDP можно загрузить полную модель лица.

Анимация лица в MPEG-4 версии 1 предназначена для высоко эффективного кодирования


параметров анимации, которые могут управлять неограниченным числом моделей лица.
Сами модели не являются нормативными, хотя существуют средства описания
характеристик модели. Кадровое и временное-DCT кодирование большой коллекции FAP
может использоваться для точной артикуляции.

Двоичный формат систем для сцены BIFS (Systems Binary Format for Scenes), предоставляет
возможности поддержки анимации лица, когда нужны обычные модели и интерпретации
FAP:

1. Параметры определения лица FDP (Face Definition Parameters) в BIFS (модельные


данные являются загружаемыми, чтобы конфигурировать базовую модель лица,
запомненную в терминале до декодирования FAP, или инсталлировать
специфическую модель лица в начале сессии вместе с информацией о том, как
анимировать лицо).
2. Таблица анимации лица FAT (Face Animation Table) в рамках FDP (загружаемые
таблицы функционального соответствия между приходящими FAP и будущими
контрольными точками сетки лица. Это дает кусочно-линейную карту входящих FAP
для управления движениями лица. Например: FAP может приказать ‘open_jaw (500)’
(открыть челюсти) и таблица определит, что это означает в терминах перемещения
характерных точек;
3. Интерполяционная методика для лица FIT (Face Interpolation Technique) в BIFS
(загружаемое определение карты входящих FAP в общий набор FAP до их
использования в характерных точках, которая вычисляется с использованием
полиномиальных функций при получении интерполяционного графа лица). Это может
использоваться для установления комплексных перекрестных связей FAP или
интерполяции FAP, потерянных в потоке, с привлечением FAP, которые доступны для
терминала.

Эти специфицированные типы узлов в BIFS эффективно предоставляют для моделей


формирования лица встроенную калибровку модели, работающей в терминале или
загружаемой стандартной модели, включающей форму, текстуру и цвет.

9.8.2. Анимация тела


Тело является объектом способным генерировать модели виртуального тела и анимации в
форме наборов 3-D многоугольных сеток, пригодных для отображения (rendering). Для тела
определены два набора параметров: набор параметров определения тела BDP (Body
Definition Parameter), и набор параметров анимации тела BAP (Body Animation Parameter).
Набор BDP определяет параметры преобразования тела по умолчанию в требующееся тело с
нужной поверхностью, размерами, и (опционно) текстурой. Параметры анимации тела
(BAP), если интерпретированы корректно, дадут разумно высокий уровень результата
выражаемого в терминах позы и анимации для самых разных моделей тела, без
необходимости инициализировать или калибровать модель.

Конструкция объекта тело содержит обобщенное виртуальное человеческое тело в позе по


умолчанию. Это тело может быть уже отображено. Объект способен немедленно принимать
BAP из потока данных, который осуществляет анимацию тела. Если получены BDP, они
используются для преобразования обобщенного тела в конкретное, заданное содержимым
параметров. Любой компонент может быть равен нулю. Нулевой компонент при
отображении тела заменяется соответствующим значением по умолчанию. Поза по
умолчанию соответствует стоящей фигуре. Эта поза определена следующим образом: стопы
ориентированы в фронтальном направлении, обе руки размещаться вдоль тела с ладонями
повернутыми внутрь. Эта поза предполагает также, что все BAP имеют значения по
умолчанию.

Не делается никаких предположений и не предполагается никаких ограничений на движения


или сочленения. Другими словами модель человеческого тела должна поддерживать
различные приложения, от реалистических симуляций человеческих движений до сетевых
игр, использующих простые человекоподобные модели.

Стандарт анимации тела был разработан MPEG в сотрудничестве с Рабочей группой


анимации гуманоидов (Humanoid Animation Working Group) в рамках консорциума VRML.

9.8.3. Анимируемые 2-D сетки


Сетка 2-D mesh является разложением плоской 2-D области на многоугольные кусочки.
Вершины полигональных частей этой мозаики называются узловыми точками сетки. MPEG-
4 рассматривает только треугольные сетки, где элементы мозаики имеют треугольную
форму. Динамические 2-D сетки ссылаются на сетки 2-D и информацию перемещения всех
узловых точек сетки в пределах временного сегмента интереса. Треугольные сетки
использовались в течение долгого времени для эффективного моделирования формы 3-D
объектов и воспроизведения в машинной графики. Моделирование 2-D сеток может
рассматриваться как проекцию треугольных 3-D сеток на плоскость изображения.

Узловые точки динамической сетки отслеживают особенности изображения во времени с


помощью соответствующих векторов перемещения. Исходная сетка может быть регулярной,
или адаптироваться к характеру изображения, которая называется сеткой, адаптируемой к
изображению. Моделирование 2-D сетки, адаптируемая к изображению, соответствует
неоднородному стробированию поля перемещения в некотором числе узловых точек вдоль
контура и внутри видео объекта. Методы выбора и отслеживания этих узловых точек не
является предметом стандартизации.

В 2-D сетке, базирующейся на текстуре, треугольные элементы, в текущем кадре


деформируются при перемещении узловых точек. Текстура в каждом мозаичном элементе
эталонного кадра деформируется с помощью таблиц параметрического соответствия,
определенных как функция векторов перемещения узловых точек. Для треугольных сетей
обычно используется аффинное преобразование. Его линейная форма предполагает
текстурный мэпинг с низкой вычислительной сложностью. Афинный мэпинг может
моделировать преобразование, вращение, изменение масштаба, отражение и вырезание и
сохранение прямых линий. Степени свободы, предоставляемые тремя векторами
перемещения вершин треугольника, соответствуют шести параметрам афинного
преобразования (affine mapping). Это предполагает, что исходное 2-D поле перемещения
может быть компактно представлено движением узловых точек, из которого
реконструируется афинное поле перемещение. В то же время, структура сетки ограничивает
перемещения смежных, мозаичных элементов изображения. Следовательно, сетки хорошо
годятся для представления умеренно деформируемых, но пространственно непрерывных
полей перемещения.

Моделирование 2-D сетки привлекательно, та как 2-D сетки могут сформированы из одного
вида объекта, сохраняя функциональность, обеспечиваемую моделированием с
привлечением 3-D сеток. Подводя итог можно сказать, что представления с объектно-
ориентированными 2-D сетками могут моделировать форму (многогранная апроксимация
контура объекта) и перемещение VOP в неоднородной структуре, которая является
расширяемой до моделирования 3-D объектов, когда имеются данные для конструирования
таких моделей. В частности, представление видео-объектов с помощью 2-D-сетки допускает
следующие функции:

A. Манипуляция видео-объектами

 Улучшенная реальность. Объединение виртуальных (сгенерированых ЭВМ)


изображений с реальными движущимися объектами (видео) для создания улучшенной
видео информации. Изображения, созданные компьютером должны оставаться в
идеальном согласии с движущимися реальными изображениями (следовательно
необходимо отслеживание).
 Преображение/анимация синтетических объектов. Замещение естественных видео
объектов в видео клипе другим видео объектом. Замещающий видео объект может
быть извлечен из другого естественного видео клипа или может быть получен из
объекта статического изображения, используя информацию перемещения объекта,
который должен быть замещен.
 Пространственно-временная интерполяция. Моделирование движения сетки
представляет более надежную временную интерполяцию с компенсацией
перемещения.

B. Сжатие видео-объекта
 Моделирование 2-D сеток может использоваться для сжатия, если выбирается
передача текстурных карт только определенных ключевых кадров и анимация этих
текстурных карт для промежуточных кадров. Это называется само преображением
выбранных ключевых кадров с использованием информации 2-D сеток.

C. Видео индексирование, базирующееся на содержимом

 Представление сетки делает возможным анимационные ключевые мгновенные


фотографии для подвижного визуального обзора объектов.
 Представление сетки предоставляет точную информацию о траектории объекта,
которая может использоваться для получения визуальных объектов с специфическим
перемещением.
 Сетка дает представление формы объекта, базирующееся на вершинной схеме,
которое более эффективно, чем представление через побитовую карту.

9.8.4. 3D-сетки
Возможности кодирования 3-D сеток включают в себя:

 Кодирование базовых 3-D многоугольных сеток делает возможным эффективное


кодирование 3-D полигональных сеток. Кодовое представление является достаточно
общим, чтобы поддерживать как много- так и одно-сеточный вариант.
 Инкрементное представление позволяет декодеру реконструировать несколько лиц в
сетке, пропорционально числу бит в обрабатываемом потоке данных. Это, кроме того,
делает возможным инкрементный рэндеринг.
 Быстрое восстановление при ошибках позволяет декодеру частично восстановить
сетку, когда субнабор бит потока данных потерян и/или искажен.
 Масштабируемость LOD (Level Of Detail - уровень детализации) позволяет декодеру
реконструировать упрощенную версию исходной сетки, содержащей уменьшенное
число вершин из субнабора потока данных. Такие упрощенные презентации полезны,
чтобы уменьшить время рэндеринга объектов, которые удалены от наблюдателя
(управление LOD), но также делает возможным применение менее мощного средства
для отображения объекта с ухудшенным качеством.

9.8.5. Масштабируемость, зависящая от изображения


Масштабируемость, зависящая от вида, делает возможными текстурные карты, которые
используются реалистичных виртуальных средах. Она состоит в учете точки наблюдения в
виртуальном 3-D мире для того чтобы передать только видимую информацию. Только часть
информации затем пересылается, в зависимости от геометрии объекта и смещения точки
зрения. Эта часть вычисляется как на стороне кодировщика, так и на стороне декодера.
Такой подход позволяет значительно уменьшить количество передаваемой информации
между удаленной базой данных и пользователем. Эта масштабируемость может работать с
кодировщиками, базирующимися на DCT.

9.9. Структура средств для представления


натурального видео
Алгоритмы кодирования изображение MPEG-4 и видео предоставляют эффективное
представление визуальных объектов произвольной формы, а также поддержку функций,
базирующихся на содержимом. Они поддерживают большинство функций, уже
предлагаемых в MPEG-1 и MPEG-2, включая эффективное сжатие стандартных
последовательностей прямоугольных изображений при варьируемых уровнях входных
форматов, частотах кадров, глубине пикселей, скоростях передачи и разных уровнях
пространственной, временной и качественной масштабируемости.

Базовая качественная классификация по скоростям передачи и функциональности


визуального стандарта MPEG-4 для естественных изображений и видео представлена на рис.
11.

Рис. 11. Классификация средств и алгоритмов кодирования звука и изображения MPEG-4

"Ядро VLBV" (VLBV - Very Low Bit-rate Video) предлагает алгоритмы и средства для
приложений, работающих при скоростях передачи между 5 и 64 кбит/с, поддерживающие
последовательности изображений с низким пространственным разрешение (обычно ниже
разрешения CIF) и с низкими частотами кадров (обычно ниже 15 Гц). К приложениям,
поддерживающим функциональность ядра VLBV относятся:

a. Кодирование обычных последовательностей прямоугольных изображений с высокой


эффективностью кодирования и высокой устойчивостью к ошибкам, малыми
задержками и низкой сложностью для мультимедийных приложений реального
времени, и
b. Операции "произвольный доступ", "быстрая перемотка вперед" и " быстрая перемотка
назад" для запоминания VLB мультимедиа ДБ и приложений доступа.

Та же самая функциональность поддерживается при высоких скоростях обмена с высокими


параметрами по временному и пространственному разрешению вплоть до ITU-R Rec. 601 и
больше - используя идентичные или подобные алгоритмы и средства как в ядре VLBV.
Предполагается, что скорости передачи лежат в диапазоне от 64 кбит/с до 10 Мбит/с, а
приложения включают широковещательное мультимедиа или интерактивное получение
сигналов с качеством, сравнимым с цифровым телевидением.

Функциональности, базирующиеся на содержимом, поддерживают отдельное кодирование и


декодирование содержимого (т.е. физических объектов в сцене, VO). Эта особенность
MPEG-4 предоставляет наиболее элементарный механизм интерактивности.

Для гибридного кодирования естественных и искусственных визуальных данных (например,


для виртуального присутствия или виртуального окружения) функциональность
кодирования, зависящая от содержимого, допускает смешение нескольких VO от различных
источников с синтетическими объектами, такими как виртуальный фон.
Расширенные алгоритмы и средства MPEG-4 для функциональности, зависящей от
содержимого, могут рассматриваться как супер набор ядра VLBV и средств для работы при
высоких потоках данных.

9.10. Поддержка обычной


функциональности и зависящей от
содержимого
MPEG-4 видео поддерживает обычные прямоугольные изображения и видео, а также
изображения и видео произвольной формы.

Кодирование обычных изображений и видео сходно с обычным кодированием в MPEG-1/2.


Оно включает в себя предсказание/компенсацию перемещений за которым следует
кодирование текстуры. Для функциональности, зависящей от содержимого, где входная
последовательность изображений может иметь произвольную форму и положение, данный
подход расширен с помощью кодирования формы и прозрачности. Форма может быть
представлена двоичной маской или 8-битовой компонентой, которая позволяет описать
прозрачность, если один VO объединен с другими объектами.

9.11. Видео изображение MPEG-4 и схема


кодирования
Рис. 12 описывает базовый подход алгоритмов MPEG-4 видео к кодированию входной
последовательности изображений прямоугольной и произвольной формы.

Рис. 12. Базовая блок-схема видео-кодировщика MPEG-4

Базовая структура кодирования включает в себя кодирование формы (для VO произвольной


формы), компенсацию перемещения и кодирование текстуры с привлечением DCT
(используя стандарт 8x8 DCT или DCT, адаптирующийся к форме).
Важным преимуществом кодирования, базирующегося на содержимом, является то, что
эффективность сжатия может для некоторых видео последовательностей быть существенно
улучшена путем применения соответствующих объектно-ориентированных средств
предсказания перемещения для каждого из объектов на сцене. Для улучшения
эффективности кодирования и гибкости презентации объектов может использоваться
несколько методик предсказания перемещения:

 Стандартная оценка и компенсация перемещения, базирующаяся на блоках 8x8 или


16x16 пикселей.
 Глобальная компенсация перемещения, базирующаяся на передаче статического
“образа”. Статическим образом может быть большое статическое изображение,
описывающее панораму фона. Для каждого изображения в последовательности,
кодируются для реконструкции объекта только 8 глобальных параметров
перемещения, описывающих движение камеры. Эти параметры представляют
соответствующее афинное преобразование образа, переданного в первом кадре.

9.11.1. Эффективность кодирования в V.2


Стандарт MPEG-4 V.2 улучшает оценку перемещения и компенсации для объектов и текстур
прямоугольной и произвольной формы. Введены две методики для оценки и компенсации
перемещения:

 Глобальная компенсация перемещения GMC (Global Motion Compensation).


Кодирование глобального перемещения для объекта, использующего малое число
параметров. GMC основано на глобальной оценке перемещения, деформации
изображения, кодировании траектории перемещения и кодировании текстуры для
ошибок предсказания.
 Четверть-пиксельная компенсация перемещения улучшает точность схемы
компенсации, за счет лишь небольшого синтаксической и вычислительной
избыточности. Точное описание перемещения приводит к малым ошибкам
предсказания и, следовательно, лучшему визуальному качеству.

В области текстурного кодирования DCT (SA-DCT - адаптивный к форме) улучшает


эффективность кодирования объектов произвольной формы. Алгоритм SA-DCT основан на
предварительно определенных ортонормальных наборах одномерных базисных функций
DCT.

Субъективные оценочные тесты показывают, что комбинация этих методик может дать
экономию в необходимой полосе канала до 50% по сравнению с версией 1, в зависимости от
типа содержимого и потока данных.

9.12. Кодирование текстур в статических


изображениях
Эффективное кодирование визуальных текстур и статических изображений (подлежащих,
например, выкладке на анимационные сетки) поддерживается режимом визуальных текстур
MPEG-4. Этот режим основан на алгоритме элементарных волн (wavelet) с нулевым деревом,
который предоставляет очень высокую эффективность кодирования в широком диапазоне
скоростей передачи. Вместе с высокой эффективностью сжатия, он также предлагает
пространственную и качественную масштабируемость (вплоть до 11 уровней
пространственной масштабируемости и непрерывной масштабируемости качества), а также
кодирование объектов произвольной формы. Кодированный поток данных предназначен
также для загрузки в терминал иерархии разрешения изображения. Эта технология
обеспечивает масштабируемость разрешения в широком диапазоне условий наблюдения
более типичном для интерактивных приложений при отображении 2-D и 3-D виртуальных
миров.

9.13. Масштабируемое кодирование видео-


объектов
MPEG-4 поддерживает кодирование изображений и видео объектов с пространственной и
временной масштабируемостью, для обычных прямоугольных и произвольных форм. Под
масштабируемостью подразумевается возможность декодировать лишь часть потока данных
и реконструировать изображение или их последовательность с:

 уменьшенной сложностью декодера и следовательно ухудшенным качеством


 уменьшенным пространственным разрешением
 уменьшенным временным разрешением
 равным временным и пространственным разрешением, но с ухудшенным качеством.

Эта функциональность желательна для прогрессивного кодирования изображений и видео,


передаваемых через неоднородные сети, а также для приложений, где получатель
неспособен обеспечить полное разрешение или полное качество изображения или видео. Это
может, например, случиться, когда мощность обработки или разрешение отображения
ограничены.

Для декодирования статических изображений, стандарт MPEG-4 предоставит 11 уровней


гранулярности, а также масштабируемость качества до уровня одного бита. Для видео
последовательностей в начале будет поддерживаться 3 уровня гранулярности, но ведутся
работы по достижению 9 уровней.

9.14. Устойчивость в среде,


предрасположенной к ошибкам
MPEG-4 обеспечивает устойчивость к ошибкам, чтобы позволить доступ к изображениям и
видео данным через широкий круг устройств памяти и передающих сред. В частности,
благодаря быстрому росту мобильных телекоммуникаций, необычайно важно получить
доступ к аудио и видео информации через радио сети. Это подразумевает необходимость
успешной работы алгоритмов сжатия аудио и видео данных в среде предрасположенной к
ошибкам при низких скоростях передачи (т.е., ниже 64 кбит/с).

Средства противостояния ошибкам, разработанные для MPEG-4 могут быть разделены на


три основные группы: ресинхронизация, восстановление данных и подавления влияния
ошибок. Следует заметить, что эти категории не являются уникальными для MPEG-4, они
широко используются разработчиками средств противодействия ошибкам для видео.

9.14.1. Ресинхронизация
Средства ресинхронизации пытаются восстановить синхронизацию между декодером и
потоком данных нарушенную в результате ошибки. Данные между точкой потери
синхронизации и моментом ее восстановления выбрасываются.

Метод ресинхронизации принятый MPEG-4, подобен используемому в структурах групп


блоков GOB (Group of Blocks) стандартов ITU-T H.261 и H.263. В этих стандартах GOB
определена, как один или более рядов макроблоков (MB). В начале нового GOB потока
помещается информация, называемая заголовком GOB. Этот информационный заголовок
содержит стартовый код GOB, который отличается от начального кода кадра, и позволяет
декодеру локализовать данный GOB. Далее, заголовок GOB содержит информацию, которая
позволяет рестартовать процесс декодирования (т.е., ресинхронизовать декодер и поток
данных, а также сбросить всю информацию предсказаний).

Подход GOB базируется пространственной ресинхронизации. То есть, раз в процессе


кодирования достигнута позиция конкретного макроблока, в поток добавляется маркер
ресинхронизации. Потенциальная проблема с этим подходом заключается в том, что из-за
вариации скорости процесса кодирования положение этих маркеров в потоке четко не
определено. Следовательно, определенные части сцены, такие как быстро движущиеся
области, будут более уязвимы для ошибок, которые достаточно трудно исключить.

Подход видео пакетов, принятый MPEG-4, базируется на периодически посылаемых в


потоке данных маркерах ресинхронизации. Другими словами, длина видео пакетов не
связана с числом макроблоков, а определяется числом бит, содержащихся в пакете. Если
число бит в текущем видео пакете превышает заданный порог, тогда в начале следующего
макроблока формируется новый видео пакет.

Маркер ресинхронизации используется чтобы выделить новый видео пакет. Этот маркер
отличим от всех возможных VLC-кодовых слов, а также от стартового кода VOP.
Информация заголовка размещается в начале видео пакета. Информация заголовка
необходима для повторного запуска процесса декодирования и включает в себя: номер
макроблока первого макроблока, содержащегося в этом пакете и параметр квантования,
необходимый для декодирования данный макроблок. Номер макроблока осуществляет
необходимую пространственную ресинхронизацию, в то время как параметр квантования
позволяет заново синхронизовать процесс дифференциального декодирования.

В заголовке видео пакета содержится также код расширения заголовка (HEC). HEC
представляет собой один бит, который, если равен 1, указывает на наличие дополнительной
информации ресинхронизации. Сюда входит модульная временная шкала, временное
приращение VOP, тип предсказания VOP и VOP F-код. Эта дополнительная информация
предоставляется в случае, если заголовок VOP поврежден.

Следует заметить, что, когда в рамках MPEG-4 используется средство восстановления при
ошибках, некоторые средства эффективного сжатия модифицируются. Например, вся
кодированная информация предсказаний заключаться в одном видео пакете так чтобы
предотвратить перенос ошибок.

В связи с концепцией ресинхронизацией видео пакетов, в MPEG-4 добавлен еще один метод,
называемый синхронизацией с фиксированным интервалом. Этот метод требует, чтобы
стартовые коды VOP и маркеры ресинхронизации (т.е., начало видео пакета) появлялись
только в легальных фиксированных позициях потока данных. Это помогает избежать
проблем, связанных эмуляциями стартовых кодов. То есть, когда в потоке данных
встречаются ошибки, имеется возможность того, что они эмулируют стартовый код VOP. В
этом случае, при использовании декодера с синхронизацией с фиксированным интервалом,
стартовый код VOP ищется только в начале каждого фиксированного интервала.
9.14.2. Восстановление данных
После того как синхронизация восстановлена, средства восстановления данных пытаются
спасти данные, которые в общем случае могут быть потеряны. Эти средства являются не
просто программами коррекции ошибок, а техникой кодирования данных, которая устойчива
к ошибкам. Например, одно конкретное средство, которое было одобрено видео группой
(Video Group), является обратимыми кодами переменной длины RVLC (Reversible Variable
Length Codes). В этом подходе, кодовые слова переменной длины сконструированы
симметрично, так что они могут читаться как в прямом, так и в обратном направлении.

Пример, иллюстрирующий использование RVLC представлен на рис. 13. Вообще, в


ситуации, когда блок ошибок повредил часть данных, все данные между двумя точками
синхронизации теряются. Однако, как показано на рис. 13, RVLC позволяет восстановить
часть этих данных. Следует заметить, что параметры, QP и HEC, показанные на рисунке,
представляют поля, зарезервированные в заголовке видео пакета для параметра квантования
и кода расширения заголовка, соответственно.

Рис. 13. Пример реверсивного кода переменной длины

9.14.3. Сокрытие ошибок


Сокрытие ошибок (имеется в виду процедура, когда последствия ошибок не видны) является
исключительно важным компонентом любого устойчивого к ошибкам видео кодека.
Средства аналогичные данному рассмотрены выше, эффективность стратегии сокрытия
ошибок в высшей степени зависит от работы схемы ресинхронизации. По существу, если
метод ресинхронизации может эффективно локализовать ошибку, тогда проблема сокрытия
ошибок становится легко решаемой. Для приложений с низкой скоростью передачи и малой
задержкой текущая схема ресинхронизации позволяет получить достаточно приемлемые
результаты при простой стратегии сокрытия, такой как копирование блоков из предыдущего
кадра.

Для дальнейшего улучшения техники сокрытия ошибок Видео Группа разработала


дополнительный режим противодействия ошибкам, который дополнительно улучшает
возможности декодера по локализации ошибок.

Этот подход использует разделение данных, сопряженных с движением и текстурой. Такая


техника требует, чтобы был введен второй маркер ресинхронизации между данными
движения и текстуры. Если информация текстуры потеряна, тогда для минимизации влияния
ошибок используется информация перемещения. То есть, из-за ошибок текстурные данные
отбрасываются, в то время данные о движении служат для компенсации перемещения как
ранее декодированной VOP.

10. Подробное техническое описание


MPEG-4 аудио
MPEG-4 кодирование аудио объектов предлагает средства как для представления
естественных звуков (таких как речь и музыка) так и синтетических - базирующихся на
структурированных описаниях. Представление для синтетического звука может быть
получено из текстовых данных или так называемых инструментальных описаний и
параметров кодирования для обеспечения специальных эффектов, таких как реверберация и
объемное звучание. Представления обеспечивают сжатие и другую функциональность,
такую как масштабируемость и обработку эффектов.

Средства аудио кодирования MPEG-4, охватывающие диапазон от 6кбит/с до 24кбит/с,


подвергаются верификационным тестированиям для широковещательных приложений
цифрового AM-аудио совместно с консорциумом NADIB (Narrow Band Digital Broadcasting).
Было обнаружено, что высокое качество может быть получено для одного и того же
частотного диапазона с привлечением цифровых методик и что конфигурации
масштабируемого кодировщика могут обеспечить лучшие эксплуатационные
характеристики.

10.1. Натуральный звук


MPEG-4 стандартизирует кодирование естественного звука при скоростях передачи от 2
кбит/с до 64 кбит/с. Когда допускается переменная скорость кодирования, допускается
работа и при низких скоростях вплоть до 1.2 кбит/с. Использование стандарта MPEG-2 AAC
в рамках набора средств MPEG-4 гарантирует сжатие аудио данных при любых скоростях
вплоть до самых высоких. Для того чтобы достичь высокого качества аудио во всем
диапазоне скоростей передачи и в то же время обеспечить дополнительную
функциональность, техники кодирования голоса и общего аудио интегрированы в одну
систему:

 Кодирование голоса при скоростях между 2 и 24 кбит/с поддерживается системой


кодирования HVXC (Harmonic Vector eXcitation Coding) для рекомендуемых
скоростей 2 - 4 кбит/с, и CELP (Code Excited Linear Predictive) для рабочих скоростей
4 - 24 кбит/с. Кроме того, HVXC может работать при скоростях вплоть до 1.2 кбит/с в
режиме с переменной скоростью. При кодировании CELP используются две частоты
стробирования, 8 и 16 кГц, чтобы поддержать узкополосную и широкополосную
передачу голоса, соответственно. Подвергнуты верификации следующие рабочие
режимы: HVXC при 2 и 4 кбит/с, узкополосный CELP при 6, 8.3, и 12 кбит/с, и
широкополосный CELP при 18 кбит/с.
 Для обычного аудио кодирования при скоростях порядка и выше 6 кбит/с, применены
методики преобразующего кодирования, в частности TwinVQ и AAC. Аудио сигналы
в этой области обычно стробируются с частотой 8 кГц.

Чтобы оптимально перекрыть весь диапазон скоростей передачи и разрешить


масштабируемость скоростей, разработана специальная система, отображенная на рис. 14.
Рис. 14. Общая блок-схема MPEG-4 аудио

Масштабируемость полосы пропускания является частным случаем масштабируемости


скоростей передачи, по этой причине часть потока, соответствующая части спектра полосы
пропускания, может быть отброшена при передаче или декодировании.

Масштабируемость сложности кодировщика позволяет кодирующим устройствам различной


сложности формировать корректные информационные потоки. Масштабируемость
сложности декодера позволяет данному потоку данных быть декодированному приборами с
различной сложностью (и ценой). Качество звука, вообще говоря, связано со сложностью
используемого кодировщика и декодера Масштабируемость работает в рамках некоторых
средств MPEG-4, но может также быть применена к комбинации методик, например, к CELP,
как к базовому уровню, и AAC.

Уровень систем MPEG-4 позволяет использовать кодеки, следующие, например, стандартам


MPEG-2 AAC. Каждый кодировщик MPEG-4 предназначен для работы в автономном режиме
(stand-alone) со своим собственным синтаксисом потока данных. Дополнительная
функциональность реализуется за счет возможностей кодировщика и посредством
дополнительных средств вне его.

10.2. Улучшения MPEG-4 аудио V.2


10.2.1. Устойчивость к ошибкам
Средства устойчивости к ошибкам предоставляют улучшенные рабочие характеристики для
транспортных каналов, предрасположенных к ошибкам.

Улучшенную устойчивость к ошибкам для AAC предлагается набором средств сокрытия


ошибок. Эти средства уменьшают воспринимаемое искажение декодированного аудио
сигнала, которое вызвано повреждением бит информационного потока. Предлагаются
следующие средства для улучшения устойчивости к ошибкам для нескольких частей AAC-
кадра:

 Средство виртуального кодового блокнота (VCB11)


 Средство с обращаемыми кодовыми словами переменной длины RVLC (Reversible
Variable Length Coding)
 Средство изменения порядка кодовых слов Хафмана HCR (Huffman Codeword
Reordering)

Возможности улучшения устойчивости к ошибкам для всех средств кодирования


обеспечивается с помощью синтаксиса поля данных. Это позволяет применение
продвинутых методик кодирования, которые могут быть адаптированы к специальным
нуждам различных средств кодирования. Данный синтаксис полей данных обязателен для
всех объектов версии 2.

Средство защиты от ошибок (EP tool) работает со всеми аудио объектами MPEG-4 версии 2,
предоставляя гибкую возможность конфигурирования для широкого диапазона канальных
условий. Главными особенностями средства EP являются следующие:

 Обеспечение набора кодов для коррекции/детектирования ошибок с широким


диапазоном масштабируемости по рабочим характеристикам и избыточности.
 Обеспечение системы защиты от ошибок, которая работает как с кадрами
фиксированной, так и переменной длины.
 Обеспечение управления конфигурацией защиты от неравных ошибок UEP (Unequal
Error Protection) с низкой избыточностью.

Алгоритмы кодирования MPEG-4 аудио версии 2 предоставляет классификацию всех полей


потока согласно их чувствительности к ошибкам. На основе этого, поток данных делится на
несколько классов, которые могут быть защищены раздельно с помощью инструмента EP,
так что более чувствительные к ошибкам части окажутся защищены более тщательно.

10.2.2. Аудио-кодирование с малыми задержками


В то время как универсальный аудио кодировщик MPEG-4 очень эффективен при
кодировании аудио сигналов при низких скоростях передачи, он имеет алгоритмическую
задержку кодирования/декодирования, достигающую нескольких сот миллисекунд и
является, таким образом, неподходящим для приложений, требующих малых задержек
кодирования, таких как двунаправленные коммуникации реального времени. Для обычного
аудио кодировщика, работающего при частоте стробирования 24 кГц и скорости передачи 24
кбит/с, алгоритмическая задержка кодирования составляет 110 мс плюс до 210 мс
дополнительно в случае использования буфера. Чтобы кодировать обычные аудио сигналы
enable с алгоритмической задержкой, не превышающей 20 мс, MPEG-4 версии 2
специфицирует кодировщик, который использует модификацию алгоритма MPEG-2/4 AAC
(Advanced Audio Coding). По сравнению со схемами кодирования речи, этот кодировщик
позволяет сжимать обычные типы аудио сигналов, включая музыку, при достаточно низких
задержках. Он работает вплоть до частот стробирования 48 кГц и использует длину кадров
512 или 480 значений стробирования, по сравнению с 1024 или 960 значений, используемых
в стандарте MPEG-2/4 AAC. Размер окна, используемого при анализе и синтезе блока
фильтров, уменьшен в два раза. Чтобы уменьшить артифакты предэхо в случае переходных
сигналов используется переключение размера окна. Для непереходных частей сигнала
используется окно синусоидальной формы, в то время как в случае переходных сигналов
используется так называемое окно с низким перекрытием. Использование буфера битов
минимизируется, чтобы сократить задержку. В крайнем случае, такой буфер вообще не
используется.

10.2.3. Масштабируемость гранулярности


Масштабируемость скорости передачи, известная как встроенное кодирование, является
крайне желательной функцией. Обычный аудио кодировщик версии 1 поддерживает
масштабируемость с большими шагами, где базовый уровень потока данных может
комбинироваться с одним или более улучшенных уровней потока данных, чтобы можно
было работать с высокими скоростями и, таким образом, получить лучшее качество звука. В
типовой конфигурации может использоваться базовый уровень 24 кбит/с и два по 16 кбит/с,
позволяя декодирование с полной скоростью 24 кбит/с (моно), 40 кбит/с (стерео), и 56 кбит/с
(стерео). Из-за побочной информации передаваемой на каждом уровне, малые уровни-
добавки поддерживаются в версии 1 не очень эффективно. Чтобы получить эффективную
масштабируемость с малыми шагами для стандартного аудио кодировщика, в версии 2
имеется средство побитового арифметического кодирования BSAC (Bit-Sliced Arithmetic
Coding). Это средство используется в комбинации с AAC-кодированием и замещает
бесшумное кодирование спектральных данных и масштабных коэффициентов. BSAC
предоставляет масштабируемость шагами в 1 кбит/с на аудио канал, т.е. шагами по 2 кбит/с
для стерео сигнала. Используется один базовый поток (уровень) данных и много небольших
потоков улучшения. Базовый уровень содержит общую информацию вида, специфическую
информацию первого уровня и аудио данные первого уровня. Потоки улучшения содержат
только специфические данные вида и аудио данные соответствующего слоя. Чтобы получить
масштабируемость с небольшими шагами, используется побитовая схема a квантования
спектральных данных. Сначала преобразуемые спектральные величины группируются в
частотные диапазоны. Каждая из этих групп содержит оцифрованные спектральные
величины в их двоичном представлении. Затем биты группы обрабатываются порциями
согласно их значимости. Таким образом сначала обрабатываются все наиболее значимые
биты (MSB) оцифрованных величин в группе и т.д. Эти группы бит затем кодируются с
привлечением арифметической схемы кодирования, чтобы получить энтропийные коды с
минимальной избыточностью. Представлены различные модели арифметического
кодирования, чтобы перекрыть различные статистические особенности группировок бит.

Верификационные тесты показали, что аспект масштабируемости этого средства ведет себя
достаточно хорошо в широком диапазоне скоростей передачи. При высоких скоростях оно
столь же хорошо, как главный профайл AAC, работающий на той же скорости, в то время
как при нижних скоростях функция масштабируемости требует скромной избыточности по
отношению к основному профайлу AAC, работающий на той же скорости.

10.2.4. Параметрическое кодирование звука


Средства параметрического аудио-кодирования сочетают в себе низкую скорость
кодирования обычных аудио сигналов с возможностью модификации скорости
воспроизведения или шага при декодировании без бока обработки эффектов. В сочетании со
средствами кодирования речи и звука версии 1, ожидается улучшенная эффективность
кодирования для использования объектов, базирующихся на кодировании, которое допускает
выбор и/или переключение между разными техниками кодирования.

Параметрическое аудио-кодирование использует для кодирования общих аудио сигналов


технику HILN (Harmonic and Individual Lines plus Noise) при скоростях 4 кбит/с, а выше
применяется параметрическое представление аудио сигналов. Основной идеей этой
методики является разложение входного сигнала на аудио объекты, которые описываются
соответствующими моделями источника и представляются модельными параметрами. В
кодировщике HILN используются модели объектов для синусоид, гармонических тонов и
шума.

Как известно из кодирования речи, где используются специализированные модели


источника, основанные на процессе генерации звуков в человеческом голосовом тракте,
продвинутые модели источника могут иметь преимущество в частности для схем
кодирования с очень низкими скоростями передачи.

Из-за очень низкой скорости передачи могут быть переданы только параметры для
ограниченного числа объектов. Следовательно, модель восприятия устроена так, чтобы
отбирать те объекты, которые наиболее важны для качества приема сигнала.

В HILN, параметры частоты и амплитуды оцифровываются согласно с "заметной разницей",


известной из психо-акустики. Спектральный конверт шума и гармонический тон описан с
использованием моделирования LPC. Корреляция между параметрами одного кадра и между
последовательными кадрами анализируется методом предсказания параметров.
Оцифрованные параметры подвергаются энтропийному кодированию, после чего эти данные
вводятся в общий информационный поток.

Очень интересное свойство этой схемы параметрического кодирования происходит из того


факта, что сигнал описан через параметры частоты и амплитуды. Эта презентация сигнала
позволяет изменять скорость и высоту звука простой вариацией параметров декодера.
Параметрический аудио кодировщик HILN может быть объединен с параметрическим
кодировщиком речи MPEG-4 (HVXC), что позволит получить интегрированный
параметрический кодировщик, покрывающий широкий диапазон сигналов и скоростей
передачи. Этот интегрированный кодировщик поддерживает регулировку скорости и тона.
Используя в кодировщике средство классификации речи/музыки, можно автоматически
выбрать HVXC для сигналов речи и HILN для музыкальных сигналов. Такое автоматическое
переключение HVXC/HILN было успешно продемонстрировано, а средство классификации
описано в информативном приложении стандарта версии 2.

10.2.5. Сжатие тишины CELP


Средство “сжатия тишины” уменьшает среднюю скорость передачи благодаря более низкому
сжатию пауз (тишины). В кодировщике, детектор активности голоса используется для
разделения областей с нормальной голосовой активностью и зон молчания или фонового
шума. Во время нормальной голосовой активности используется кодирование CELP как в
версии 1. В противном случае передается дескриптор SID (Silence Insertion Descriptor) при
малой скорости передачи. Этот дескриптор SID активирует в декодере CNG (Comfort Noise
Generator). Амплитуда и форма спектра этого шума специфицируются энергией и
параметрами LPC как в обычном кадре CELP. Эти параметры являются опционной частью
SID и таким образом могут модифицироваться.

10.2.6. Устойчивое к ошибкам HVXC


Объект HVXC, устойчивый к ошибкам (ER) поддерживается средствами параметрического
кодирования голоса (ER HVXC), которые предоставляют режимы с фиксированными
скоростями обмена (2.0-4.0 кбит/с) и режим с переменной скоростью передачи (<2.0 кбит/с,
<4.0 кбит/с) в раках масштабируемой и не масштабируемой схем. В версии 1 HVXC, режим с
переменной скоростью передачи поддерживается максимум 2.0 кбит/с, а режим с
переменной скоростью передачи в версии ER HVXC 2 дополнительно поддерживается
максимум 4.0 кбит/с. ER HVXC обеспечивает качество передачи голоса международных
линий (100-3800 Hz) при частоте стробирования 8кГц. Когда разрешен режим с переменной
скоростью передачи, возможна работа при низкой средней скорости передачи. Речь,
кодированная в режиме с переменной скоростью передачи при среднем потоке 1.5 кбит/с, и
типовом среднем значении 3.0 кбит/с имеет существенно то же качество, что для 2.0 кбит/с
при фиксированной скорости и 4.0 кбит/с, соответственно. Функциональность изменения
тона и скорости при декодировании поддерживается для всех режимов. Кодировщик речи ER
HVXC ориентирован на приложения от мобильной и спутниковой связи, до IP-телефонии, и
голосовых баз данных.

10.2.7. Пространственные характеристики среды


Средства пространственной характеристики среды позволяют создавать аудио сцены с
более естественными источниками звука и моделированием звукового окружения, чем это
возможно в версии 1. Поддерживается как физический подход, так и подход восприятия.
Физический подход основан на описании акустических свойств среды (например, геометрии
комнаты, свойств конструкционных материалов, положения источников звука) и может быть
использован в приложениях подобно 3-D виртуальной реальности. Подход с позиций
восприятия позволяет на высоком уровне описать аудио восприятие сцены, основанное на
параметрах, подобных тем, что используются блоком эффекта реверберации. Таким образом,
аудио и визуальная сцена могут быть сформированы независимо, как это обычно требуется в
случае кинофильмов. Хотя пространственной характеристики среды относятся к аудио,
они являются частью описания BIFS (BInary Format for Scene) в системах MPEG-4 и
называются продвинутым AudioBIFS.

10.2.8. Обратный канал


Обратный канал (back channel) позволяет передать запрос клиента и/или клиентского
терминала серверу. Посредством обратного канала может быть реализована
интерактивность. В системе MPEG-4 о необходимости обратного канала (back channel)
клиентский терминал оповещается с помощью соответствующего дескриптора
элементарного потока, характеризующего параметры этого канала. Терминал клиента
открывает этот обратный канал, так же как и обычные каналы. Объекты (например, медиа
кодировщики или декодеры), которые соединены через обратный канал известны через
параметры, полученные через дескриптор элементарного потока и за счет ассоциации
дескриптора элементарного потока с дескриптором объекта. В MPEG-4 аудио, обратный
канал обеспечивает обратную связь для настройки скорости передачи, масштабируемости и
системы защиты от ошибок.

10.2.9. Транспортный поток звука


Транспортный поток MPEG-4 аудио определяет механизм передачи аудио потоков MPEG-4
без использования систем MPEG-4 и предназначен исключительно для аудио приложений.
Транспортный механизм использует двухуровневый подход, а именно уровни
мультиплексирования и синхронизации. Уровень мультиплексирования (Low-overhead
MPEG-4 Audio Transport Multiplex: LATM) управляет мультиплексированием нескольких
информационных полей MPEG-4 аудио и аудио конфигурационной информации. Уровень
синхронизации специфицирует синтаксис транспортного потока MPEG-4 аудио, который
называется LOAS (Low Overhead Audio Stream - аудио поток с низкой избыточностью).
Интерфейсный формат для транспортного уровня зависит от ниже лежащего
коммуникационного уровня.

10.3. Синтетический звук


MPEG-4 определяет декодеры для генерирования звука на основе нескольких видов
структурированного ввода. Текстовый ввод Text преобразуется в декодере TTS (Text-To-
Speech), в то время как прочие звуки, включая музыку, могут синтезироваться стандартным
путем. Синтетическая музыка может транспортироваться при крайне низких потоках
данных.

Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1.2 Кбит/с,
что позволяет использовать при синтезе речи в качестве входных данных текст или текст с
просодическими параметрами (тональная конструкция, длительность фонемы, и т.д.). Такие
декодеры поддерживают генерацию параметров, которые могут быть использованы для
синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы
с международными символами фонем. Дополнительная разметка используется для передачи
в тексте управляющей информации, которая переадресуется другим компонентам для
обеспечения синхронизации с текстом. Заметим, что MPEG-4 обеспечивает стандартный
интерфейс для работы кодировщика TTS (TTSI = Text To Speech Interface), но не для
стандартного TTS-синтезатора.

10.3.1. Синтез с множественным управлением (Score


Driven Synthesis).
Средства структурированного аудио декодируют входные данные и формируют выходной
звуковой сигнал. Это декодирование управляется специальным языком синтеза, называемым
SAOL (Structured Audio Orchestra Language), который является частью стандарта MPEG-4.
Этот язык используется для определения "оркестра", созданного из "инструментов"
(загруженных в терминал потоком данных), которые формирует и обрабатывает
управляющую информацию. Инструмент представляет собой маленькую сеть примитивов
обработки сигналов, которые могут эмулировать некоторые специфические звуки, такие,
которые могут производить настоящие акустические инструменты. Сеть обработки сигналов
может быть реализована аппаратно или программно и включать как генерацию, так и
обработку звуков, а также манипуляцию записанными ранее звуками.

MPEG-4 не стандартизует "единственный метод" синтеза, а скорее описывает путь описания


методов синтеза. Любой сегодняшний или будущий метод синтеза звука может быть описан
в SAOL, включая таблицу длин волн, FM, физическое моделирование и гранулярный синтез,
а также непараметрические гибриды этих методов.

Управление синтезом выполняется путем включения "примитивов" (score) или "скриптов" в


поток данных. Примитив представляет собой набор последовательных команд, которые
включают различные инструменты в определенное время и добавляют их сигнал в общий
музыкальный поток или формируют заданные звуковые эффекты. Описание примитива,
записанное на языке SASL (Structured Audio Score Language), может использоваться для
генерации новых звуков, а также включать дополнительную управляющую информацию для
модификации существующих звуков. Это позволяет композитору осуществлять тонкое
управление синтезированными звуками. Для процессов синтеза, которые не требуют такого
тонкого контроля, для управления оркестром может также использоваться протокол MIDI.

Тщательный контроль в сочетании с описанием специализированных инструментов,


позволяет генерировать звуки, начиная с простых аудио эффектов, таких как звуки шагов
или закрытия двери, кончая естественными звуками, такими как шум дождя или музыка,
исполняемая на определенном инструменте или синтетическая музыка с полным набором
разнообразных эффектов.

Для терминалов с меньшей функциональностью, и для приложений, которые не требуют


такого сложного синтеза, стандартизован также "формат волновой таблицы” (“wavetable bank
format"). Используя этот формат, можно загрузить звуковые образцы для использования при
синтезе, а также выполнить простую обработку, такую как фильтрация, реверберация, и ввод
эффекта хора. В этом случае вычислительная сложность необходимого процесса
декодирования может быть точно определена из наблюдения потока данных, что
невозможно при использовании SAOL.

По инициативе ряда компаний (Philips Business Electronics, Sony и Nokia) была создана
экспертная группа по мультимедиа и гипермедиа MHEG (Multimedia Hypermedia Expert
Group (ISO/IEC DIS 13522-5, 1995г); см. http://www.mheg.org/users/mheg/archives.htm и
http://www.mheg.org/users/mheg/archives/ doc/dsmcc-mheg.zip), которая определила стандарт
для обмена мультимедийными объектами (видео, звук, текст и другие данные) между
приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и
вещания) с использованием объектных классов MHEG. Этот стандарт позволил
программным объектам включать в себя любую систему кодирования, которая определена в
базовом приложении. MHEG, был принят советом по цифровому видео и звуку (DAVIC -
Digital Audio-Visual Council; см. http://www.mheg.org/users/mheg/archives/doc/ 14B94R10.zip).
MHEG-объекты создаются мультимедийными приложениями. MHEG - будущий
международный стандарт интерактивного TV

Стандарт MPEG-6, который предназначался для беспроводной передачи данных; и MPEG-8,


цель которого - четырехмерное описание объектов, так и не увидели свет.
В рамках MPEG-4 было введено понятие аудио- и видео- объектов. Дальнейшее развитие эта
технология нашла в стандарте MPEG-7. Здесь расширяется понятие сцены и ее описания,
делаются подходы к решению задачи поиска видео и аудио объектов в мультмедийном
материале.

11. Приложение. Словарь и сокращения


AAC Advanced Audio Coding - продвинутое кодирование звука
AAL ATM Adaptation Layer - адаптационный уровень ATM
Логическая субструктура элементарного потока для облегчения доступа
Access Unit
или манипуляции потоком данных
Advanced Coding Efficiency (профайл) - эффективность продвинутого
ACE
кодирования
Amd Поправка
AOI Area Of Interest - область интереса
API Application Programming Interface - программный интерфейс приложения
Advanced Real-time Simple - простой, продвинутый профайл реального
ARTS
времени
ATM Asynchronous Transfer Mode - режим асинхронной передачи
BAP Body Animation Parameters - параметры анимации тела
BDP Body Definition Parameters - параметры описания тела
BIFS Binary Format for Scenes - двоичный формат сцены
BSAC Bit-Sliced Arithmetic Coding - побитовое арифметическое кодирование
CD Committee Draft - проект комитета
CE Core Experiment - центральный эксперимент
Code Excited Linear Prediction - линейное предсказание, стимулируемое
CELP
кодом
CIF Common Intermediate Format - общий промежуточный формат
CNG Comfort Noise Generator - генератор комфортного шума
DAI DMIF-Application Interface - прикладной интерфейс DMIF
DCT Discrete Cosine Transform - дискретное косинусное преобразование
DMIF Delivery Multimedia Integration Framework -
DNI DMIF Network Interface - сетевой интерфейс DMIF
Dynamic Resolution Conversion - преобразование с динамическим
DRC
разрешением
DS DMIF signaling - сигнальная система DMIF
EP Error Protection - защита от ошибок
ER Error Resilient - противостояние ошибкам
Elementary Stream (элементарный поток): последовательность данных,
которая исходит из передающего терминала MPEG-4 Terminal и приходит
ES
одному получателю, например, медиа- или управляющему объекту в
приемном терминале MPEG-4. Он проходит через один канал FlexMux.
FAP Facial Animation Parameters - параметры анимации лица
FBA Facial and Body Animation - анимация лица и тела
FDP Facial Definition Parameters - параметры описания лица
Последовательность пакетов FlexMux, ассоциированных с одним или более
FlexMux stream
каналов FlexMux, идущих через один канал TransMux
FlexMux tool A Flexible (Content) Multiplex tool - гибкое средство мультиплексирования
GMC Global Motion Compensation - компенсация общего перемещения
General Switched Telephone Network - общедоступная коммутируемая
GSTN
телефонная сеть
HCR Huffman Codeword Reordering - смена порядка кодовых слов Хафмана
HFC Hybrid Fiber Coax - гибридный волоконный коаксиал
HTTP HyperText Transfer Protocol - протокол передачи гипертекста
Harmonic Vector Excitation Coding - кодирование с гармоническим
HVXC
возбуждением вектора
IP Internet Protocol - протокол Интернет
Intellectual Property Identification - идентификация интеллектуальной
IPI
собственности
Intellectual Property Management и Protection - защита и управление
IPMP
интеллектуальной собственностью
IPR Intellectual Property Rights - Права интеллектуальной собственности
IS International Standard - международный стандарт
Integrated Service Digital Network - цифровая сеть с интегрированными
ISDN
услугами
LAR Logarithmic Area Ratio - логарифмическое отношение области
LATM Low-overhead MPEG-4 Audio Transport Multiplex:
LC Low Complexity - низкая сложность
LOAS Low Overhead Audio Stream - аудио поток с низкой избыточностью
LOD Level Of Detail - уровень детализации
LPC Linear Predictive Coding - линейно-предсказательное кодирование
LTP Long Term Prediction - долгосрочное предсказание
M4IF MPEG-4 Industry Forum - Промышленный форум MPEG-4
MCU Multipoint Control Unit - многоточечный блок управления
Mdat media data atoms - атомы медийных данных
A graphical construct consisting of connected surface elements to describe the
Mesh
geometry/shape of a visual object. -
Musical Instrument Digital Interface - цифровой интерфейс музыкального
MIDI
инструмента>
Moving Pictures Experts Group - Экспертная группа по движущимся
MPEG
изображениям
MSB Most Significant Bits - наиболее значимые биты
OCI Object Content Information - информационное содержание объекта
OD Object Descriptor - дескриптор объекта
PDA Personal Digital Assistant - персональный цифровой помощник
PDU Protocol Data Unit - Протокольный блок данных
PSNR Peak Signal to Noise Ratio - отношение пикового значения сигнала к шуму
Quarter Common Intermediate Format - четвертинный промежуточный
QCIF
формат изображения (видео)
QoS Quality of Service - качество обслуживания
The process of generating pixels for display - процесс генерации пикселей для
Rendering
отображения
RTP Real Time Transport Protocol - транспортный протокол реального времени
RTSP Real Time Streaming Protocol - поточный протокол реального времени
Reversible Variable Length Coding - реверсивное кодирование с переменной
RVLC
длиной
shape-adaptive DCT - двойное косинусное преобразование, адаптируемое к
SA-DCT
форме объекта
SID Silence Insertion Descriptor - дескриптор паузы
SL Sync(hronization) layer - уровень синхронизации
Synchronized Multimedia Integration Language - интеграционный язык для
SMIL
синхронизованного мультимедиа
SNHC Synthetic- Natural Hybrid Coding - синтетико-натуральное кодирование
SNR Signal to Noise Ratio - отношение сигнал-шум
Статический спрайт представляет собой возможно большое статическое
Sprite
изображение, описывающие панорамный фон
SRM Session Resource Manager - субъект управления ресурсами сессии
SVG Scalable Vector Graphics - масштабируемая векторная графика
T/F coder Time/Frequency Coder - преобразователь времени в частоту
TCP Transmission Control Protocol - протокол управления передачей данных
TransMux Общая абстракция для любой схемы транспортного мультиплексирования
TTS Text-to-speech - текст в голос
UDP User Datagram Protocol - протокол передачи датограмм пользователя
UEP Unequal Error Protection -
Universal Mobile Telecommunication System - универсальная мобильная
UMTS
телекоммуникационная система
VCB Virtual CodeBook - виртуальная кодовая книга
Viseme Выражение лица, сопряженное с определенной фонемой
VLBV Very Low Bitrate Video - видео с очень низкой скоростью передачи данных
VM Verification Model - верификационная модель
VOP Video Object Plane - объектная плоскость видео
Virtual Reality Modeling Language - язык моделирования виртуальной
VRML
реальности
W3C World Wide Web Consortium - консорциум WWW
WD Working Draft - рабочий черновик (проект)
WWW World Wide Web - Всемирная паутина
Extensible MPEG-4 textual format - расширяемый текстуальный формат
XMT
MPEG-4

2.5.2 Стандарт MPEG-7


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Перевод http://mpeg.telecomitalialab.com/standards/mpeg-7/

Контекст MPEG-7
Цель MPEG-7
Область действия стандарта
Главные функции MPEG-7
Эталонные программы
Архитектура терминала
Язык описания DDL
Аудио MPEG-7
Видео MPEG-7
Схемы описания мультимедиа
Эталонные программы: экспериментальная модель

MPEG-7 является стандартом ISO/IEC, разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал стандарты MPEG-1, MPEG-2 и MPEG-4. Стандарты MpeG-1
и MPEG-2 сделали возможным интерактивное видео на CD-ROM и цифровое телевидение.
Стандарт MPEG-4 предоставляет стандартизованные технологические элементы,
позволяющие интеграцию парадигм производства, рассылки и доступа к содержимому в
области цифрового телевидения, интерактивной графики и интерактивного мультимедиа.

MPEG-7 формально называется “Мультимедиа-интерфейс для описания содержимого”


(Multimedia Content Description Interface), он имеет целью стандартизовать описание
мультимедийного материала, поддерживающего некоторый уровень интерпретации смысла
информации, которая может быть передана для обработки ЭВМ. Стандарт MPEG-7 не
ориентирован на какое-то конкретное приложение, он стандартизует некоторые элементы,
которые рассчитаны на поддержку как можно более широкого круга приложений.
Дополнительную информацию о MPEG-7 можно найти на базовой странице MPEG:

http://www.cselt.it/mpeg

а WEB-страница MPEG-7 (Industry Focus Group) размещена по адресу http://www.mpeg-


7.com. Эти WEB-страницы содержат ссылки на информацию об MPEG, включая описание
MPEG-7, многие общедоступные документы, списки "Frequently Asked Questions" и ссылки
на WEB-страницы MPEG-7.

1. Введение
Огромное количество аудио-визуальной информации стало доступно в цифровой форме, в
виде цифровых архивов, во всемирной паутине, в виде широковещательных потоков, а также
в форме частных или профессиональных баз данных. Значение информации часто зависит
оттого, насколько ее легко найти, извлечь, отфильтровать и управлять.

Тенденция очевидна. В ближайшие несколько лет, пользователи столкнутся с таким


большим числом мультимедийных материалов, предоставляемых разными провайдерами,
что эффективный доступ к этому почти бесконечному материалу представляется трудно
вообразимым. Несмотря на тот факт, что пользователи имеют увеличивающиеся ресурсы,
управление ими становится все более сложной задачей, из-за их объема. Это касается как
профессионалов, так и пользователей. Вопрос идентификации и управления материалами не
ограничивается приложениями доступа к базам данных, таким как цифровые библиотеки, но
распространяются в сферу выбора широковещательных каналов, мультимедийного
редактирования и служб мультимедийных каталогов. Протокол MPEG-7 призван решить
многие из этих проблем.

MPEG-7 является стандартом ISO/IEC, разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал также стандарты MPEG-1 (1992), MPEG-2 (1995), и MPEG-4
(версия 1 в 1998 и версия 2 в 1999). Стандарты MPEG-1 и MPEG-2 позволили производить
широко распространенные коммерческие продукты, такие как интерактивные CD, DVD,
цифровое широковещательное аудио (DAB), цифровое телевидение, и многие другие
коммерческие услуги. MPEG-4 является первым реальным мультимедийным стандартом для
представления данных, позволяющим интерактивно работать с комбинациями натурального
и синтетического материала, закодированного в виде объектов (он моделирует аудио-
визуальные данные, как комбинацию таких объектов). MPEG-4 предоставляет
стандартизованные технологические элементы, допускающие интеграцию производства,
распределения и доступа к мультимедийному материалу. Это относится к интерактивному и
мобильному мультимедиа, интерактивной графике и улучшенному цифровому телевидению.

Стандарт MPEG-7, формально назван “Multimedia Content Description Interface”. MPEG-7


предоставит широкий набор стандартизованных средств описания мультимедиа материала. В
области действия MPEG-7 находятся как пользователи-люди, так и автоматические системы,
выполняющие обработку аудио-визуального материала.

MPEG-7 предлагает полный набор аудиовизуальных средств описания, которые образуют


базис для приложений, делая возможным высококачественный доступ к мультимедийному
материалу, что предполагает хорошие решения для записи, идентификации материала,
обеспечения прав собственности, и быстрой, эргономичной, точной целевой фильтрации,
поиска.

Дополнительную информацию о MPEG-7 можно найти на WEB-сайте MPEG-7


http://drogo.cselt.it/mpeg/ и сайте MPEG-7 Industry Focus Group http://www.mpeg-7.com. Эти
web-страницы содержат ссылки на ценную информацию о MPEG, включая материалы по
MPEG-7, многие общедоступные документы, несколько списков ‘Frequently Asked Questions’
и ссылки на другие WEB-страницы MPEG-7.

1.1. Контекст MPEG-7


Доступно все больше и больше аудиовизуального материала из самых разных источников.
Информация может быть представлена в различных медийных формах, таких как
статические изображения, графика, 3D модели, звук, голос, видео. Аудиовизуальная
информация играет важную роль в обществе, будучи записана на магнитную или фото
пленку, или поступая в реальном масштабе времени от аудио или визуальных датчиков в
аналоговой или цифровой форме. В то время как аудиовизуальная информация
первоначально предназначалась для людей, в настоящее время все чаще такие данные
генерируются и передаются и воспринимаются компьютерными системами. Это может быть,
например, сопряжено с распознаванием голоса или изображения и медийным
преобразованием (голос в текст, картинку в голос, голос в картинку, и т.д.). Другими
сценариями являются извлечение информации (быстрый и эффективный поиск для
различных типов мультимедийных документов, представляющих интерес для пользователя)
и фильтрация потоков описаний аудиовизуального материала (чтобы получить только те
элементы мультимедиа данных, которые удовлетворяют предпочтениям пользователя).
Например, программа во время телепередачи запускает соответствующим образом
программируемый VCR, чтобы записать эту программу, или сенсор изображения выдает
предупреждение, когда происходит определенное событие. Автоматическое
транскодирование может быть выполнено для строки символов, преобразовав ее в
аудиоданные, или можно провести поиск в потоке аудио или видео данных. Во всех этих
примерах, аудио-визуальная информация была приемлемым образом закодирована, что
позволяет программе ЭВМ предпринять соответствующие действия.

Аудиовизуальные источники будут играть в перспективе все большую роль в нашей жизни,
и будет расти необходимость обрабатывать такие данные. Это делает необходимым
обработку видов аудиовизуальной информации, имеющей волновую форму,
компрессированный формат (такой как MPEG-1 и MPEG-2) или даже объектно-
ориентированный (такой как MPEG-4) формат. Необходимы формы презентации, которые
позволяют некоторую степень интерпретации смысла информации. Эти формы могут быть
переданы в, или доступны для прибора или программы ЭВМ. В примерах приведенных выше
датчики изображения могут генерировать визуальные данные не в форме PCM (значения
пикселей), а в форме объектов с ассоциированными физическими величинами и временной
информацией. Эти объекты могут быть запомнены и обработаны с целью проверки,
выполняются ли определенные условия. Видео записывающий прибор может получить
описания аудиовизуальной информации, ассоциированной с программой, которая при
выполнении заданных условий выдаст команду на запись, например, только новости за
исключением спорта или запись фильма с автоматическим вырезанием вставок рекламы
(согласитеь, об этом сегодня можно только мечтать).

MPEG-7 будет стандартом для описания мультимедийных данных, которые поддерживают


определенные операционные требования. MPEG не стандартизует приложения. MPEG
может, однако использовать приложения для понимания требований и развития технологий.
Должно быть ясно, что требования, сформулированные в данном документе, получены из
анализа широкого диапазона потенциальных приложений, которые могут использовать
описания MPEG-7. MPEG-7 не ориентирован на какое-то конкретное приложение; скорее,
элементы, которые стандартизует MPEG-7, будут поддерживать максимально широкий
диапазон приложений.

1.2. Цель MPEG-7


В октябре 1996, группа MPEG начала разработку проблем, рассмотренных выше. Новым
элементом семейства MPEG стал интерфейс описаний мультмедийного материала,
называемый “Multimedia Content Description Interface” (или сокращенно MPEG-7), целью
которого явилась стандартизация базовых технологий, позволяющих описание аудио-
визуальных данных в рамках мультимедийной среды.

Аудиовизуальный материал MPEG-7 может включать в себя: статические изображения,


графику, 3D модели, звук, голос, видео и композитную информацию о том, как эти элементы
комбинируются при мультимедийной презентации. В особых случаях этих общих видов
данных сюда может включаться выражения лица и частные характеристики личности.

Средства описаний MPEG-7 однако не зависят от способа кодирования и записи материала.


Можно сформировать описание MPEG-7 аналогового фильма или картинки, которая
напечатана на бумаге, точно также, как и цифрового материала.

MPEG-7, как и другие объекты семейства MPEG,предоставляют стандартное представление


аудио-визуальных данных, удовлетворяющих определенным требованиям. Одной из
функций стандарта MPEG-7 является обеспечение ссылок на определенные части
мультимедийного материала. Например, дескриптор формы, используемый в MPEG-4,
может оказаться полезным в контексте MPEG-7, точно также Это может относиться к полям
вектора перемещения, используемым в MPEG-1 и MPEG-2.

В своих описаниях MPEG-7 допускает различную гранулярность, предлагая возможность


существования различных уровней дискриминации. Хотя описание MPEG-7 не зависит от
кодового представления материала, он может использовать преимущества, предоставляемые
кодированным материалом MPEG-4. Если материал кодирован с использованием MPEG-4,
который предоставляет средства кодирования аудио-визуального материала, в виде
объектов, имеющих определенные связи во времени (синхронизация) и в пространстве (на
сцене для видео или в комнате для аудио), будет возможно связать описания с элементами
(объектами) в пределах сцены, такими как аудио и видео объекты.

Так как описательные характеристики должны иметь смысл в контексте приложения, они
будут различными для разных приложений. Это подразумевает, что один и тот же материал
может быть описан различным образом в зависимости от конкретного приложения. Возьмем
в качестве примера визуальный материал: нижним уровнем абстракции будет описание,
например, формы, размера, текстуры, цвета, движения (траектории) и позиции ("где на сцене
может размещаться объект"). А для аудио: ключ, тональность, темп, вариации темпа,
положение в звуковом пространстве. Высшим уровнем представления будет семантическая
информация: "Это сцена с лающей коричневой собакой слева и голубым мячом, падающим
справа, с фоновым звуком проезжающих авто". Могут существовать промежуточные уровни
абстракции.

Уровень абстракции относится к способу выделения определенных характеристик: многие


характеристики нижнего уровня могут быть выделены полностью автоматически, в то время
как характеристики высокого уровня требуют большего взаимодействия с человеком.

Кроме описания материала, требуется также включить другие виды информации о


мультимедийных данных:

 Форма. Примером формы является используемая схема кодирования (например,


JPEG, MPEG-2), или общий объем данных. Эта информация помогает определить,
может ли материал быть воспринят пользователем.
 Условия доступа к материалу. Это включает учет ограничений на использование
материала, учитывающих авторские права и права собственности, а также цену.
 Классификация. Это включает оценку происхождения материала и его
классификацию по предопределенным категориям.
 Связь с другим важным материалом. Информация может помочь пользователю
ускорить поиск.
 Контекст. В случае записанного документального материала, очень важно знать
обстоятельства записи (например, олимпийские игры 1996, финал 200-метрового
забега для мужчин с барьерами)

Во многих случаях будет желательно использовать для описания текстовые данные.


Необходимо позаботиться о том, чтобы полезность описаний была независима по
возможности от языка. Хорошим примером текстуального описания является указания
авторов, названия фильма и пр.

Следовательно, средства MPEG-7 позволят формировать описания (т.e., наборы схем


описания и соответствующих дескрипторов по желанию пользователя) материала, который
может содержать:

 Информацию, описывающую процессы создания и производства материала


(директор, заголовок, короткометражный игровой фильм)
 Информацию, относящуюся к использованию материала (указатели авторского права,
история использования, расписание вещания)
 Информация о характеристиках записи материала (формат записи, кодирование)
 Структурная информация о пространственных, временных или пространственно-
временных компонентах материала (разрезы сцены, сегментация областей,
отслеживание перемещения областей)
 Информация о характеристиках материала нижнего уровня (цвета, текстуры, тембры
звука, описание мелодии)
 Концептуальная информация о реальном содержании материала (объекты и события,
взаимодействие объектов)
 Информация о том, как эффективно просматривать материал (конспекты, вариации,
пространственные и частотные субдиапазоны, ...)
 Информация о собрании объектов.
 Информация о взаимодействии пользователя с материалом (предпочтения
пользователя, история использования)

Все эти описания являются, конечно, эффективно закодированными для поиска, отбора и т.д.

Чтобы удовлетворить этому многообразию дополнительных описаний материала, MPEG-7


осуществляет описание материала с нескольких точек зрения. Наборы средств описаний,
разработанные с учетом этих точек зрения, представляются в виде отдельных объектов.
Однако они взаимосвязаны и могут комбинироваться множеством способов. В зависимости
от приложения, некоторые будут присутствовать, а другие отсутствовать, а могут
присутствовать лишь частично.

Описание, сформированное с помощью средств MPEG-7, будет ассоциировано с самим


материалом, чтобы позволить быстрый и эффективный поиск и фильтрацию материала,
представляющего интерес для пользователя.

Данные MPEG-7 могут физически размещаться вместе с ассоциированным AВ-материалом,


в том же информационном потоке или в той же системе памяти, но описания могут также
размещаться на другом конце света. Когда материал и его описания размещены не
совместно, необходим механизм для соединения AВ-материала и его описаний MPEG-7; эти
связи должны работать в обоих направлениях.

Тип материала и запрос могут не совпадать; например, визуальный материал может быть
запрошен, используя визуальное содержимое, музыка, голос, и т.д. Согласование данных
запроса и описания MPEG-7 выполняется поисковыми системами и агентами фильтрации.

MPEG-7 относится ко многим различным приложениям в самых разных средах. Этот


стандарт должен обеспечивать гибкую и масштабируемую схему описания аудио-
визуальных данных. Следовательно, MPEG-7 не определяет монолитную систему описания
материала, а предлагает набор методов и средств для различных подходов описания аудио-
визуального материала. MPEG-7 сконструирован так, чтобы учесть все подходы,
учитывающие требования основных стандартов, таких как, SMPTE Metadata Dictionary,
Dublin Cилиe, EBU P/Meta, и TV Anytime. Эти стандарты ориентированы на специфические
приложения и области применения, в то время как MPEG-7 пытается быть как можно более
универсальным. MPEG-7 использует также схему XML в качестве языка выбора
текстуального представления описания материала. Главными элементами стандарта MPEG-7
являются:

 Дескрипторы (D). Представление характеристик, которые определяют синтаксис и


семантику представления каждой из характеристик.
 Схемы описания DS (Description Scheme), которые специфицируют структуру и
семантику взаимодействия между компонентами. Эти компоненты могут быть
дескрипторами и схемами описания.
 Язык описания определений DDL (Description Definition Language), позволяющий
создавать новые схемы описания и, возможно, дескрипторы и обеспечивающий
расширение и модификацию существующих схем описания,
 Системные средства служат для поддержки мультиплексирования описаний,
синхронизации описаний и материала, механизмов передачи, кодовых представлений
(как текстуальных, так и двоичных форматов) для эффективной записи и передачи,
управления и защиты интеллектуальной собственности в описаниях MPEG-7.

1.3. Область действия стандарта


MPEG-7 относится к приложениям, которые могут осуществлять запись (или реализовать
поточную передачу, например, производить широковещательную пересылку в Интернет), и
могут работать как в реальном времени так и off-line. ‘Среда реального времени’ в данном
контексте означает, что описание генерируется в процессе приема материала.

На рис. 1 показана блок-схема системы обработки данных MPEG-7. Чтобы полностью


использовать возможности описаний MPEG-7, автоматическое извлечение характеристик
(или ‘дескрипторов’) может оказаться особенно заметным. Ясно также, что автоматическое
извлечение не всегда возможно. Как было указано выше, чем выше уровень абстракции, тем
труднее автоматическое извлечение характеристик, и тем полезнее интерактивные средства.

Рис. 1. Область MPEG-7.

Чтобы улучшить понимание терминологии введенной выше (т.e. дескриптор, схема


описания и DDL), рассмотрите рис.2 и рис. 3.

Рис. 2. Взаимодействие различных элементов MPEG-7

На рис. 2 продемонстрирована масштабируемость рассмотренной концепции. Более того, там


показано, что DDL предоставляет механизм построения схемы описания, которая в свою
очередь образует основу для формирования описания (см. также рис. 3).
Рис. 3. Абстрактное представление возможных приложений на снове MPEG-7

Овалами обозначены средства, которые выполняют операции, такие как кодирование или
декодирование, в то время как прямоугольниками отмечены статические элементы, такие как
описания. Пунктирные прямоугольники на рисунке окружают нормативные элементы
стандарта MPEG-7.

Главной задачей MPEG-7 будет предоставление новых решений для описания аудио-
визуального материала. Таким образом, чисто текстовые документы не являются объектами
MPEG-7. Однако аудио-визуальный материал может содержать и сопряженный с ним текст.
MPEG-7 будет, следовательно, рассматривать и поддерживать существующие решения,
разработанные другими организациями стандартизации для текстовых документов.

Помимо самих дескрипторов на рабочие характеристики системы довольно сильно влияют


DB-структуры. Чтобы быстро решить, представляет ли данный материал какой-то интерес,
нужно структурировать индексную информацию, например, иерархическим или
ассоциативным способом.

1.4. Область применения MPEG-7


Элементы, которые стандартизует MPEG-7, будут поддерживать широкий диапазон
приложений (например, мультимедийные цифровые библиотеки, выбор
широковещательного медийного материала, мультимедийное редактирование, домашние
устройства для развлечений и т.д.).

MPEG-7 сделает возможным мультимедийный поиск в WEB столь же простым, как и


текстовый.

Это станет применимо для огромных архивов, которые станут доступны для широкой
публики, это придаст новый стимул для электронной торговли, так как покупатели смогут
искать нужный товар по видеообразцам. Информация, используемая для извлечения
материала, может также применяться агентами для отбора и фильтрации
широковещательного материала или целевой рекламы. Кроме того, описания MPEG-7
позволят быстрые и эффективные с точки зрения затрат полуавтоматические презентации и
редактирование.
Все области применения, базирующиеся на мультимедиа, выиграют от использования
MPEG-7. Ниже предлагается список возможных приложений MPEG-7, которые любой из
читателей без труда сможет дополнить:

 Архитектура, недвижимость и интерьерный дизайн (например, поиск идей)


 Выбор широковещательного медийного канала (например, радио, TV)
 Услуги в сфере культуры (исторические музеи, картинные галереи и т.д.)
 Цифровые библиотеки (например, каталоги изображений, музыкальные словари,
биомедицинские каталоги изображений, фильмы, видео и радио архивы)
 E-коммерция (например, целевая реклама, каталоги реального времени, каталоги
электронных магазинов)
 Образование (например, депозитарии мультимедийных курсов, мультимедийный
поиск дополнительных материалов)
 Домашние развлечения (например, системы управления личной мультимедийной
коллекцией, включая манипуляцию содержимым, например, редактирование
домашнего видео, поиск игр, караоке)
 Исследовательские услуги (например, распознавание человеческих особенностей,
экспертизы)
 Журнализм (например, поиск речей определенного политика, используя его имя, его
голос или его лицо)
 Мультимедийные службы каталогов (например, Желтые страницы, туристская
информация, географические информационные системы
 Мультимедийное редактирование (например, персональная электронная служба
новостей, персональная медийная среда для творческой деятельности)
 Удаленное опознавание (например, картография, экология, управление природными
ресурсами)
 Осуществление покупок (например, поиск одежды, которая вам нравится)
 Надзор (например, управление движением, транспортом, неразрушающий контроль в
агрессивной среде)

В принципе, любой тип аудио-визуального материала может быть получен с помощью


любой разновидности материала в запросе. Это означает, например, что видео материал
может быть запрошен с помощью видео, музыки, голоса и т.д. Ниже приведены примеры
запросов:

 Проиграйте несколько нот на клавиатуре и получите список музыкальных отрывков,


сходных с проигранной мелодией, или изображений, соответствующим некоторым
образом нотам, например, в эмоциональном плане.
 Нарисуйте несколько линий на экране и найдете набор изображений, содержащих
похожие графические образы, логотипы, идеограммы,...
 Определите объекты, включая цветовые пятна или текстуры и получите образцы,
среди которых вы выберете интересующие вас объекты.
 Опишите действия и получите список сценариев, содержащих эти действия.
 Используя фрагмент голоса Паваротти, получите список его записей, видео клипов,
где Паваротти поет, и имеющийся графический материал, имеющий отношение к
этому певцу.

1.5. План и метод работы


Метод разработки совместим с тем, что регламентировано в предыдущих стандартах MPEG.
Работа над MPEG обычно выполнялась в три этапа: определение, соревнование и
сотрудничество. На первой фазе определяется область действия и требования,
предъявляемые к стандарту MPEG-7. На следующем этапе участники работают над
различными технологиями самостоятельно. Результатом этого этапа является выработка
документа CfP (Call for Proposals). В разработке стандарта участвовало около 60
коллективов, было получено 400 предложений.

Выбранные элементы различных предложений на завершающей фазе инкорпорированы в


общую модель (eXperimentation Model или XM) стандарта. Целью являлось построение
наилучшей модели, которая по существу представляла собой проект стандарта. На
завершающей фазе, XM последовательно актуализовалась до тех пор, пока MPEG-7 в
октябре 2000 года не достиг уровня CD (Committee Draft). Дальнейшее усовершенствование
XM осуществлялось посредством базовых экспериментов (CE - Core Experiments). CE
призваны протестировать существующие средства с учетом новых возможностей и
предложений. Наконец все части XM (или рабочего проекта), которые соответствуют
нормативным элементам MPEG-7, были стандартизованы.

1.6. Части MPEG-7


Стандарт MPEG-7 состоит из следующих частей:

1. Системы MPEG-7. Средства, которые необходимы при подготовке описаний MPEG-7


для эффективной передачи и записи, и для обеспечения синхронизации между
материалом и описаниями. Эти средства имеют также отношение к охране
интеллектуальной собственности.
2. Язык описания определений MPEG-7. Язык для определения новых схем описания и,
возможно, новых дескрипторов.
3. MPEG-7 Audio - дескрипторы и схемы описания, имеющие отношение исключительно
к описанию аудио материала.
4. MPEG-7 Visual - дескрипторы и схемы описания, имеющие отношение
исключительно к описанию визуального материала
5. MPEG-7 Multimedia Description Schemes - дескрипторы и схемы описания, имеющие
отношение к общим характеристикам описаний мультимедиа.
6. MPEG-7 Reference Software - программные реализации соответствующих частей
стандарта MPEG-7
7. MPEG-7 Conformance - базовые принципы и процедуры тестирования рабочих
характеристик практических реализаций MPEG-7.

1.7. Структура документа


Данный обзорный документ делится на 4 части, не считая введения и приложений. Каждая
часть делится на несколько секций, характеризующих различные стороны MPEG-7 [2].

 секция 2 описывает основные функции,


 секция 3 содержит детальное техническое описание, а
 секция 4 содержит список FAQ (Frequently Asked Questions).

2. Главные функции MPEG-7


2.1. Системы MPEG-7
Системы MPEG-7 будут включать в себя средства, которые необходимы для подготовки
описаний MPEG-7 для эффективной транспортировки и запоминания, а также позволяют
синхронизовать мультимедийный материал и описания и средства, сопряженные с
управлением и защитой интеллектуальной собственности. Стандарт определяет архитектуру
терминала и нормативных интерфейсов.

2.2. Язык описания определений MPEG-7


Согласно определению в MPEG-7 язык описания определений DDL (Description Definition
Language) представляет собой:

“... язык, который позволяет формировать новые схемы описания и, возможно, дескрипторы.
Он также позволяет расширение и модификацию существующих схем описания”.

В качестве основы DDL был выбран язык XML. Как следствие, DDL может быть поделен на
следующие логические нормативные компоненты:

-Структурная схема языковых компонентов XML;


-Компоненты типа данных схемы;
-Специфические расширения MPEG-7.

2.3. Аудио MPEG-7


Окончательный проект аудио MPEG-7 представляет шесть технологий: система аудио
описаний (которая включает в себя дерево шкал и низкоуровневые дескрипторы), средства
описания звуковых эффектов, средства описания тембра инструмента, описание голосового
материала, сегмент молчания и дескрипторы мелодии, облегчающие обработку запросов.

2.4. Визуальный MPEG-7


Средства визуального описания MPEG-7, включенные в CD/XM состоят из базовых структур
и дескрипторов, которые характеризуют следующие визуальные характеристики:

 Цвет
 Текстура
 Форма
 Движение
 Локализация
 Прочие

Каждая категория состоит из элементарных и сложных дескрипторов.

2.5. Основные объекты и схемы описания


мультимедиа MPEG-7
Базисом схем описания мультимедиа MDS (Multimedia Description Schemes) является
стандартизация набора средств описания (дескрипторы и схемы описания), имеющие дело с
общими и мультимедийными объектами.
Общими объектами являются характеристики, которые используются в аудио, видео и
текстовых описаниях и, следовательно, характеризуют все медийные типы материала.
Такими характеристиками могут быть, например, вектор, время и т.д.

Помимо этого набора общих средств описания стандартизованы более сложные средства
описания. Они используются, когда нужно описать более одного вида медийного материала
(например, аудио и видео). Эти средства описания могут быть сгруппированы в 5 различных
классов согласно их функциональному предназначению:

1. Описание материала: представление воспринимаемой информации;


2. Управление материалом: информация о характере медийного материала,
формирование и использование АВ материала;
3. Организация материала: представление анализа и классификации нескольких AВ
материалов;
4. Поиск и доступ: спецификация кратких характеристик и изменений АВ-материала;
5. Взаимодействие с пользователем: описание предпочтений пользователя и истории
использования мультимедийного материала.

2.6. Эталонные программы MPEG-7:


модель экспериментов (eXperimentation
Model)
Программное обеспечение модели XM (eXperimentation Model) представляет собой систему
моделирования для дескрипторов MPEG-7 (D), схем описания (DS), схем кодирования (CS),
языка описания определений (DDL). Кроме нормативных компонентов, системе
моделирования необходимы некоторые дополнительные элементы, существенные при
исполнении некоторых процедурных программ. Структуры данных и процедурные
программы образуют приложения. Приложения XM образуют две разновидности:
приложения клиента и сервера.

3. Детальное техническое описание


стандарта MPEG-7
3.1. Системы MPEG-7
Системы MPEG-7 в настоящее время определяет архитектуру терминала и нормативных
интерфейсов.

3.1.1. Архитектура терминала


Представление информации, специфицированное в стандарте MPEG-7 предоставляет
средства описаний кодированного мультимедийного материала. Объект, который использует
такое кодовое представление мультимедийного материала, называется "терминалом". Этот
терминал может соответствовать отдельно стоящему приложению или быть целой
прикладной системой. Архитектура такого терминала изображена на рис. 4, а его работа
описана ниже.
Рис. 4. Архитектура MPEG-7

В нижней части рис. 4 размещена система передачи/записи. Это относится к нижнему


уровню инфраструктуры доставки (сетевой уровень и ниже). Эти уровни передают
мультиплексированные потоки данных уровню доставки. Транспортная среда MPEG-7
базируется на многих системах доставки данных. Это включает, например, транспортные
потоки MPEG-2, IP или MPEG-4 (MP4) файлы или потоки. Уровень доставки реализует
механизмы, позволяющие выполнять синхронизацию, формирование кадров и
мультиплексирование материала MPEG-7. Материал MPEG-7 может быть доставлен
независимо или вместе с данными, которые он описывает. Архитектура MPEG-7 позволяет
передавать данные (например, запросы) назад из терминала к отправителю или серверу.

Уровень доставки предоставляет уровню сжатия MPEG-7 элементарные потоки.


Элементарные потоки MPEG-7 состоят из последовательности индивидуально доступных
порций данных, называемых блоками доступа (Access Units). Блок доступа является
наименьшим информационным объектом, к которому может относиться временная
информация. Элементарные потоки MPEG-7 содержат данные различной природы:

 Схемная информация: эта информация определяет структуру описания MPEG-7;


 Информация описаний: эта информация является либо полным описанием
мультимедийного материала или фрагментами такого описания.

Уровень доставки приложения может также по запросу доставлять мультимедийный


материал. Для этих целей могут использоваться существующие средства доставки.

Данные MPEG-7 могут быть представлены либо в текстовом, либо в двоичном формате, или
в виде комбинации этих форматов, в зависимости от типа приложения. MPEG-7 определяет
однозначную связь между двоичным и текстовым форматами. Возможно установление
двухсторонней однозначной связи между текстовым и двоичным представлениями. Следует
заметить, что это не всегда доступно: некоторые приложения могут не захотеть передавать
всю информация, содержащуюся в текстовом представлении, а могут предпочесть
использовать более эффективную с точки зрения полосы двоичную кодировку с потерями.

Синтаксис текстуального формата определен в части 2 (DDL - Description Definition


Language) стандарта. Синтаксис двоичного формата (BiM - двоичный формат для данных
MPEG-7) определен в части 1 (системы) стандарта. Схемы определены в частях 3, 4 и 5
(визуальная, аудио и схемы описания мультимедиа) стандарта.
На уровне компрессии, производится разборка потока блоков доступа (текстуальных или
двоичных), а описания материала реконструируются. MPEG-7 не перепоручает
реконструкцию текстуального представления в качестве промежуточного шага
декодирующему процессу. Двоичный поток MPEG-7 может быть разобран с помощью BiM,
передан в текстовом формате и затем в этом виде транспортирован для последующей
реконструкционной обработки, или двоичный поток может быть разобран BiM и затем
передан в подходящем формате для последующей обработки.

Блоки доступа MPEG-7 далее структурируются как команды, в которые инкапсулированы


схемы описания. Команды придают материалу MPEG-7 динамический вид. Они позволяют
пересылать описания одним куском или в виде небольших фрагментов. Команды делают
возможными базовые операции с материалом MPEG-7, такие как актуализация дескриптора,
удаление части описания или добавление новой структуры DDL. На реконструкционном
этапе уровня компрессии выполняется актуализация описания и соответствующих схем
посредством указанных команд.

3.1.2. Нормативные интерфейсы


3.1.2.1. Описание нормативных интерфейсов
MPEG-7 имеет два нормативных интерфейса, как это показано на рис. 5.

Рис. 5. Нормативные интерфейсы MPEG-7

 Материал: это данные, которые должны быть представлены согласно формату,


описанному в данной спецификации. Под материалом подразумеваются сами
медийные данные, либо их описание.
 Двоичный/текстовый кодировщик MPEG-7: программа, осуществляющая
преобразование материала к формату, который согласуется с данной спецификацией.
Это может включать комплексное преобразование материала с целью извлечения
деталей.
 Интерфейс текстового формата. Этот интерфейс описывает формат текстуальных
блоков доступа. Текстовый декодер MPEG-7 воспринимает поток таких блоков
доступа и реконструирует описание материала нормативным способом.
 Интерфейс двоичного формата. Этот интерфейс описывает формат двоичных
блоков доступа. Двоичный декодер MPEG-7 воспринимает поток таких блоков
доступа и реконструирует описание материала нормативным способом.
 Двоичный/текстовый декодер MPEG-7. Программа, осуществляющая
преобразование материала к формату, который согласуется с данной спецификацией.
3.1.2.2. Верификация стандарта
В данном разделе описывается, как проверяется то, что двоичное и текстуальное
представление являются адекватными одному и тому же материалу. Этот процесс описан на
рис. 6.

Рис. 6 - Процесс верификации

Кроме элементов описанных в разделе 3.1.2.1, процесс валидации включает определение


канонического представления описания материала. В каноническом пространстве, описания
материала могут быть сравнены. Процесс валидации работает следующим образом:

1. Описание материала преобразуется в текстуальный и двоичный форматы без потерь,


генерируя два разных представления одного и того же материала.
2. Два кодированных описания декодируются соответствующими двоичным и
текстовым декодерами.
3. Из реконструированных описаний материала генерируются два канонических
описания.
4. Два канонических описания должны быть эквивалентны.

Описание канонической презентации XML-документа определено в Canonical XML[3].

3.2. Язык описания определений MPEG-7


(DDL)
Главными средствами, используемыми в описаниях MPEG-7 являются DDL (Description
Definition Language), схемы описаний (DS) и дескрипторы (D). Дескрипторы связывают
характеристики с набором их значений. Схемы описания являются моделями
мультимедийных объектов и всего многообразия элементов, которые они представляют,
например, модели данных описания. Они специфицируют типы дескрипторов, которые
могут быть использованы в данном описании, и взаимоотношения между этими
дескрипторами или между данными схемами описания.

DDL образует центральную часть стандарта MPEG-7. Он обеспечивает надежную


описательную основу, с помощью которой пользователь может создать свои собственные
схемы описания и дескрипторы. DDL определяет семантические правила выражения и
комбинации схем описания и дескрипторов.
DDL не является языком моделирования, таким как UML (Unified Modeling Language), а
языком схем для представления результатов моделирования аудио-визуальных данных,
например, DS и D.

DDL должен удовлетворять требованиям MPEG-7 DDL. Он должен быть способен выражать
пространственные, временные, структурные и концептуальные взаимоотношения между
элементами DS и между DS. Он должен предоставить универсальную модель для связей и
ссылок между одним или более описаниями и данными, которые им описываются. Кроме
того, язык не должен зависеть от платформы и приложения и быть читаемым как машиной,
так и человеком. MPEG-7 должен базироваться на синтаксисе XML. Необходима также
система разборки DDL (парсинга), которая должна быть способна проверять схемы описания
(материал и структуру) и дескрипторы типа данных, как примитивные (целые, текст, дата,
время) так и составные (гистограммы, нумерованные типы).

3.2.1. Разработка контекста


Так как схемный язык XML не был специально разработан для аудио-визуального
материала, необходимы определенные расширения, для того чтобы удовлетворить всем
требованиям MPEG-7 DDL.

3.2.2. Обзор схемы XML


Целью схемы является определение класса XML-документов путем использования
конкретных конструкций, чтобы наложить определенные ограничения на их структуру:
элементы и их содержимое, атрибуты и их значения, количество элементов и типы данных.
Схемы можно рассматривать, как некоторые дополнительные ограничения на DTD.

Главной рекомендацией MPEG-7 AHG было использование схемы, базирующейся на XML.


В начале разработки имелось много решений, но ни одно из них не оказалось достаточно
стабильным. В исходный момент группа DDL решила разработать свой собственный язык,
следуя принципам, используемым группой W3C при подготовке схемы XML. В апреле 2000,
рабочая группа W3C XML опубликовала последнюю версию спецификации схемы XML 1.0.
Улучшенная стабильность схемного языка XML, его потенциально широкое поле
применения, доступность средств и программ разборки, а также его способность
удовлетворить большинству требований MPEG-7, привели к тому, что схема XML явилась
основой DDL. Однако так как схема XML не была разработана специально для аудио-
визуального материала, необходимы некоторые специфические расширения. DDL делится на
следующие логические нормативные компоненты:

 Схемные структурные компонентыXML;


 Схемные компоненты типа данных XML;
 Расширениядля XML схемы MPEG-7.

3.2.3. Схема XML: Структуры


Схема XML: Структуры являются частью 2-частной спецификации XML-схемы. Она
предоставляет средства для описания структуры и ограничений, налагаемых на материалы
документов XML 1.0. Схема XML состоит из набора компонентов структурной схемы,
которые могут быть разделены на три группы. Первичными компонентами являются:

 Схема - внешний уровень определений и деклараций;


 Определения простых типов;
 Определения составных типов;
 Декларации атрибутов;
 Декларации элементов.

Вторичными компонентами являются:

 Определения группы атрибутов;


 Определения ограничений идентичности;
 Определения группы;
 Декларации нотации.

Третья группа образована компонентами “helper”, которые входят в другие компоненты и не


могут существовать отдельно:

 Аннотации;
 Фрагменты (Particles);
 Произвольные подстановки (Wildcards).

Определения типа задают внутренние компоненты схемы, которые могут использоваться в


других компонентах, таких как элементы, атрибуты деклараций или другие определения
типа. Схема XML предоставляет два вида компонентов определения типа:

 простые типы - являющиеся простыми типами данных (встроенными или


вторичными), которые не могут иметь каких-либо дочерних элементов или атрибутов;
 составные типы - которые могут нести в себе атрибуты и иметь дочерние элементы,
или быть получены из других простых или составных типов.

Новые типы могут быть также определены на основе существующих типов (встроенных или
вторичных) путем расширения базового типа. Детали использования этих компонентов
можно найти в проекте DDL или в схеме XML: Спецификация структур.

3.2.4. Схема XML: Типы данных


XML Schema:Datatypes является второй частью 2-частной схемной спецификации XML. Она
предлагает возможности определения типов данных, которые могут быть использованы для
ограничения свойств типов данных элементов и атрибутов в рамках схем XML. Она
предлагает более высокую степень проверки типа, чем доступна для XML 1.0 DTD:

 набор встроенных примитивных типов данных;


 набор встроенных вторичных типов данных;
 механизмы, с помощью которых пользователи могут определить свой собственный
вторичный тип данных.

Подробные детали встроенных типов данных и механизмы получения вторичных типов


можно найти в окончательном проекте DDL или в спецификации XML Schema:Datatypes.

3.2.5. Расширения схемы XML MPEG-7


Следующие характеристики будет нужно добавить к спецификации языка XML для того,
чтобы удовлетворить специфическим требованиям MPEG-7:

 Массив и матрица типов - как фиксированного, так и параметризованного размеров;


 Встроенные примитивные временные типы данных: basicTimePoint и basicDuration.

Программы разборки, специфические для MPEG-7 будут разработаны путем добавления


валидации этих дополнительных конструкций к стандартным схемным разборщикам XML.

3.3. Аудио MPEG-7


Аудио MPEG-7 FCD включает в себя пять технологий: структура аудио описания (которая
включает в себя масштабируемые последовательности, дескрипторы нижнего уровня и
униформные сегменты тишины), средства описания тембра музыкального инструмента,
средства распознавания звука, средства описания голосового материала и средства описания
мелодии.

3.3.1. Описание системы аудио MPEG-7


Аудио структура содержит средства нижнего уровня, созданные для обеспечения основы для
формирования аудио приложений высокого уровня. Предоставляя общую платформу
структуры описаний, MPEG-7 Аудио устанавливает базис для совместимости всех
приложений, которые могут быть созданы в рамках данной системы.

Существует два способа описания аудио характеристик нижнего уровня. Один предполагает
стробирование уровня сигнала на регулярной основе, другой может использовать сегменты
(смотри описание MDS) для пометки сходных и отличных областей для заданного звукового
отрывка. Обе эти возможности реализованы в двух типах дескрипторов нижнего уровня
(один для скалярных величин, таких как мощность или частота, и один для векторов, таких
как спектры), которые создают совместимый интерфейс. Любой дескриптор,
воспринимающий эти типы может быть проиллюстрирован примерами, описывающими
сегмент одной результирующей величиной или последовательностью результатов
стробирования, как этого требует приложение.

Величины, полученные в результате стробирования, сами могут подвергаться последующей


обработке с привлечением другого унифицированного интерфейса: они могут образовать
масштабируемые ряды (Scalable Series). Дерево шкал может также хранить различные
сводные значения, такие как минимальное, максимальное значение дескриптора и его
дисперсию.

Аудио дескрипторы нижнего уровня имеют особую важность при описании звука.
Существует семнадцать временных и пространственных дескрипторов, которые могут
использоваться в самых разных приложениях. Они могут быть грубо поделены на
следующие группы:

 Базовая: мгновенные значения уровня волнового сигнала и мощности.


 Базовая спектральная: частотный спектр мощностей, спектральные характеристики,
включая среднее значение, спектральная полоса и спектральная однородность.
 Параметры сигнала: фундаментальная частота квазипериодических сигналов и
гармоничность сигналов.
 Временная группа по тембру: временной центроид
 Спектральная группа по тембру: специфические спектральные характеристики в
линейном пространстве частот, включая спектральный центроид и спектральные
свойства, специфические для гармонической частей сигналов, включая спектральное
смещение и спектральную ширину.
 Представления спектрального базиса: характеристики, используемые первично для
распознавания звука.

Каждый из них может использоваться для описания сегмента с результирующим значением,


которое применяется для всего сегмента или для последовательности результатов
стробирования. Временная группа по тембру (Timbral Temporal) является исключением, так
как ее значения приложимы только к сегменту, как целому.

В то время как аудио дескрипторы нижнего уровня вообще могут служить для многих
возможных приложений, дескриптор однородности спектра поддерживает аппроксимацию
сложных звуковых сигналов. Приложения включают в себя голосовую идентификацию.

Кроме того, очень простым, но полезным средством является дескриптор тишины. Он


использует простую семантику "тишины" (то есть отсутствие значимого звука) для аудио
сегмента. Такой дескриптор может служить для целей дальнейшей сегментации аудио
потока.

3.3.2. Средства описания аудио верхнего уровня (D и DS)


Четыре набора средств описания аудио, которые приблизительно представляют области
приложения, интегрированы в FCD: распознавание звука, тембр музыкального инструмента,
разговорный материал и мелодическая линия.

3.3.2.1. Средства описания тембра музыкальных


инструментов
Дескрипторы тембра служат для описания характеристик восприятия звуков. Тембр в
настоящее время определен в литературе как характеристика восприятия, которая заставляет
два звука, имеющих одну высоту и громкость, восприниматься по-разному. Целью средства
описания тембра является представление этих характеристик восприятия сокращенным
набором дескрипторов. Дескрипторы относятся к таким понятиям как “атака”, “яркость” или
“богатство” звука.

В рамках четырех возможных классов звуков музыкальных инструментов, два класса хорошо
детализированы, и являются центральным объектом экспериментального исследования. В
FCD представляются гармонические, когерентные непрерывные звуки и прерывистые,
ударные звуки. Дескриптор тембра для непрерывных гармонических звуков объединяет
спектральные дескрипторы тембра с временным дескриптором log attack. Дескриптор
ударных инструментов комбинирует временные дескрипторы тембра с дескриптором
спектрального центроида. Сравнение описаний, использующих один из наборов
дескрипторов выполняется с привлечением метрики масштабируемого расстояния.

3.3.2.2. Средства распознавания звука


Схемы дескрипторов и описаний распознавания звука, представляют собой наборы средств
для индексирования и категорирования звуков, с немедленным использованием для
звуковых эффектов. Добавлена также поддержка автоматической идентификации звука и
индексация. Это сделано для систематики звуковых классов и средств для спецификации
онтологии устройств распознавания звука. Такие устройства могут использоваться для
автоматической индексации сегментов звуковых треков.
Средства распознавания используют в качестве основы спектральные базисные дескрипторы
низкого уровня. Эти базисные функции далее сегментируются и преобразуются в
последовательность состояний, которые заключают в себя статистическую модель, такую
как смешанная модель Маркова или Гаусса. Эта модель может зависеть от своего
собственного представления, иметь метку, ассоциированную с семантикой исходного звука,
и/или с другими моделями для того, чтобы категоризовать новые входные звуковые сигналы
для системы распознавания.

3.3.2.3. Средства описания содержимого сказанного


Средства описания Spoken Content позволяет детальное описание произнесенных слов в
пределах аудио-потока. Учитывая тот факт, что сегодняшнее автоматическое распознавание
речи ASR-технологий (Automatic Speech Recognition) имеет свои ограничения, и что всегда
можно столкнуться с высказыванием, которого нет в словаре, средства описания Spoken
Content жертвует некоторой компактностью ради надежности поиска. Чтобы этого добиться,
средства отображают выходной поток и то, что в норме может быть видно в качестве
текущего результата автоматического распознавания речи ASR. Средства могут
использоваться для двух широких классов сценария поиска: индексирование и выделение
аудио потока, а также индексирование мультимедийных объектов аннотированных голосом.

Средства описания Spoken Content поделены на два широких функциональных блока: сетка,
которая представляет декодирование, выполненное системой ASR, и заголовок, который
содержит информацию об узнанных собеседниках и о самой системе распознавания. Сетка
состоит из комбинаций слов голосовых записей для каждого собеседника в аудио потоке.
Комбинируя эти сетки, можно облегчить проблему со словами, отсутствующими в словаре, и
поиск может быть успешным, даже когда распознавание исходного слова невозможно.

3.3.2.4. Средства описания мелодии


DS мелодического очертания (Melody Contour) является компактным представлением
информации о мелодии, которая позволяет эффективно и надежно контролировать
мелодическую идентичность, например, в запросах с помощью наигрывания. DS
мелодического очертания использует 5-ступенчатый контур (представляющий интервал
между смежными нотами), в котором интервалы дискретизированы. DS мелодического
очертания (Melody Contour DS) предоставляет также базовую информацию ритмики путем
запоминания частот, ближайших к каждой из нот, это может существенно увеличить
точность проверки соответствия запросу.

Для приложений, требующих большей описательной точности или реконструкции заданной


мелодии, DS мелодии поддерживает расширенный набор дескрипторов и высокую точность
кодирования интервалов. Вместо привязки к одному из пяти уровней в точных измерителях
используется существенно больше уровней между нотами (100 и более). Точная информация
о ритмике получается путем кодирования логарифмического отношения разностей между
началами нот способом аналогичным с используемым для кодирования уровней сигнала.

3.4. Визуальный MPEG-7


Средства визуального описания MPEG-7, включенные в CD/XM состоят из базовых структур
и дескрипторов, которые охватывают следующие основные визуальные характеристики:

 Цвет
 Текстура
 Форма
 Движение
 Локализация
 Прочее

Каждая категория состоит из элементарных и составных дескрипторов.

3.4.1. Базовые структуры


Существует пять визуально связанных базовых структур: сеточная выкладка, временные
ряды (Time Series), многопрекционность (MultiView), пространственные 2D-координаты и
временная интерполяция (TemporalInterpolation).

3.4.1.1. Сеточная выкладка


Сетка делит изображение на равные прямоугольные области, так что каждая область может
быть описана отдельно. Каждая область сетки описывается посредством других
дескрипторов, таких как цвет или текстура. Более того, дескриптор позволяет ассоциировать
субдескрипторы со всей прямоугольной областью, или с произвольным набором
прямоугольных областей.

3.4.1.2. Многовидовые 2D-3D


Дескриптор 2D/3D специфицирует структуру, которая комбинирует 2D дескрипторы,
представляющие визуальные параметры 3D-объекта, видимые с различных точек.
Дескриптор образует полное 3D-представление объекта на основе его проекций. Может
использоваться любой визуальный 2D-дескриптор, такой как, например, форма контура,
форма области, цвет или текстура. Дескриптор 2D/3D поддерживает интеграцию 2D-
дескрипторов, используемых в плоскости изображения для описания характеристик 3D-
объектов (реальный мир). Дескриптор позволяет осуществлять сравнение 3D-объектов путем
сравнения их проекций.

3.4.1.3. Временные ряды


Этот дескриптор определяет в видео сегменте дескрипторы временных рядов и
предоставляет возможность сравнения изображения с видео-кадром и видео-кадров друг с
другом. Доступно два типа временных рядов (TimeSeries): RegularTimeSeries и
IrregularTimeSeries. В первом, дескрипторы размещаются регулярным образом (с
постоянным шагом) в пределах заданного временного интервала. Это допускает простое
представление для приложений, которые предполагают ограниченную сложность. Во
втором, дескрипторы размещаются нерегулярно (с переменными интервалами) в пределах
заданного временного интервала. Это обеспечивает эффективное представление для
приложений, которые требуют малой полосы пропускания или малой емкости памяти. Они
полезны в частности для построения дескрипторов, которые содержат временные ряды
дескрипторов.

3.4.1.4. Пространственные координаты 2D


Это описание определяет 2D пространственную координатную систему, которую следует
использовать в других D/DS, где это важно. Оно поддерживает два вида координатных
систем: “локальную” и “интегрированную” (рис. 7). В “локальной” координатной системе,
все изображения привязаны к одной точке. В “интегрированной” координатной системе,
каждое изображение (кадр) может быть привязано к разным областям. Интегрированная
координатная система может использоваться для представления координат на мозаичном
видео снимке.

a) "Локальные" координаты b) "интегрированные" координаты

Рис. 7. "Локальная" и "интегрированная" координатная система

3.4.1.5. Временная интерполяция


TemporalInterpolation D описывает временную интерполяцию, использующую связанные
многогранники. Это может использоваться для аппроксимации многомерных значений
переменных, которые меняются со временем, такие как положение объекта в видео. Размер
описания временной интерполяции обычно много меньше, чем описание всех величин. На
рис. 8 25 реальных величин представлены пятью линейными интерполяционными
функциями и двумя квадратичными интерполяционными функциями. Начало временной
интерполяции всегда привязывается ко времени 0.

Рис. 8. Реальные данные и функции интерполяции

3.4.2. Описатели цвета


Существует восемь дескрипторов цвета: цветового пространства, доминантных цветов,
цветовой дискретизации, GoF/GoP цвета, цветовой структуры, цветового размещения и
масштабируемой гистограммы цветов.

3.4.2.1. Цветовое пространство


Понятие цветового пространства используется в других описаниях, базирующихся на цвете.
В текущем описании, поддерживаются следующие цветовые пространства:

 R,G,B
 Y,Cr,Cb
 H,S,V
 HMMD
 Матрица линейного преобразования с учетом R, G, B
 Монохромное

3.4.2.2. Оцифровка цвета


Этот дескриптор определяет дискретизацию цветового пространства и поддерживает
линейные и нелинейные преобразователи, а также lookup-таблицы. Число уровней
квантования конфигурируемо так, чтобы обеспечить большую гибкость для широкого
диапазона приложений. В случае нелинейного АЦП, ширина канала преобразования может
также конфигурироваться. Для разумных приложений в контексте MPEG-7, этот дескриптор
должен комбинироваться с другими, например, чтобы характеризовать значения в цветовой
гистограмме.

3.4.2.3. Доминантный цвет(а)


Этот дескриптор цвета является наиболее удобным для представления локальных
характеристик (области объекта или изображения), где для предоставления цветовой
информации достаточно малого числа цветов. Могут использоваться и полные изображения,
например, картинки флагов или цветных торговых марок. Квантование цвета используется
для получения малого числа характерных цветов в каждой области/изображении.
Соответственно вычисляется процент каждого дискретизируемого цвета в области.
Определяется также пространственная когерентность всего дескриптора.

3.4.2.4. Масштабируемый цвет


Дескриптор масштабируемого цвета (Scalable Color) является гистограммой цветов в
цветном пространстве HSV, которая кодируется с помощью преобразования Хара. Ее
двоичное представление является масштабируемым с точки зрения числа каналов и числа
бит, характеризующих значение точности в широком диапазоне потоков данных. Дескриптор
масштабируемого цвета полезен для сравнения изображений и поиска, базирующегося на
цветовых характеристиках. Точность отображения возрастает с увеличением числа бит,
используемых для описания.

3.4.2.5. Описатель структуры цвета


Дескриптор цветовая структура (Color Structure) является описателем цветовой
характеристики, которая объединяет цветовое содержимое (аналогично цветовой
гистограмме) и информацию о структуре материала. Его главная задача сравнение
изображений главным образом для статических картинок. Метод выборки вводит данные о
цветовой структуре в дескриптор, учитывая локально цвета окрестных пикселей, и не
анализирует каждый пиксель отдельно. Дескриптор цветовая структура обеспечивает
дополнительную функциональность и улучшенный поиск, базирующийся на подобии
естественных изображений.

3.4.2.6. Выкладка цвета


Этот дескриптор специфицирует пространственное распределение цветов для быстрого
поиска и просмотра. Его целью является не только сравнение изображений и видео клипов,
но также поиск, базирующийся на раскладке цветов, такой как сравнение наброска с
изображением, которое не поддерживается другими цветовыми дескрипторами. Этот
дескриптор может использоваться для всего изображения или для любой его части. Данный
дескриптор может также быть применен для областей произвольной формы.

3.4.2.7. Цвет GoF/GoP


Дескриптор цвета группа_кадров/группа_картинок расширяет возможности дескриптора
масштабируемого цвета, который определен для статических изображений, чтобы выполнять
цветовое описание видео сегментов или собрания статических изображений.
Дополнительные два бита позволяют определить, была ли вычислена цветовая гистограмма,
прежде чем было осуществлено преобразование Хара: для усреднения, медианы или
пересечения. Усредненная гистограмма, которая соответствует усредненному значению
счетчика для каждой ячейки всех кадров или изображений, эквивалентна вычислению
совокупной цветовой гистограммы всех кадров или изображений с последующей
нормализацией. Медианная гистограмма соответствует вычислению медианного значения
счетчика для каждой ячейки совокупности кадров или изображений. Более надежно
округлять ошибки и присутствие выбросов в распределении яркости изображения по
сравнению с усредненной гистограммой. Гистограмма пересечения соответствует
вычислению минимального значения счетчика для каждой ячейки совокупности кадров или
изображений, чтобы получить цветовые характеристики “наименьшего общего” группы
изображений. Заметим, что это отличается от гистограммы пересечения, которая является
скалярной мерой. Аналогичные меры сходства/различия, которые используются для
сравнения масштабируемых цветовых описаний, могут быть применены для сопоставления
цветовых дескрипторов GoF/GoP.

3.4.3. Описатели текстуры


Существует три текстурных дескриптора: Edge Histogram, Homogeneous Texture и Texture
Browsing.

3.4.3.1. Описатели однородной текстуры


Однородная текстура представляет собой важный визуальный примитив для поиска и
просмотра большой коллекции выглядящих сходно образов. Изображение может
рассматриваться как мозаика однородных текстур, так что эти текстурные характеристики,
соответствующие областям могут использоваться для индексации визуальных данных.
Например, пользователь, просматривающий абстрактную базу данных изображений, может
захотеть идентифицировать различные блоки в этой коллекции изображений. Блоки с
автомашинами, запаркованными регулярным образом являются хорошим примером
однородного текстурного образца, рассматриваемого с большого расстояния, как это
происходит при аэросъемке. Аналогично, сельскохозяйственные области и участки
растительности являются другим примером однородных текстур, встречающихся при аэро и
спутниковых наблюдениях. Примеры запросов, которые могут поддерживаться в этом
контексте, могут включать в себя "Поиск всех спутниковых изображений Санта Барбары,
которые имеют меньше чем 20% облачного покрытия" или "Найти растительный участок,
который выглядит как эта область". Чтобы поддерживать такой поиск изображений,
необходимо эффективное представление текстуры. Дескриптор однородной текстуры
предоставляет количественное представление, используя 62 числа (по 8 бит каждое), которое
удобно для поиска сходства. Получение данных осуществляется следующим образом;
изображение сначала обрабатывается посредством набора фильтров Габора, настроенных на
определенные ориентации и масштаб (смоделированные с помощью функций Габора).
Дескриптор однородной текстуры предоставляет точное количественное описание текстуры,
которое может использоваться для поиска. Вычисление этого дескриптора базируется на
фильтрации.

3.4.3.2. Просмотр текстуры


Дескриптор просмотра текстуры (Texture Browsing) полезен для представления однородной
текстуры в приложениях, служащих для просмотра, и требует только 12 бит (максимум). Он
предоставляет перцептуальную характеристику текстуры, аналогично человеческому
описанию в терминах регулярности, шероховатости, ориентированности. Вычисление этого
дескриптора осуществляется также как и дескриптора однородной текстуры. Сначала,
изображение фильтруется с помощью набора специально настроенных фильтров
(смоделированных посредством функций Габора); в отфильтрованном результате
идентифицируются два доминантных ориентаций текстуры. Три бита используются для
представления каждой из доминантных ориентаций. За этим следует анализ проекций
отфильтрованного изображения вдоль доминантных направлений, чтобы определить
регулярность (характеризуемую двумя битами) и загрубленность (2 бита x 2). Этот
дескриптор совместно с дескриптором однородной текстуры предоставляет масштабируемое
решение для представления областей изображения с однородной текстурой.

3.4.3.3. Краевая гистограмма


Дескриптор краевой гистограммы представляет пространственное распределение пяти типов
краев, в частности четырех ориентированных краев и одного неориентированного. Так как
края играют важную роль для восприятия изображения, данный дескриптор помогает найти
изображения со сходным семантическим значением. Таким образом, он изначально
ориентирован на сравнение изображений (по образцам или наброскам), в особенности на
естественные изображения с нерегулярными краями. В этом контексте, свойства системы
поиска изображения могут быть существенно улучшены, если дескриптор краевой
гистограммы комбинируется с другими дескрипторами, такими как дескриптор цветовой
гистограммы. Кроме того, наилучшие характеристики системы поиска изображения,
учитывая только этот дескриптор, достигаются путем использования полу-глобальных и
глобальных гистограмм, получаемых непосредственно из дескриптора краевых гистограмм.

3.4.4. Описатели формы


Существует четыре типа дескрипторов формы: объектная форма, базирующаяся на областях,
форма, базирующаяся на контурах, 3D-форма и 2D-3D множественные проекции.

3.4.4.1. Форма, базирующаяся на областях (Region-Based)


Форма объекта может состоять из одной области или набора областей, а также некоторых
отверстий в объектах, как это показано на рис 9. Так как дескриптор формы, базирующейся
на областях, использует все пиксели, определяющие форму в пределах кадра, он может
описывать любую форму, то есть не только простые формы с односвязными областями, как
на рис. 9 (a) и (b), но также сложные формы, которые содержат отверстия или несколько не
соединенных областей, как показано на рис. 9 (c), (d) и (e), соответственно. Дескриптор
формы, базирующейся на областях, может не только эффективно описать столь несхожие
формы, но и минимизировать искажения на границах объекта.

На рис. 9 (g), (h) и (i) показаны очень схожие изображения чашки. Различия имеются только
в форме ручки. Форма (g) имеет трещину на нижней части ручки, в то время как в (i) ручка
не имеет отверстия. Дескриптор формы, базирующейся на областях, рассматривает (g) и (h)
подобными, но отличными от (i), так как там ручка не имеет отверстия. Аналогично, на рис.
9(j-l) показана часть видео последовательности, где два диска постепенно разделяются. С
точки зрения дескриптора формы, базирующейся на областях, эти картинки схожи.

Рис. 9. Примеры различной формы

Заметим, что черный пиксель в пределах объекта соответствует 1 на изображении, в то время


как пиксели белого фона соответствуют 0.

Дескриптор характеризуется малым размером и быстрым временем поиска. Размер данных


для представления является фиксированным и равным 17.5 байт.

3.4.4.2. Форма, основанная на контуре


Дескриптор формы, базирующейся на контуре, получает параметры формы объекта или его
контур, извлеченный из описания областей. Он использует так называемое Curvature Scale-
Space представление, которое воспринимает значимые параметры формы.

Дескриптор формы, базирующейся на контуре объекта, использует Curvature Scale Space


представление контура. Это представление имеет несколько важных особенностей, в
частности:

 Оно извлекает очень хорошие характеристики формы, делая возможным поиск,


основанный на сходстве.
 Оно отражает свойства восприятия визуальной системы человека и предлагает
хорошее обобщение.
 Оно устойчиво при плавном движении.
 Оно устойчиво при частичном перекрытии формы.
 Оно устойчиво по отношению преобразованиям перспективы, которые являются
следствием изменения параметров видеокамеры, и представляются общими для
изображений и видео.
 Оно компактно

Некоторые из выше перечисленных свойств проиллюстрированы на рис. 10, каждый кадр


содержит весьма сходные с точки зрения CSS изображения, основанные на результате
действительного поиска в базе данных MPEG-7.
Рис. 10.

На рис. 10 (a) продемонстрированы свойства обобщения формы (внешнее сходство


различных форм), (b) устойчивость по отношению к плавному движению (бегущий человек),
(c) устойчивость к частичному перекрытию (хвосты или ноги лошадей)

3.4.4.3. 3D-форма
Рассматривая непрерывное развитие мультимедийных технологий, виртуальных миров, 3D-
материал становится обычным для современных информационных систем. В большинстве
случаев, 3D-информация представляется в виде сетки многоугольников. Группа MPEG-4, в
рамках подгруппы SNHC, разрабатывала технологии для эффективного кодирования модели
3D-сеток. В стандарте MPEG-7 необходимы средства для интеллектуального доступа к 3D-
информации. Главные приложения MPEG-7 имеют целью поиск, получение и просмотр баз
3D-данных.

Предлагаемый дескриптор 3D-формы имеет целью предоставление внутреннего описания


формы сеточных 3D-моделей. Он использует некоторые локальные атрибуты 3D-
поверхности.

3.4.5. Дескрипторы перемещения


Существует четыре дескриптора перемещения: перемещение камеры, траектория
перемещение объекта, параметрическое движение объекта и двигательная активность.

3.4.5.1. Движение камеры


Этот дескриптор характеризует параметры перемещения 3-D камеры. Он базируется на
информационных параметрах 3-D-перемещения камеры, которые могут быть автоматически
получены.

Дескриптор движения камеры поддерживает следующие стандартные операции с камерой


(см. рис. 11): фиксированное положение, панорамное движение (горизонтальное вращение),
слежение за движущимся объектом (горизонтальное поперечное перемещение),
вертикальное вращение, вертикальное поперечное перемещение, изменение фокусного
расстояния, наезд (трансфокация вдоль оптической оси) и вращение вокруг оптической оси.
Рис. 11. Перемещения камеры

Отрывок, для которого все кадры характеризуются определенным типом перемещения


камеры, относящееся к одному виду или нескольким, определяет базовые модули для
дескриптора перемещения камеры. Каждый составляющий блок описывает начальный
момент, длительность, скорость перемещения изображения и увеличение фокусного
расстояния (FOE) (или сокращение фокусного расстояния - FOC). Дескриптор представляет
объединение этих составляющих блоков, он имеет опцию описания смеси типов
перемещения камеры. Смешанный режим воспринимает глобальную информацию о
параметрах перемещения камеры, игнорируя детальные временные данные, путем
совместного описания нескольких типов движения, даже если эти типы перемещения
осуществляются одновременно. С другой стороны, несмешанный режим воспринимает
понятие чистых перемещений и их совмещения на протяжении определенного временного
интервала. Ситуации, когда одновременно реализуется несколько типов перемещений,
описывается, как суперпозиция описаний чистых независимых типов перемещения. В этом
режиме описания, временное окно конкретного элементарного сегмента может
перекрываться с временным окном другого элементарного сегмента.

3.4.5.2. Траектория движения


Траектория движения объекта является простой характеристикой высокого уровня,
определяемая как позиция, во времени и пространстве, одной репрезентативной точки этого
объекта.

Этот дескриптор полезен для поиска материала в объектно-ориентированных визуальных


базах данных. Он также эффективен в большинстве специальных приложений. В данном
контексте с предварительным знанием ряда параметров, траектория позволяет реализовать
некоторые дополнительные возможности. При наблюдении, могут выдаваться сигналы
тревоги, если траектория воспринимается, как опасная (например, проходит через запретную
зону, движение необычно быстро, и т.д.). В спорте могут распознаваться специфические
действия (например, обмен ударами у сетки). Кроме того, такое описание позволяет также
улучшить обработку данных: для полуавтоматического редактирования медиа данных,
траектория может быть растянута, смещена, и т.д., чтобы адаптировать перемещения объекта
для любого контекста.

Дескриптор является списком ключевых точек (x,y,z,t) вместе с набором опционных


интерполирующих функций, которые описывают путь объекта между ключевыми точками, в
терминах ускорения. Скорость неявно известна с помощью спецификации ключевых точек.
Ключевые точки специфицируются путем задания моментов времени или их 2-D или 3-D
декартовых координат, в зависимости от приложения. Интерполирующие функции
определены для каждого компонента x(t), y(t) и z(t) независимо. Некоторые свойства этого
представления перечислены ниже:

 оно не зависит от пространственно-временного разрешения материала (например, 24


Hz, 30 Hz, 50 Hz, CIF, SIF, SD, HD, и т.д.), то есть если материал существует во
многих форматах одновременно, для описания траектории объекта необходим только
один набор дескрипторов данного материала.
 оно компактно и масштабируемое. Вместо запоминания координаты объекта для
каждого кадра, гранулярность дескриптора выбирается на основе ряда ключевых
точек, используемых для каждого из временных интервалов.
 оно непосредственно допускает широкое разнообразие применений, типа поиска
подобия, или категорирование по скорости (быстрые, медленные объекты),
поведению (ускоряется, когда приближается к этой области) или по другим
характеристикам движения высокого уровня.
3.4.5.3. Параметрическое движение
Модели параметрического движения были использованы в рамках различных схем анализа и
обработки изображения, включая сегментацию перемещения, оценки глобального
перемещения, и отслеживание объектов. Модели параметрического перемещения
использовались уже в MPEG-4, для оценки перемещения и компенсации. В контексте MPEG-
7, перемещение является крайне важной характеристикой, связанный с пространственно-
временной структурой видео, относящейся к нескольким специфическим MPEG-7
приложениям, таким как запоминание и поиск в видео базах данных, и для целей анализа
гиперсвязей. Движение является также критической характеристикой для некоторых
специфических приложений, которые уже рассматривались в рамках MPEG-7.

Базовый принцип состоит из описаний движения объектов в видео последовательности,


например, в параметрической 2D-модели. В частности, аффинные модели включают в себя
трансляции, вращения, масштабирование и их комбинации, планарные модели перспективы
делают возможным учет глобальных деформаций, сопряженных с перспективными
проекциями, а квадратичные модели позволяют описать более сложные движения.

Параметрическая модель ассоциирована с произвольными фоновыми объектами или


объектами переднего плана, определенными как области (группа пикселей) в изображении в
пределах заданного интервала времени. Таким способом, движение объекта записывается
компактным образом в виде набора из нескольких параметров. Такой подход ведет к очень
эффективному описанию нескольких типов перемещения, включая простые преобразования,
вращения и изменения масштаба, или более сложные перемещения, такие как комбинации
перечисленных выше элементарных перемещений.

Определение подобия характеристик моделей движения является обязательным для


эффективного поиска объектов. Оно также необходимо для поддержки запросов нижнего
уровня, полезно и в запросах верхнего уровня, таких как "поиск объектов приближающихся
к камере ", или для "объектов, описывающих вращательное движение", или "поиск объектов,
перемещающихся влево", и т.д.

3.4.5.4. Двигательная активность


Просмотр человеком видео или анимационной последовательности воспринимается как
медленная последовательность, быстро протекающий процесс, последовательность действий
и т.д. Дескриптор активности воспринимает интуитивное понятие ‘интенсивность действия’
или ‘темп действий’ в видео сегменте. Примеры высокой ‘активности’ включают такие
сцены, как ‘ведение счета голов в футбольном матче’, ‘автомобильные гонки’ и т.д. С другой
стороны сцены, типа ‘чтение новостей’, ‘интервью’, ‘снимок’ и т.д. воспринимаются как
кадры низкой активности. Видео материал охватывает диапазон от низкой до высокой
активности, следовательно нам нужен дескриптор, который позволяет нам точно выражать
активность данной видео последовательности/снимка и всесторонне перекрывать
упомянутый выше диапазон. Дескриптор активности полезен для приложений, таких как
видео наблюдение, быстрый просмотр, динамическое видео резюмирование,
информационные запросы и т.д. Например, мы можем замедлить темп презентации кадров,
если дескриптор активности указывает на высокую активность, так чтобы облегчить
просмотр этой активности. Другим примером приложения является нахождения всех кадров
высокой активности в новой видео программе, которая может рассматриваться как просмотр,
так и абстракцию.
3.4.6. Локализация
3.4.6.1. Локатор области
Этот дескриптор допускает локализацию областей внутри изображения или кадров путем
спецификации их с помощью краткого и масштабируемого отображения боксов или
многогранников.

3.4.6.2. Пространственно-временной локатор


Локатор описывает пространственно-временные области в видео последовательности, такой
как области движущихся объектов, и обеспечивает функцию локализации. Главным его
приложением является гипермедиа, где выделенная точка находится внутри объекта. Другим
ведущим приложением является поиск объектов путем проверки, прошел ли объект
определенные точки. Это может использоваться для наблюдения. Дескриптор
SpatioTemporalLocator может описывать как связанные, так и несвязанные области.

Рис. 12. Пространственно-временная область

3.4.7. Прочие
3.4.7.1. Распознавание лица
Дескриптор FaceRecognition может использоваться для получения изображения лиц, которые
соответствуют запросу. Дескриптор представляет проекцию вектора лица на набор базовых
векторов, которые охватывают пространство возможных векторов лица. Набор параметров
FaceRecognition получается из нормализованного изображения лица. Это нормализованное
изображения лица содержит 56 строк с 46 значениями уровня в каждой строке. Центры двух
глаз на каждом изображении лица размещаются на 24-ом ряду и 16-ой и 31-ой колонке для
правого и левого глаз соответственно. Это нормализованное изображение затем
используется для получения одномерного вектора лица, который состоит из значений
яркости пикселей нормализованного изображения лица, которое получается в результате
растрового сканирования, начинающегося в верхнем левом углу и завершающегося в
нижнем правом углу изображения. Набор параметров FaceRecogniton вычисляется путем
проектирования одномерного вектора лица на пространство, определяемое набором
базисных векторов.

3.5. Схемы описания мультимедиа MPEG-7


Дескрипторы MPEG-7 сконструированы для описания следующих типов информации:
низкоуровневые аудио-визуальные характеристики, такие как цвет, текстура, движение,
уровень звука и т.д.; высокоуровневые семантические объекты, события и абстрактные
принципы; процессы управления материалом; информация о системе памяти и т.д.
Ожидается, что большинство дескрипторов, соответствующих низкоуровневым
характеристикам будут извлекаться автоматически, в то время как человеческое
вмешательство будет необходимо для формирования высокоуровневых дескрипторов.

MPEG-7 DS преобразуются в дескрипторы путем комбинирования индивидуальных


дескрипторов а также других DS в рамках более сложных структур и определения
соотношения составляющих дескрипторов и DS. В MPEG-7 DS категорируются в отношении
к аудио или видео областям, или по отношению к описанию мультимедиа. Например,
характерные DS соответствуют неизменным метаданным, связанным с формированием,
производством, использованием и управлением мультимедиа, а также описанием материала.
Обычно мультимедийные DS относятся ко всем типам мультимедиа, в частности к аудио,
видео и текстовым данным, в то время как специфичные для области дескрипторы, такие как
цвет, текстура, форма, мелодия и т.д., относятся исключительно к аудио или видео областям.
Как в случае дескрипторов, реализация DS может в некоторых вариантах базироваться на
автоматических средствах, но часто требует вмешательства человека.

3.5.1. Средства организации MDS


На рис. 13 представлена схема организации мультимедийных DS MPEG-7 в следующих
областях: базовые элементы, описание материала, управление материалом, организация
материала, навигация и доступ, взаимодействие с пользователем.

Рис. 13. Обзор мультимедийных DS MPEG-7

3.5.1.1. Базовые элементы


Спецификация мультимедийных DS MPEG-7 определяет определенное число схемных
средств, которые облегчают формирование и выкладку описаний MPEG-7. Схемные средства
состоят из корневого элемента, элементов верхнего уровня и средств выкладки (Package
Tools). Корневые элементы, которые являются начальными элементами описания MPEG-7,
позволяют сформировать полные XML-документы и фрагменты описания MPEG-7.
Элементы верхнего уровня, которые позволяют корневым элементам в описании MPEG-7
организовать DS для объектно-ориентированных задач описания, таких как описание
изображения, видео, аудио или аудио-визуальный материал, собрания (коллекции),
пользователи или семантики мира. Созданы пакетные средства для группирования или
ассоциации связанных компонентов DS описаний в каталоги или пакеты. Пакеты полезны
для организационных и передающих структур и типов описательной информации MPEG-7
для систем поиска и для помощи при просмотре пользователям, незнакомым с
особенностями описаний MPEG-7.
Спецификация мультимедийных DS MPEG-7 определяет также некоторое число базовых
элементов, которые используются повторно в качестве фундаментальной конструкции при
определении MPEG-7 DS. Многие базовые элементы предоставляют специфические типы
данных и математические структуры, такие как вектора и матрицы, которые важны для
описания аудио-визуального материала. Они включаются также в качестве элементов для
связи медиа файлов и локализации сегментов, областей и т.д. Многие базовые элементы
предназначены для специальных нужд описания аудио-визуального материала, таких как
описание времени, мест, людей, индивидуальностей, групп, организаций, и других текстовых
аннотаций. Из-за их важности для описания аудио-визуального материала, давайте очертим
подходы MPEG-7 к описанию временной информации и текстовых аннотаций:

 Временная информация: DS для описания времени базируется на стандарте ISO 8601,


который был воспринят схемным языком XML. Временные DS предоставляют
временную информацию в медиа-потоки и для реального мира. MPEG-7 расширяет
спецификацию времени ISO 8601 для того, чтобы описать время в терминах
стробирования аудио-визуального материала, например, путем подсчета периодов
стробирования. Это позволяет поддержать эффективное описание временной
информации в больших массивах аудио-визуального материала.
 Текстовая аннотация: текстовая аннотация является также важным компонентом
многих DS. MPEG-7 предоставляет некоторое число базовых конструкций для
текстового аннотирования, включая свободный текст (слова, фразы),
структурированный текст (текст плюс назначение слов) и зависимая
структурированная аннотация (структурированный текст плюс взаимные связи), для
того, чтобы поддерживать широкий диапазон функций текстовых описаний.

3.5.1.2. Управление содержимым


MPEG-7 предоставляет также DS для управления материалом. Эти элементы описывают
различные аспекты создания медиа материала, медиа кодирование, запись, форматы файлов
и использование материала. Функциональность каждого из этих классов DS представлена
ниже [5]:

 Создание информации: описывает формирование аудио-визуального материала. Эта


информация описывает создание и классификацию аудио-визуального материала и
других данных, которые с ним связаны. Информация формирования выдает заголовок
(который может быть текстовым или фрагментом аудио-визуального материала),
текстовую аннотацию, а также данные о создателях, месте формирования и дате.
Классификационная информация описывает, как аудио-визуальный материал
классифицируется в таких категориях как жанр, тема, цель, язык и т.д. Она
предоставляет также обзор и управляющую информацию, такую как классификация
по возрасту, тематический обзор, рекомендации создателей и т.д.. Наконец,
информация, сопряженная с материалом, описывает, существует ли другой материал,
который связан тематически с данным материалом.
 Использование информации: описывает информацию об использовании аудио-
визуального материала, такую как права использования, доступность, записи об
использовании и финансовая информация. Правовая информация не включается в
описание MPEG-7, вместо этого, предлагаются ссылки на владельцев прав и другие
данные, относящиеся к защите авторских прав. Правовые DS предоставляют эти
ссылки в форме уникальных идентификаторов, которые управляются извне. Базовая
стратегия описаний MPEG-7 заключается в предоставлении доступа к текущей
информации о владельце без возможности непосредственного обсуждения возможных
условий доступа к самому материалу. DS доступности и DS записей об
использовании предоставляют данные, относящиеся, соответственно к доступности и
прошлому использованию материала, такому как широковещательная демонстрация,
доставка по требованию, продажа CD и т.д. Наконец, финансовые DS предоставляют
информацию, связанную со стоимостью производства и доходами, которые могут
результатом использования материала. Информация использования является обычно
динамической, меняющейся за время жизни аудио-визуального материала.
 Медиа описание: характеризует характер записи, например, сжатие данных,
кодирование и формат записи аудио-визуального материала. DS медиа информации
идентифицирует источник материала. Образцы аудио-визуального материала
называются медиа профайлами, которые являются версиями исходного материала,
полученными возможно посредством другого кодирования или записи в другом
формате. Каждый медиа профайл описывается индивидуально в терминах параметров
кодирования и положения.

3.5.1.3. Описание содержимого


MPEG-7 предоставляет также DS для описания материала. Эти элементы описывают
структуру (области, видео кадры и аудио сегменты) и семантику (объекты, события,
абстрактные понятия). Функциональность каждого из классов DS представлена ниже:

 Структурные аспекты. DS описывает аудио-визуальный материал с точки зрения его


структуры. Структурные DS формируются на основе DS сегментов, которые
представляют пространственную, временную или пространственно-временную
структуру аудио-визуального материала. Для получения оглавления или индекса для
поиска аудио-визуального материала DS сегменты могут быть организованы в
иерархические структуры. Сегменты могут быть описаны на основе характеристик
восприятия с помощью дескрипторов MPEG-7 для цвета, текстуры, формы, движения,
аудио параметров и т.д.
 Концептуальные аспекты. DS описывает аудио-визуальный материал с точки зрения
семантики реального мира и концептуальных представлений. DS семантики
включают в себя такие характеристики как объекты, события, абстрактные концепции
и отношения. DS структуры и DS семантики имеют отношение к набору связей,
который позволяет описать аудио-визуальный материал на основе его структуры и
семантики.

3.5.1.4. Навигация и доступ


MPEG-7 предоставляет также DS для облегчения просмотра и извлечения аудио-визуального
материала путем определения резюме, разделов, составных частей и вариантов аудио-
визуального материала.

 Резюме предоставляет компактное описание аудио-визуального материала, которое


призвано облегчить поиск, просмотр, визуализацию и прослушивание аудио-
визуального материала. DS резюме содержат два типа режимов навигации:
иерархический и последовательный. В иерархическом режиме, информация
организована в виде последовательности уровней, каждый из которых описывает
аудио-визуальный материал с разной степенью детализации. Вообще, уровни более
близкие к корневому предоставляют более общие резюме, периферийные же уровни
повествуют о тонких деталях. Последовательные резюме предоставляют
последовательность изображений или видео кадров, возможно синхронизованных со
звуком, которые могут служить для просмотра слайдов, или аудио-визуальный
набросок.
 Разделы и декомпозиции описывают различные составляющие аудио-визуального
сигнала в пространстве, времени и частоте. Разделы и декомпозиции могут
использоваться для описания различных проекций аудио-визуальных данных,
которые важны для доступа с разным разрешением.
 Вариации предоставляют информацию о различных вариантах аудио-визуальных
программ, таких как резюме и аннотации; масштабируемые, сжатые версии и
варианты с низким разрешением; а также версии на различных языках- звук, видео,
изображение, текст и т.д. Одной из важных возможностей, обеспечиваемых DS
вариации, является выбор наиболее удобной версии аудио-визуальной программы,
которая может заменить оригинал, если необходимо, адаптироваться к различным
возможностям терминального оборудования, сетевым условиям или предпочтениям
пользователя.

3.5.1.5. Организация содержимого


MPEG-7 предоставляет также DS для организации и моделирования собрания аудио-
визуального материала, а также его описания. DS собрания организует коллекцию аудио-
визуального материала, сегментов, событий, и/или объектов. Это позволяет описать каждое
собрание как целое на основе общих характеристик. В частности, для описания значений
атрибутов собрания могут быть специфицированы различные модели и статистики.

3.5.1.6. Интеракция с пользователем


Наконец, последний набор DS MPEG-7 имеет отношение к взаимодействию с пользователем.
DS взаимодействия с пользователем описывает предпочтения пользователя и историю
использования мультимедийного материала. Это позволяет, например, найти соответствие
между предпочтениями пользователя и описаниями аудио-визуального материала, для того
чтобы облегчить индивидуальный доступ к аудио-визуальному материалу, презентации и пр.

3.5.2. Управление содержимым


Средства управления описанием материала позволяют охарактеризовать жизненный цикл
материала.

Материал, охарактеризованный описаниями MPEG-7, может быть доступным в различных


форматах и режимах, с разными схемами кодирования. Например, концерт может быть
записан в двух разных режимах: звуковом и аудио-визуальном. Каждый из этих режимов
может использовать различное кодирование. Это создает несколько медиа профайлов.
Наконец, могут быть получены несколько копий одного и того же материала. Эти принципы
режимов и профайлов проиллюстрированы на рис 14.
Рис. 14. Модель материала, профайла и копии

 Материал. Реальное событие, такое как концерт может быть представлено


различными типами медиа-материала, например, звуковой материал, аудио-
визуальный материал. Материал является объектом, который имеет специфическую
структуру для отображения реальности.
 Медиа информация. Физический формат материала описывается DS медиа
информации. Одна копия описания DS будет ассоциирована с одним материалом.
 Медиа профайл. Один объект может иметь один или более профайлов, которые
соответствуют различным схемам кодирования. Один из профайлов является
оригинальным, он называется мастерным профайлом, который соответствует
первоначально созданному или записанному материалу. Другие будут получаться
перекодированием из мастерного. Если материал закодирован тем же кодирующим
средством, но с другими параметрами, формируется другой медиа-профайл.
 Медиа копия. Медиа-объект может быть поставлен в соответствие физическому
объекту, называемому медиа-копией. Медиа-копия специфицируется
идентификатором или локатором.
 CreationInformation. Информация о процессе формирования материала описывается
DS CreationInformation. Одна копия описания DS будет ассоциирована с одним
материалом.
 UsageInformation. Информация об использовании материала описывается DS
UsageInformation. Одна копия описания DS будет ассоциирована с одним материалом.

Единственной частью описания, которая зависит от среды записи или формата кодирования
является MediaInformation, описанная в этом разделе. Остальная часть описания MPEG-7 не
зависит от профайлов или копий и, как следствие, может использоваться, чтобы описать все
возможные копии материала.

3.5.2.1. Средства описания среды


Описание среды включает в себя один элемент верхнего уровня, DS MediaInformation. Оно
состоит из опционного MediaIdentification D и одного или нескольких MediaProfile D

Идентификация среды (Media Identification) D содержит средства описания, которые


являются специфическими по отношению к идентификации аудио-визуального материала
вне зависимости от имеющихся различных копий.
Медиа-профайл D содержит различные средства описания, которые позволяют
охарактеризовать один профайл аудио-визуального материала. Концепция профайла
относится к различным вариациям, которые могут отклоняться от оригинала в зависимости
от выбранного кодирования, формата записи и т.д. Профайл, соответствующий оригиналу
или мастерной копии аудио-визуального материала, считается мастерным профайлом. Для
каждого профайла может быть одна или более медиа-копии мастерного медиа-профайла.
MediaProfile D состоит из:

 MediaFormat D содержит средства описания, которые являются специфическими для


формата кодирования медиа-профайла.
 MediaInstance D содержит средства описания, которые идентифицируют и локализуют
различные копии медиа-профайлов.
 MediaTranscodingHints D содержит средства описания, которые специфицируют
рекомендации по транскодированию для описываемого материала. Целью этого D
(дескриптора) является улучшение качества и сокращение сложности
транскодирующих приложений. Рекомендации по транскодированию могут
использоваться в виде схем оценки кодирования с целью снижения вычислительной
сложности.
 MediaQuality D предоставляет информацию об уровне качества аудио или видео
материала. Это может использоваться для представления как субъективной, так и
объективной оценки качества.

3.5.2.2. Создание и производство средств описания


Средства описания получения материала предоставляют авторские тексты, описания
процесса формирования и/или производства аудио-визуального материала. Эта информация
не может быть получена из самого материала. Эти данные связаны с материалом, но не
описывают его буквально.

Описание формирования и производства материала содержит в качестве элемента верхнего


уровня, DS CreationInformation, который состоит из одного Creation D, нуля или одного
Classification D, и нуля или нескольких RelatedMaterial D.

Creation D содержит средства описания, имеющие отношение к формированию материала,


включая место, дату, действия, материалы, персонал (технический и творческий) и
организации, участвовавшие в процессе.

Classification D содержит средства описания,которые позволяют классифицировать аудио-


визуальный материал. Classification D используется для описания классификации аудио-
визуального материала. Это позволяет осуществлять поиск и отбор на основе предпочтений
пользователя, ориентируясь на классификации пользователя (например, по языку, стилю,
жанру и т.д.) и на классификации услуг (например, на цель, патентную защиту, сегментацию
рынка, медиа ревью и т.д.).

Related Material D содержит средства описания, имеющие отношение к дополнительной


информации о аудио-визуальном материале, имеющемся в других материалах.

3.5.2.3. Средства описания использования содержимого


Средства описания информации об использовании материала предоставляют данные о
процессе использования аудио-визуального материала.
Описание данных об использовании обеспечивается посредством DS UsageInformation,
который может включать один Rights D, нуль или один Financial D и нуль или несколько
Availability D и UsageRecord D.

Важно заметить, что описание DS UsageInformation предполагает добавление новых


описаний, каждый раз, когда материал используется (например, DS UsageRecord, доход в
Financial D), или когда имеются другие способы доступа к материалу (например, Availability
D).

 Rights D предоставляет доступ к информации о правах владельцев и правах доступа.


 Financial D содержит информацию, относящуюся к издержкам и доходам от
полученного аудио-визуального материала. Понятия частичных издержек и доходов
позволяют классифицировать различные издержки и доходы, в зависимости от их
типа. Итоговые издержки и доходы вычисляются приложением на основе указанных
выше составляющих.
 Availability D содержит средства описания, относящиеся к доступности
использования материала.
 DS UsageRecord содержит средства описания, относящиеся к прошлому
использованию материала.

3.5.3. Описание содержимого


3.5.3.1. Описание структурных аспектов содержимого
Основным элементом этой части описания является DS сегмента. Она относится к описанию
физического и логического аспектов аудио-визуального материала. DS сегмента может
использоваться для формирования сегментных деревьев. MPEG-7 специфицирует также DS
графа, который позволяет представлять сложные взаимоотношения между сегментами. Она
используется для описания пространственно-временных соотношений, между сегментами,
которые не описаны структурами дерева.

Сегмент представляет собой секцию аудио-визуального материала. DS сегмента является


абстрактным классом (в смысле объектно-ориентированного программирования). Она имеет
девять основных подклассов: DS мультимедийного сегмента, DS аудио-визуальной области,
DS аудио-визуального сегмента, DS аудио сегмента, DS статической области, DS
статической 3D-области, DS подвижной области, DS видео сегмента и DS электронной
раскраски. Следовательно, она может иметь как пространственные, так и временные
свойства. Временной сегмент может быть набором фрагментов аудио-визуальной
последоватеьности, представленным DS аудио сегмента, набором кадров видео
последовательности, представленным DS видео сегмента или комбинацией аудио и видео
информации, охарактеризованной DS аудио-визуального сегмента. Пространственный
сегмент может быть областью изображения или кадром в визуальной последовательности,
представленным DS статической области для 2D-областей и DS статической области 3D
для 3D-областей. Пространственно временной сегмент может соответствовать подвижной
области в видеопоследовательности, представленной DS подвижной области или более
сложной комбинацией визуального и аудио материала, представленного, например, DS
аудио-визуальной области. InkSegment DS описывает временной интервал или сегмент
электронной раскраски, который соответствует набору чернильных капель, выбрасываемых
из сопла. Наконец, наиболее общим сегментом является DS мультимедийного сегмента,
который описывает составные сегменты, образующие мультимедийную презентацию. DS
сегмента является абстрактным и не может быть отображен сам по себе: он используется
для определения общих свойств его подклассов. Любой сегмент может быть описан с
помощью информации формирования, использования медийных данных и текстовой
аннотации. Более того, сегмент может быть поделен на субсегменты с помощью DS
декомпозиции сегмента.

Сегмент не является обязательно связанным, он может быть составлен из нескольких


несвязанных компонентов. Связность здесь относится как к пространственным, так и
временным доменам. Временной сегмент (видео сегмент, аудио сегмент или аудио-
визуальный сегмент) считается связанными, если он является непрерывной
последовательностью видео кадров или аудио фрагментов. Пространственный сегмент
(статическая область или статическая 3D-область) считается связанными, если он
является группой связанных пикселей. Пространственно-временной сегмент (подвижная
область или аудио-визуальная область) считается связанным в пространстве и времени, если
временной сегмент, где он размещен является связанным, и, если каждый кадр, в него
входящий, является пространственно связанным (заметим, что это не является классической
связностью в 3D-пространстве).

На рис. 16 проиллюстрированы несколько примеров временных или пространственных


сегментов и их связности. Рис. 16a и 16b иллюстрируют временные и пространственные
сегменты, содержащие один связный компонент. Рис. 16c и 16d иллюстрирует временной и
пространственный сегменты, состоящие из трех связанных компонент. Заметим, что в
последнем случае, дескрипторы и DS, привязанные к сегменту, являются глобальными по
отношению к объединению связанных компонент, образующих сегмент. На этом уровне,
невозможно индивидуально описать связанные компоненты сегмента. Если связанные
компоненты должны быть описаны индивидуально, тогда сегмент разделяется
покомпонентно.

DS Сегмента является рекурсивным, то есть, он может быть поделен на субсегменты, и,


таким образом, образовать древовидную структуру. Результирующее сегментное дерево
используется для определения медиа-источника, временной и/или пространственной
структуры аудио-визуального материала. Например, видео программа может быть временно
преобразована в ряд сцен различного уровня, снимков, и микро-сегментов; оглавление
может, таким образом, генерироваться на основе этой структуры. Подобные стратегии могут
использоваться для пространственных и пространственно-временных сегментов.

Рис. 15. Примеры разложения сегмента на компоненты: a) и b) Декомпозиции сегмента без


зазоров и перекрытий; c) и d) Декомпозиции сегмента с зазорами и перекрытиями

Сегмент может также разделен на составные части по медиа-источникам, таким как


различным звуковым дорожкам или разным позициям видеокамер. Иерархическая
декомпозиция полезна при формировании эффективных стратегий поиска (от глобального до
локального). Она также позволяет описанию быть масштабируемым: сегмент может быть
описан непосредственно с помощью его набора дескрипторов и DS, а может быть также
описан набором дескрипторов и DS, которые относятся к его субсегментам. Заметим, что
сегмент может быть разделен на субсегменты различного типа, например, видео сегмент
может быть разложен движущиеся области, которые в свою очередь разлагаются на
статические области.

Так как это выполняется в пространственно-временном пространстве, декомпозиция должна


описываться набором атрибутов, определяющих тип разложения: временное,
пространственное или пространственно-временное. Более того, пространственная и
временная подсекции могут располагаться с зазором или с перекрытием. Несколько
примеров декомпозиций для временных сегментов описано на рис. 15. Рис. 15a и 15b
описывают два примера декомпозиции без зазоров или перекрытий. В обоих случаях
объединение дочерних объектов соответствует в точности временному продолжению
родительского, даже если родитель сам не является связанным (смотри пример на рис. 15b).
Рис. 15c демонстрирует пример декомпозиции с зазорами, но без перекрытий. Наконец, рис.
15d иллюстрирует более сложный случай, где родитель состоит из двух связанных
компонентов и его декомпозиция создает три дочерних объекта: первый сам состоит из двух
связанных компонентов, остальные два состоят из одного связанного компонента.
Декомпозиция допускает зазоры и перекрытия. Заметим, что в любом случае декомпозиция
означает, что объединение пространственно-временного пространства, определенного
дочерними сегментами, включается в пространство, определенное его сегментом-
предшественником (дочерние объекты содержатся в предшественниках).

Рис. 16. Примеры сегментов: a) и b) сегменты состоят из одного связного компонента; c) и d)


сегменты состоят из трех связанных компонентов

Таблица 1. Примеры характеристик для описания сегмента

Видео Стационарная Подвижная Видио


Характеристика
сегмент область область сегмент
  Время X . X X
  Форма . X X .
  Цвет X X X .
  Текстура . X . .
  Движение X . X .
  Движение камеры X . . .
  Мозаика X . . .
  Характеристики звука . . X X

Как упомянуто выше, любой сегмент может быть описан с помощью данных формирования,
информации об использовании, медиа-данных и текстовой аннотации. Однако
специфические характеристики, зависящие от типа сегмента, также допускаются. Примеры
специфических характеристик представлены в таблице 1. Большинство дескрипторов (D),
соответствующих этим характеристикам может быть получено автоматически из исходного
материала. Для этой цели в литературе описано большое число различных средств.

Пример описания изображения представлен на рис. 17. Исходные изображения описаны как
стационарные области, SR1, которые описаны с помощью данных формирования
(заголовок, создатель), информации использования (авторские права), медийной
информации (формат файла), а также текстовой аннотации (обобщающей свойства
изображения), гистограмм цвета и дескриптора текстуры. Исходная область может быть в
дальнейшем разложена на составные области. Для каждого шага декомпозиции, мы
указываем, допустимы или нет зазоры и перекрытия. Дерево сегмента состоит из 8
стационарных областей (заметим, что SR8 является одиночным сегментом, составленным из
двух связанных сегментов). Для каждой области, на рис. 17 показан тип характеристики,
которая реализована. Заметим, что в иерархическом дереве не нужно дублировать
информацию формирования, использования и пр., так как предполагается, что дочерние
сегменты наследуют эти характеристики.

Рис. 17. Примеры описания изображения с стационарными областями

Описание структуры материала может выходить за рамки иерархического дерева. Хотя,


иерархические структуры, такие как деревья, удобны при организации доступа, поиска и
масштабируемого описания, они подразумевают ограничения, которые делают их
неприемлемыми для некоторых приложений. В таких случаях DS графа сегмента не
используется. Структура графа определяется набором узлов, представляющих сегменты, и
набора ребер, определяющих отношения между узлами. Чтобы проиллюстрировать
использование графов, рассмотрим пример, представленный на рис. 18.
Рис. 18. Пример видео-сегмента и областей для графа, представленного на рис. 19.

Этот пример демонстрирует момент футбольного матча. Определены два видео-сегмента,


одна стационарная область и три движущиеся области. Граф, описывающий структуру
материала, показан на рис. 19. Видео-сегмент: Обводка & удар включает в себя мяч, вратаря
и игрока. Мяч остается рядом с игроком, движущимся к вратарю. Игрок появляется справа
от вратаря Видео-сегмент гол включает в себя те же подвижные области плюс
стационарную область ворота. В этой части последовательности, игрок находится слева от
вратаря, а мяч движется к воротам. Этот очень простой пример иллюстрирует гибкость
данного вида представления. Заметим, что это описание в основном представляется
структурным, так как отношения, специфицированные ребрами графа, являются чисто
физическими, а узлы, представляющие сегменты, которые являются объектами,
определяемыми данными создания, информацией использования и медиа-данными, а также
дескрипторами низкого уровня, такими как цвет, форма, движение. В семантически явном
виде доступна только информация из текстовой аннотации (где могут быть
специфицированы ключевые слова мяч, игрок или вратарь).
Рис. 19. Пример графа сегмента

3.5.3.2. Описание концептуальных аспектов содержимого


Для некоторых приложений, подход, описанный выше, не приемлем, так как он выделяет
структурные аспекты материала. Для приложений, где структура практически не
используется, но где пользователь в основном интересуется семантикой материала,
альтернативным подходом является семантический DS. В этом подходе, акцент делается не
на сегментах, а на событиях, объектах, концепциях, месте, времени и абстракции.

Документальная сфера относится к контексту для семантического описания, то есть, это


"реальность", в которой описание имеет смысл. Это понятие перекрывает область
специфических случаев аудио-визуального материала, а также более абстрактных описаний,
представляющих область возможных медиа-вариантов.

Как показано на рис. 20, DS SemanticBase описывает документальные сферы и


семантические объекты. Кроме того, несколько специальных DS получается из DS
SemanticBase, которые описывают специфические типы семантических объектов, таких как
описательные сферы, объекты, объекты агента, события, место и время, например:
Семантический DS описывает документальные сферы (narrative worlds - реальные миры),
которые отображаются или сопряжены с аудио-визуальным материалом. Он может
использоваться для описания шаблонов аудио-визуального материала. На практике,
семантический DS служит для инкапсуляции описания документальной области. DS
объекта описывает воспринимаемый или абстрактный объект. Воспринимаемый объект
является сущностью, которая является реальностью, то есть, имеет временное и
пространственное протяжение в описываемом мире (например, "Пианино Вани").
Абстрактный объект является результатом абстрагирования воспринимаемого объекта
(например, "любое пианино"). Это абстрагирование генерирует шаблон объекта. DS
AgentObject расширяет возможности DS объекта. Она описывает человека, организацию,
группу людей, или персонализированные объекты (например, "говорящую чашку в
анимационном кино"). DS события описывает воспринимаемое или абстрактное событие.
Воспринимаемое событие является динамическим отношением, включающим один или
более объектов, которые возникают во времени или пространстве описываемого мира
(например, "Ваня играет на пианино"). Абстрактное событие является результатом
абстрагирования воспринимаемых событий (например, "кто-то играет на пианино"). Эта
абстракция позволяет сформировать шаблон события. DS концепции описывает
семантическую сущность, которая не может быть описана, как обобщение или
абстрагирование специфицированного объекта, события, временного интервала или
состояния. Она представляет собой свойство или собрание свойств (например, “гармония”
или “готовность”). Эта DS может относиться к среде непосредственно или к другой
описываемой семантической сущности. DS SemanticState описывает один или более
параметрических атрибута семантической сущности в данное время или в данной точке
описываемого мира или в данной позиции среды (например, вес пианино равен 100 кг).
Наконец, DS SemanticPlace и SemanticTime характеризуют соответственно место и время в
описываемом мире.

Как и в случае DS сегмента, концепция описания может быть представлена в виде дерева или
графа. Структура графа определена набором узлов, представляющих семантические понятия,
и набора ребер, специфицирующих отношения между узлами. Ребра описываются DS
семантических отношений.

Рис. 20. Средства для описания концептуальных аспектов

Кроме семантического описания индивидуальных привязок в аудио-визуальном материале,


семантические DS допускают также описание абстракций. Абстракция относится к процессу
получения описания из специфической привязки к аудио-визуальному материалу и
обобщению его с помощью нескольких привязок к этому материалу или к набору
специальных описаний. Рассматриваются два типа абстракции, называемых медиа-
абстракция и стандартная абстракция.

Медиа-абстракция представляет собой описание, которое отделено от конкретных образцов


аудио-визуального материала, и может описывать все варианты и образцы аудио-
визуального материала, которые достаточно схожи между собой (подобие зависит от
приложения и от деталей описания). Типичным примером может служить новость, которая
широковещательно передается по разным каналам.
Стандартная абстракция является обобщением медиа-абстракции для описания общего
класса семантических сущностей или описаний. Вообще, стандартная абстракция получается
путем замещения конкретных объектов, событий или других семантических сущностей
классами. Например, если "Ваня играет на пианино" заменяется на "человек играет на
пианино", описание становится стандартной абстракцией. Стандартные абстракции могут
быть рекурсивными, то есть определять абстракцию абстракций. Обычно стандартная
абстракция предназначена для повторного использования или ориентирована на применение
в качестве ссылки.

Простой пример описания концептуальных аспектов показан на рис. 21. Описываемый мир
включает в себя в данном случае Ваню Иванова играющего на фортепиано со своим
учителем. Событие характеризуется семантическим описанием времени: "19:00 24-го апреля
2002", и семантикой места: "Консерватория". Описание включает одно событие: игра и
четыре объекта: фортепьяно, Ваня Иванов, его учитель и абстрактное понятие музыканта.
Последние три объекта принадлежат к классу агент.

Рис. 21. Пример концептуальных аспектов описания.

3.5.4. Навигация и доступ


MPEG-7 предоставляет DS, которые облегчают навигацию и доступ к аудио-визуальному
материалу путем спецификации резюме, обзоров, разделов и вариаций медиа-данных. DS
резюме предоставляет аннотации аудио-визуального материала для того, чтобы обеспечить
эффективный просмотр и навигацию в аудио-визуальных данных. Пространственно-
частотная проекция дает возможность рассматривать аудио-визуальные данные в
пространственно-частотной плоскости. DS вариации специфицируют отношения между
различными вариантами аудио-визуального материала, которые позволяют адаптивный
выбор различных копий материала при различных условиях доставки и для разных
терминалов.

3.5.4.1. Резюме
Аудио-визуальные резюме предоставляют компактные аннотации аудио-визуального
материала для облегчения обнаружения, просмотра, навигации, визуализации и озвучивания
этого материала. DS резюме позволяет осуществлять навигацию в рамках аудио-визуального
материала иерархическим или последовательным образом. Иерархическая декомпозиция
резюме организует материал послойно, так что он на различных уровнях выдает различную
детализацию (от грубой до подробной). Последовательные резюме предоставляет
последовательности изображений или видео кадров, возможно синхронизованные с аудио и
текстом, которые формируют слайд-демонстрации или аудио-визуальные наброски.

 DS резюмирования. Резюме MPEG-7 делают возможным быстрый и эффективный


просмотр и навигацию аудио-визуального материала путем передачи существенных
составляющих этого материала. DS резюмирования содержит связи с аудио-
визуальным материалом, включая сегменты и кадры. Данное описание
резюмирования, терминального оборудования, такого как цифровая приставка к
телевизору, могут иметь доступ к аудио-визуальному материалу, формируя резюме и
отображая результат для последующего взаимодействия с пользователем. DS
резюмирования допускает формирования нескольких резюме для одного и того же
материала, которые могут быть созданы с разным уровнем детализации.
 DS иерархического резюме. DS HierarchicalSummary организует резюме нескольких
уровней, которые описывают аудио-визуальный материал с разной детализацией.
Элементы иерархии специфицируются DS HighlightSummary и HighlightSegment.
Иерархия имеет форму дерева, так как каждый элемент в иерархии кроме корневого
имеет прародителя. Элементы иерархии могут опционно иметь дочерние элементы.
 DS HighlightSummary и HighlightSegment. DS HierarchicalSummary сконструирован на
основе базового представления временных сегментов AВ-данных, описанных
HighlightSegments. Каждый HighlightSegment содержит указатели на AВ-материал,
чтобы обеспечить доступ к ассоциированным ключевым видео- и аудио-клипам, к
ключевым кадрам и ключевым звуковым составляющим, он может также содержать
текстовую аннотацию, относящуюся к ключевым темам. Эти AВ-сегменты
группируются в резюме, или рубрики, посредством схемы описания
HighlightSummary.
 DS SequentialSummary специфицирует резюме, состоящее из последовательности
изображений или видео кадров, возможно синхронизованных со звуком или текстом.
SequentialSummary может также содержать последовательность аудио-фрагментов.
Аудио-визуальный материал, который образует SequentialSummary, может быть
записан отдельно от исходного материала, чтобы позволить быструю навигацию и
поиск. В качестве альтернативы, последовательные резюме могут связываться
непосредственно с исходным аудио-визуальным материалом для того, чтобы ослабить
требования к памяти.

Рис. 22. Пример иерархического резюме видео записи футбольного матча, имеющего
многоуровневую иерархию. Иерархическое резюме предполагает достоверность (то есть, f0,
f1, …) ключевых кадров с точки зрения видео сегмента следующего более низкого уровня.
На рис. 22 показан пример иерархического резюме видео записи футбольного матча.
Описание иерархического резюме предоставляет три уровня детализации. Видео запись
матча суммирована на одном корневом кадре. На следующем уровне иерархии предлагается
три кадра, которые суммируют различные сегменты видеозаписи. Наконец, внизу рисунка
показаны кадры нижнего уровня иерархии, отображающие детали, различных сцен
сегментов предыдущего уровня.

3.5.4.2. Разделы и декомпозиции


Отображения разделов и декомпозиций описывает различные части аудио-визуального
сигнала в пространстве, времени и по частоте. Отображения разделов описывает различные
виды аудио-визуального материала, такие как отображения с низким разрешением,
пространственных или временных сегментов, или частотных субдиапазонов. Вообще, DS
отображения пространства и частоты специфицируют соответствующие разделы в
пространственной и частотной плоскостях.

Отображение декомпозиций описывает различные представления аудио-визуального сигнала


посредством механизмов графов. Декомпозиции специфицируют узловые элементы
информационных структур, базирующихся на графе и соответствующие элементы
отношений, которые соответствуют анализу и синтезу внутренних зависимостей
отображений.

 DS отображений описывают различные пространственные и частотные отображения


аудио-визуальных данных. Определены следующие DS отображения: DS SpaceView
описывает пространственное отображение аудио-визуальных данных, например,
пространственный сегмент изображения. DS FrequencyView описывает отображение в
пределах заданного частотного диапазона, например, частотный субдиапазон
звукового сопровождения. DS SpaceFrequencyView специфицирует многомерное
отображение аудио-визуальных данных одновременно в пространстве и по частоте,
например, частотный субдиапазон пространственного диапазона изображения. DS
ResolutionView специфицирует отображение с низким разрешением, такое как
набросок изображения. Концептуально, отображение разрешения является частным
случаем частотного отображения, которое соответствует низкочастотному
субдиапазону данных. DS SpaceResolutionView специфицирует отображение
одновременно в пространстве и по разрешению, например, отображение изображения
пространственного сегмента с низким разрешением.
 DS декомпозиции проекции описывают различные пространственные и частотные
декомпозиции и организацию отображения аудио-визуальных данных. Определены
следующие DS декомпозиции проекций: DS ViewSet описывает набор проекций,
который может иметь различные свойства полноты и избыточности, например, набор
субдиапазонов, полученный при частотной декомпозиции аудио сигнала,
образующего ViewSet. DS SpaceTree описывает дерево декомпозиции данных,
например, пространственная декомпозиция квадрантов изображения. DS
FrequencyTree описывает частотную декомпозицию данных, например, волновую
декомпозицию изображения DS. SpaceFrequencyGraph описывает декомпозицию
данных одновременно в пространстве и по частоте. Здесь отображение использует
частотный и пространственный графы. Граф видео отображения специфицирует
декомпозицию видео данных в пространстве координата-время-частота, например,
декомпозиция видео 3-D-субдиапазона. Наконец, MultiResolutionPyramid
специфицирует иерархию проекций аудио-визуальных данных, например, пирамиду
изображений с разным разрешением.

На рис. 23 приведен пример пространственно-частотного графа декомпозиции изображения.


Структура пространственного и частотного графа включает элементы узлов, которые
соответствуют различным пространственным и частотным проекциям изображения,
состоящего из пространственных проекций (пространственные сегменты), частотных
(частотные субдиапазоны), и пространственно-частотных (частотные субдиапазоны
пространственных сегментов). Структура пространственного и частотного графа включает
также элементы переходов, которые содержат анализ и синтез зависимостей между
проекциями. Например, на рис. 23, “S” переходы указывают на пространственную
декомпозицию, в то время как “F” переходы отмечают частотную или субдиапазонную
декомпозицию.

Рис. 23. Пространственно-частотный граф разлагает изображение или аудио-сигналы в


пространстве место-время-частота. Декомпозиция изображений, использующая
пространственно-частотный граф, делает возможным эффективный доступ и поиск
материала при самом разном разрешении

3.5.4.3. Вариации содержимого


Вариации предоставляют информацию о различных изменениях аудио-визуального
материала, такого как резюме, архивированные или версии с малым разрешением, а также
версии на различных языках - звук, видео, изображение, текст и т.д.. Одной из главных
функций DS вариаций является разрешение серверу, прокси или терминалу выбрать
наиболее удобную вариацию аудио-визуального материала, которая может заместить
оригинал, если необходимо, адаптировать различные возможности терминального
оборудования, сетевых условий или предпочтений пользователя. DS вариаций используется
для спецификации различных вариаций аудио-визуальных данных. Вариации могут
возникать самыми разными способами, или отражать изменения исходных данных. Значение
достоверности вариации определяет ее качество по сравнению с оригиналом. Атрибут типа
вариации указывает на характер изменений: резюме, аннотация, язык перевода, уменьшение
насыщенности цвета, снижение разрешения, сокращение частоты кадров, архивирование и
т.д..

3.5.5. Организация содержимого


MPEG-7 предоставляет DS для организации и моделирования коллекций аудио-визуального
материала, сегментов, событий, и/или объектов, и описания их общих свойств. Коллекции
могут быть далее описаны, используя различные модели и статистики для того, чтобы
характеризовать атрибуты элементов коллекции.
3.5.5.1. Собрания (Collections)
DS структуры коллекции описывает коллекции аудио-визуального материала или отрывков
такого материала, например, временные сегменты видео. DS структуры коллекции
группирует аудио-визуальный материал, сегменты, события, или объекты кластеры
коллекций и специфицирует свойства, которые являются общими для всех элементов. DS
CollectionStructure описывает также статистику и модели значений атрибутов этих
элементов, такие как усредненная гистограмма цвета для коллекции изображений. DS
CollectionStructure также описывает отношения между кластерами коллекций.

На рис. 24 показана концептуальная организация коллекций в DS CollectionStructure. В этом


примере, каждая коллекция состоит из набора изображений с общими свойствами, например,
каждая отображает сходные события в футбольном матче. Внутри каждой коллекции, могут
быть специфицированы отношения между изображениями, такие как степень сходства
изображений в кластере. В рамках коллекции, DS CollectionStructure специфицирует
дополнительные связи, такие как степень сходства коллекций.

Рис. 24. DS структуры коллекции описывает коллекции аудио-визуального материала,


включая отношения (то есть, R AB, RBC, RAC) внутри и между кластерами коллекций

3.5.5.2. Модели
DS моделей предоставляют средства для моделирования атрибутов и характеристик аудио-
визуального материала. DS модели вероятности предоставляет собой фундаментальную DS
для спецификации различных статистических функций и вероятностных структур. DS
модели вероятности могут использоваться для представления образцов аудио-визуальных
данных и классов дескрипторов, использующих статистические аппроксимации.

DS аналитической модели описывает коллекции образцов аудио-визуальных данных или


кластеров дескрипторов, которые предоставляют модели для конкретных семантических
классов. DS аналитической модели специфицирует семантические маркеры, которые
индицируют моделируемые классы. DS аналитической модели опционно специфицирует
степень доверия, с которой семантический маркер приписан модели. DS классификатора
описывает различные типы классификаторов, которые определяют механизм присвоения
семантических маркеров аудио-визуальным данным.

3.5.6. Взаимодействие с пользователями


DS UserInteraction описывает предпочтения пользователей имеющих отношение к
использованию AВ-материала, а также историю его использования. Описания АВ-материала
в MPEG-7 может быть приведено в соответствие с описаниями предпочтений для того,
чтобы выбрать и персонализовать АВ-материал для более эффективного доступа,
презентации и использования. DS UserPreference описывает предпочтения для различных
типов материала и моделей просмотра, включая зависимость от контекста в терминах
времени и места. DS UserPreference описывает также вес относительной важности
различных предпочтений, характеристики конфиденциальности предпочтений и будут ли
предпочтения изменяться в процессе взаимодействия, агента с пользователем. DS
UsageHistory описывает историю действий, предпринятых пользователем мультимедийной
системы. Описания истории использования могут пересылаться между клиентами, их
агентами, провайдерами материала и оборудованием, и могут быть в свою очередь
использованы для определения предпочтений пользователей с учетом характера АВ-
материала.

3.6. Эталонные программы:


экспериментальная модель
3.6.1. Цели
Программы XM являются основой для эталонных кодов стандарта MPEG-7. Они используют
нормативные компоненты MPEG-7:

 Дескрипторы (D),
 Схемы описания (DS),
 Схемы кодирования (Cs),
 Язык описания определений DDL (description definition language)
 Компоненты систем BiM.

Кроме нормативных компонентов, симуляционной платформе необходимы также некоторые


ненормативные компоненты, существенные для выполнения некоторых процедурных
программ, выполняемых для нормативных информационных структур. Информационные
структуры и процедурные программы образуют приложения. Для большинства D или DS
существует как минимум одно приложение в программном пакете, позволяющее проверить
функциональность каждого нормативного компонента. Приложения показывают также, как
извлечь метаданные из медиа-материала, или как мета данные могут использоваться в
простых приложениях. Следовательно, XM реализует только базовые типы элементарных
приложений, а не приложения реального мира. Более того, программы XM имеют только
интерфейс командной строки, который не позволяет какого-либо взаимодействия в процессе
исполнения.

Модули программного обеспечения XM разработаны так, что все они используют


специфицированные интерфейсы. Это позволяет облегчить навигацию среди множества
различных модулей для разных D и DS. С другой стороны, использование фиксированного
интерфейса позволяет повторно использовать и объединять отдельные модули в большие
приложения.

3.6.2. Извлечение и приложения клиента


В рамках программного обеспечения XM, приложения соотносятся с одним конкретным
дескриптором или схемой описания. Так как стандартизовано много дескрипторов и схем
описания (DS), существует также много приложений интегрированных в программный
пакет. Приложения, которые формируют дескриптор (D) или схему описания (DS), которые
они тестируют, называются приложениями выборки. С другой стороны, приложения,
которые используют тестируемые D или DS (DUT), называются приложениями клиента.
Извлекающие приложения нужны, если D или DS являются дескриптором низкого уровня,
это означает, что описание может быть извлечено из мультимедийного материала
автоматически. Для D или DS высокого уровня выборка не может быть реализована
аналогично. Однако в большинстве случаев выборка может быть основана на
предварительной информации. Это означает, что процесс выборки читает эти
дополнительные данные помимо медийного материала, чтобы получить описания. Таким
образом, набор мультимедийного материала расширяется путем добавления входных данных
высокого уровня.

3.6.3. Модульность XM-программ


По умолчанию модули для всех D и DS скомпилированы так, чтобы создать один большой
исполнимый модуль, который может затем вызвать приложение для индивидуального D или
DS. Однако результирующий исполняемый модуль становится необыкновенно большим, из-
за массы индивидуальных D и DS определяемых стандартом. Компиляция с целью
получения исполняемого модуля может выдать файл размером более 100 Мбайт (в случае,
если включен режим отладки). Следовательно, программное обеспечение MPEG-7 XM
сконструировано так, чтобы поддерживать частичную компиляцию с использованием только
одного D или DS. С другой стороны, во многих случаях желательно комбинировать
субнаборы D или DS. Более того, комбинирование D и DS также необходимо, когда DS
строится иерархически из других D и DS. При этом сценарии, не только важно обеспечить
частичную компиляцию, но существенно сконструировать программу так, чтобы код можно
было использовать повторно. Таким образом, все приложения построены из модулей. Среди
этих модулей:

 класс медийного декодера,


 класс мультимедийных данных,
 класс средства выборки (только для приложений выборки),
 класс дескриптора,
 класс схемы кодирования, и
 класс средства поиска (только для приложений клиента).

Чтобы увеличить возможность повторного использования, все эти классы используют


специальные интерфейсы, независящие от D или DS, к которым они принадлежат. Таким
образом, нужно, чтобы программу можно было использовать повторно, например,
применить средство выборки D или DS для других D или DS без глубокого знания, как это
делается в данном средстве. Это возможно, если только известно, как использовать
интерфейс этого средства выборки. Модули, перечисленные выше, скомбинированы или
соединены друг с другом так, чтобы образовать цепочку обработки. Это сделано в классах
приложений, которые могут относиться к классам выборки или приложения клиента.

3.6.4. Модули приложения


3.6.4.1. Медийные декодеры
Медиа-декодер (класс MediaIO) поддерживает широкий диапазон возможных входных
медийных форматов. Среди них:

 аудио данные в файлах WAV,


 видео потокиMPEG-1,
 векторы перемещения из видео потоков MPEG-1 (обрабатываемые как статическое
изображение),
 статические изображения (JPEG, GIF, PNM и многие другие),
 список ключевых точек 4D (t,x,y,z),
 список ключевых точек nD (t, x[0..n-1]), и
 другие частные входные форматы для информации верхнего уровня

Для этих целей класс MediaIO использует набор внешних библиотек, которые не
принадлежат во всех случаях дереву исходных кодов программ XM. Сюда входят
следующие библиотеки:

 библиотека Afsp для аудио-файлов, и


 ImageMagick для статических изображений.

Особым случаем является видео последовательности, так как декодированное и


некомпрессированное представление является слишком емким для того, чтобы
производиться в памяти. Следовательно, класс MediaIO записывает декомпрессированные
изображения во временные файлы, которые могут быть затем загружены с помощью
программ для статических изображений. Тот же механизм применяется для информации
векторов перемещения, но здесь декодирование видео последовательности останавливается
после получения векторов перемещения.

Так как класс MediaIO является интерфейсом для этих библиотек, использование внешних
библиотек не нужно и не разрешено для любого другого класса программ XM, например,
разрешающих аудио-экспертам использовать программы XM без специфичной для видео
библиотеки ImageMagick.

3.6.4.2. Мультимедийные данные


Класс MultiMedia хранит загруженные медиа данные в памяти. Видео последовательности,
не загружаются в память (в память могут заноситься лишь отдельные кадры).

Для статических изображений XM использует сокращенную структуру данных MoMuSys


Vop из модели верификации MPEG-4 (VM). Ключевые точки записываются в двухмерный
связанный список, одно измерение для временных точек (один кадр) содержащих второе
измерение, которое включает в себя все ключевые точки для этого кадра. Структура аудио-
данных в данный момент не согласована, но будет доступна в ближайшем будущем.

3.6.4.3. Средства выборки


Средство выборки выполняет выборку из базы данных характеристики одного элемента
мультимедиа. Процесс выборки не является нормативным средством в стандарте MPEG-7.
Чтобы получить характеристику, средство выборки воспринимает ссылку на медиа-данные,
являющиеся входными для данной операции, и в то же время ссылкой для описания, которое
записывает результаты процесса выборки.

Так как в случае обработки видео последовательности, невозможно предоставить все


входные данные одновременно, выборка производится по-кадрово. Это означает, что
имеется три функции, которые используются для реализации процедуры выборки:

 InitExtracting, которое вызывается до обработки первого кадра,


 StartExtracting, которое вызывается в цикле для всех кадров, чтобы извлечь часть
описания, и
 PostExtracting, которое вызывается после того, как все кадры обработаны. Это
необходимо, если некоторая часть описания может быть сформирована после того,
как все данные станут доступны (например, число кадров в последовательности).

Тот же интерфейс используется в случае обработки аудио-данные. Здесь, входные данные


являются более или менее непрерывными. Входной поток делится на кадры, которые затем
могут обрабатываться один за другим.

Помимо интерфейсов, классы выборки имеют процедурный код. В случае средства выборки
изображения или видео, программы XM используют AddressLib, которая является общей
библиотекой видео обработки для выполнения задач анализа изображения на нижнем
уровне.

Средства выборки используются исключительно для получения данных из медиа среды


прикладного типа. Как будет показано позднее, имеется возможность извлечь проверяемые
D или DS из других данных описания. В этом случае, процесс выборки может быть
реализован только через один функциональный вызов, то есть, без итеративных циклов с
входными данными для каждой временной точки или периода.

3.6.4.4. Класс дескрипторов


Классы дескрипторов несут в себе описательные данные. В программах XM классы для
каждого D или DS представляют непосредственно нормативную часть стандарта. Имеются
также функции для элементов реализации описаний.

В программах XM имеется два различных способа конструирования классов D или DS. В


случае визуальных D, этот класс использует простой подход класса C++. Во всех других
случаях этот класс реализуется с помощью общего модуля, который в XM называется
GenericDS. Этот класс является интерфейсом между программами C++ XM и реализацией
парсера DDL. Здесь используется XML парсер, предоставляющий DOM-API (Data Object
Model - Application Programming Interface - прикладной программный интерфейс объектной
модели данных). Следовательно, GenericDS является интерфейсом между XM и парсером
DOM-API. Управление памятью для описательных данных выполняется посредством
библиотеки парсера DOM. Оба подхода могут комбинироваться с помощью функций
ImportDDL и ExportDLL реализованных классов дескриптора C++.

3.6.4.5. Схема кодирования


Схема кодирования включает в себя нормативный кодировщик и декодер для D или DS. В
большинстве случаев схема кодирования определена только заданием схемы DDL. Здесь,
кодирование представляет собой вывод описания в файл, а декодирование является
разборкой (parsing) и загрузкой файла описания в память. Описание запоминается, с
использованием класса GenericDS, который является оболочкой для DOM-API.
Следовательно, мы можем использовать библиотеку парсера DOM-API для кодирования и
декодирования. Эти функции встроены XM с помощью класса GenericDSCS (CS = схема
кодирования). Помимо ASCII-представления XML-файла MPEG-7 стандартизует также
двоичное представление описаний (BiM).

Другим подходом является использование визуальной группы MPEG-7. Здесь, каждый D


имеет также индивидуальное двоичное представление. Это позволяет специфицировать
число бит, которое следует использовать для кодирования индивидуальных элементов
описания. Примером может служить число бит, используемых для кодирования каждой
ячейки гистограммы.

3.6.4.6. Средство поиска


В качестве средств извлечения и поиска используется ненормативное средство стандарта.
Оно берет одно описание из базы данных и одно описание запроса, причем запрос может не
соответствовать нормативам MPEG-7 D или DS. Средство поиска анализирует описание и
обрабатывает нужные входные данные так, как это требуется для специфицированного
приложения.

Средства поиска используются во всех клиентских приложениях, которые являются


приложениями поиска и доставки (search & retrieval) и приложениями медиа-
транскодирования (media transcoding). В случае приложений поиска и доставки, средство
поиска сравнивает два входных описания и вычисляет величину их отличия. Для
приложения медиа-транскодирования обрабатываются медиа-данные, то есть, медийная
информация модифицируется на основе описания и запроса. Так как медиа данные
обрабатываются, средство поиска вызывается из приложения транскодирования.

3.6.5. Типы приложений в XM-программах


3.6.5.1. Извлечение из среды
Выборка из медиа приложения относится к типам приложений выборки. Обычно, все D или
DS низкого уровня должны иметь класс приложения этого типа. Как показано на рис. 25 это
приложение извлекает тестируемые D/DS (DUT) из входных медиа данных. Сначала медиа
файл загружается медиа-декодером в мультимедиа-класс, то есть, память. На следующем
шагу с помощью средства выборки описание может быть извлечено из мультимедиа-класса.
Затем описание проходит через кодировщик и закодированные данные записываются в файл.
Этот процесс повторяется для всех мультимедийных файлов медийной базы данных.

Рис. 25. Выборка для приложения медийного типа. Описание извлекается из входных
медийных данных

3.6.5.2. Приложение поиска и извлечения


Приложение поиска и получения данных, показанное на рис. 26, относится к типу
клиентского приложения. Сначала все описания базы данных, которые могут быть
извлечены из медиа приложения, декодируются и загружаются в память. Из медиа данных с
помощью средства выборки может быть извлечено и описание запроса. С другой стороны
запрос может быть загружен непосредственно из файла. После получения всех входных
данных, запрос обрабатывается для всех элементов базы данных, а результирующие
расстояния (значения отличия) используются для сортировки данных согласно уровню
соответствия запросу. Наконец, сортированный список записывается в качестве медиа базы
данных в файл.

Рис. 26. Поиск и выборка прикладного типа. Сортированная информация из медиа базы
данных получается из описаний и запроса

3.6.5.3. Приложение транскодирования среды


Приложение медиа транскодирования также относится к клиентскому типу. Как показано на
рис. 27, медиа файлы и их описания загружены. Основываясь на описаниях, медиа данные
модифицируются (транскодируются), а новая медиа база данных записывается в файл. Более
того, может быть специфицирован запрос, который обрабатывается для описаний до
транскодирования.

Рис. 27. Тип приложения медиа транскодирования. Из исходной DB создается


транскодированная база данных, соответствующая описаниям и опционно запросу.

3.6.5.4. Приложение описания фильтрации


Приложение фильтрации описаний может относиться к типу выборки или клиента, в
зависимости оттого сгенерирован или использован исследуемый дескриптор (DUT). В обоих
случаях описания входной базы данных фильтруются на основе регламентаций запроса.
Результирующие отфильтрованные описания записываются затем в выходные файлы.
Рис. 28. Приложение фильтрации описаний

3.6.6. Модель ключевого приложения MPEG-7


3.6.6.1. Определение ключевых приложений
Эти приложения называются также ключевыми приложениями, так как они имеют базовый
или элементарный тип. Вообще, ключевые приложения необязательно являются
приложениями реального мира, так как они используют только репрезентативные и общие
задания прикладных сценариев.

Другим важным ограничением программного обеспечения XM является факт, что


программы XM являются лишь средствами командной строки, то есть, что приложение, его
входы и выходы могут быть специфицированы только, когда работает XM. Ключевые
приложения во время работы не поддерживают взаимодействие с пользователем.

3.6.6.2. Модель интерфейса


После идентификации природы ключевых приложений следующим шагом является
разработка абстрактной модели такого приложения. Результирующий субнабор входов и
выходов показан на рис. 29. Возможными входами являются медиа базы данных, базы
данных описаний и запросов. Возможными выходами могут быть медиа базы данных и базы
данных описаний. В абстрактной модели семантика выхода медиа базы данных не разделена,
то есть, список медиа файлов наилучшего соответствия и транскодированной медиа базы
данных не рассматриваются как индивидуальные типы выхода.

Рис. 29. Интерфейсная модель ключевых приложений XM. Эта модель показывает
супернабор возможных входов и выходов ключевого приложения XM.

Помимо уже используемых выходов, предполагается, что будет также тип выхода,
соответствующий входному запросу. На рис. 29 этот выход имеет название прочий выход.
Возможными приложениями для этого могут быть уточняющие запросы, например, для
просматривающих приложений. Однако использование этого выхода все еще не ясно и
нуждается в дальнейших исследованиях.
Далее мы используем интерфейсную модель ключевых приложений для двух целей,
создание новых ключевых приложений и описание отношений ключевых приложений с
приложениями реального мира.

3.6.7. Ключевые приложения против приложений


реального мира
Как было заявлено выше, ключевыми приложениями в программном обеспечении XM
являются приложения элементарного типа. Комбинирование ключевых приложений создает
составные приложения. Так как ключевые приложения могут иметь произвольные
комбинации входов, модель ключевых приложений является общей для этого диапазона
приложений. Следовательно, также возможно, что приложения реального мира могут быть
объединены в обрабатывающие сети, состоящие из блоков элементарных ключевых
приложений и пользовательских интерфейсов, предоставляющих пользователю механизм
взаимодействия и презентации результатов.

Рис. 30. Пример приложения реального мира, извлекающего два разных описания (XM-
Appl1, XM-Appl2). Основываясь на первом описании выбран адекватный набор материала
(XM-Appl3), который затем транскодирован с использованием второго описания (XM-
Appl4). (MDB = медийная база данных, DDB = база данных описаний).

На рис. 30 приведен пример приложения реального мира. Сначала, из медиа базы


извлекаются два объекта. Затем, основываясь на первом объекте, из базы данных
выбираются адекватные медиа файлы. Эти медиа файлы транскодируются с привлечением
второго извлеченного объекта.

В 21-ом веке все большая часть продукции будет составлять интеллектуальные объекты.
Сюда относятся фильмы, программы, электронные книги, музыкальные произведения,
телевизионные программы, банки данных, компьютерные игры и т.д. Если же принять во
внимание, что большую часть стоимости ЭВМ, мобильного телефона, модема, приборов
позиционирования и пр. составляют программы, то уже сейчас они составляют заметную
часть национального продукта промышленно развитых стран.

Быстродействие сетевых каналов уже сегодня позволяет скопировать содержимое DVD-


диска за время порядка 10 секунд, сетевые пользователи обмениваются друг с другом
дисками, переписывают их друг у друга. Производители программ и других аналогичных
продуктов несут огромные убытки. Встают достаточно сложные проблемы, как, сохранив
демократичность Интернет, обеспечить права интеллектуальной собственности автора,
владельца, распространителя. Эта проблема рассматривалась уже в рамках MPEG-4. Именно
этой проблеме посвящен готовящийся сейчас стандарт MPEG-21.
Ссылки
Имеется большое число документов на базовой странице MPEG http://drogo.cselt.it/mpeg/,
включая:

 Введение в MPEG-7
 Требования MPEG-7
 Приложения MPEG-7
 Концепция MPEG-7
 Документы MPEG-7 CD, WD и XM: системы, DDL, видео, аудио и MMDS.

Информацию, имеющую отношение к промышленной сфере, можно найти на Web-сервере


MPEG-7 http://www.mpeg-7.com (Industry Focus Group).

Приложение А. Словарь и сокращения


CD Committee Draft - проект комитета
CE Cилиe Experiment - центральный эксперимент
CS Coding Scheme - схема кодирования
D Дескриптор
DDL Data Description Language - Язык описания данных
DS Description Scheme - Схема описания
FCD Final Committee Draft - окончательный проект комитета
Final Draft of International Standard - окончательный проект международного
FDIS
стандарта
IS International Standard - Международный стандарт
MMDS Multimedia Description Schemes - Схемы описания мультимедиа
MPEG Moving Pictures Experts Group - Группа экспертов по движущимся изображениям
WD Working Draft - рабочий проект
XM eXperimentation Model - модель экспериментирования

2.5.3 Архитектура мультимедиа MPEG-21


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Обзор цифровых объектов


Декларация цифрового объекта
Контейнер
Объект
Компонент
Идентификация цифрового объекта
Идентификация цифровых объектов
Идентификация различных схем описания
Идентификация различных типов цифровых объектов
Защита и управление правами интеллектуальной собственности (IPMP)
Язык описания прав
Модель данных MPEG REL
Принципал
Право
Ресурс
Соотношение с терминологией MPEG
Адаптация цифрового объекта
Формат файлов
Устойчивая ассоциация идентификации и описания с цифровыми объектами
Ссылки

Стандарт MPEG-21 (см. www.chiariglione.org или www.itscj.ipsj.or.jp) имеет целью


определить рамки для создателей, дистрибьюторов и сервис-провайдеров в открытом рынке
мультимедиа.

MPEG-21 базируется на двух важных концепциях: определении базовой единицы


распределения и соглашения (Digital Item - цифровой объект) и концепции взаимодействия
пользователей и цифровых объектов. Цифровой объект может рассматриваться как предмет
мультимедийных соглашений (например, видео коллекция, музыкальный альбом), а
пользователи, как субъекты мультимедийных соглашений.

Цель MPEG-21 может быть, таким образом, переформулирована как: определение


технологии, необходимой для поддержки пользователей при обмене, доступе, продаже и
других манипуляциях цифровыми объектами. При этом предполагается обеспечить
максимальную эффективность и прозрачность этих операций.

Пользователем является любой объект, который взаимодействует со средой MPEG-21 или с


цифровым объектом. Пользователями могут быть частные лица, сообщества, организации,
корпорации, консорциумы, правительства и прочие субъекты. Пользователи
идентифицируются по их отношению к другим пользователям. Стандарт MPEG-21 по чисто
техническим причинам не делает различие между провайдерами содержимого и
потребителями, и те и другие являются пользователями. Отдельный объект может
использовать содержимое (content) разными способами (публиковать, доставлять, и т.д.), но
все участники, связанные с MPEG-21, считаются пользователями. Однако пользователь
может иметь специфические или даже уникальные права и ответственность в зависимости от
его взаимодействия с другими пользователями в пределах MPEG-21.

На самом нижнем уровне MPEG-21 определяет рамки, в которых один пользователь


взаимодействует с другим пользователем, а предметом взаимодействия является цифровой
объект, обычно называемый содержимым (контентом). Некоторые такие взаимодействия
формируют контент, предоставляют, архивируют или аранжируют его, улучшают и
доставляют и т.д. и т.д..

Обзор цифровых объектов


В любой системе (такой как MPEG-21), которая предлагает осуществлять большое число
операций над цифровыми объектами, необходимо точно описать, что собой представляет
такой объект. Достаточно сложно, сформировать универсальную модель цифрового объекта,
которая бы годилась для всей совокупности современных приложений. Описание модели
цифрового объекта представлено в спецификации ISO/IEC 21000 (часть 2)..

Пример:

Рассмотрим в качестве цифрового объекта простую WEB-страницу. WEB-страница обычно


состоит из HTML-документа со встроенными ссылками на различные файлы, содержащие
видео объекты (например, JPEG или GIF), и, возможно, стилевые файлы. В этом простом
случае, цифровой объект представляет собой HTML-документ плюс некоторые ресурсы, с
ним сопряженные.

Теперь модифицируем пример, предположив, что WEB-страница содержит некоторые


логические скрипты (напр., JavaScript, PHP и т.д.), которые определяют предпочтительный
язык программы просмотра (viewer) из заранее оговоренного списка..

Ключевым моментом в этом модифицированном примере является то, что присутствие


языковой логики затуманивает вопрос, что собой представляет теперь цифровой объект, и
как его можно теперь однозначно определить.

Первой проблемой является выявление всех зависимостей. Добавление кода скриптов


изменяет декларированные связи WEB-страницы, которые могут быть точно определены
лишь в результате работы скрипта на определенной ЭВМ. Это может работать в качестве
метода выявления структуры цифрового объекта в предположении, что автор ставит в
соответствие каждой новой версии оттранслированной WEB-страницы определенный
цифровой объект.

Это предположение высвечивает вторую проблему: неизвестно, действительно ли автор


предполагает, что каждой трансляции страницы будет соответствовать отдельный цифровой
объект, или он намеревается оставить выбор языка неопределенным. Если имеет место
последний вариант, то невозможно выяснить точно набор ресурсов, из которых состоит
цифровой объект, что возвращает нас к первой проблеме.

Проблемы, представленная выше, должна быть решена с помощью декларации цифрового


объекта. Декларация цифрового объекта DID (Digital Item Declaration) является документом,
который специфицирует состав, структуру и организацию цифрового объекта.

Декларация цифрового объекта


Целью декларации цифрового объекта DID (Digital Item Declaration) является описание
набора абстрактных концепций и элементов для образования модели описания цифрового
объекта. В рамках этой модели цифровой объект является цифровым представлением
“действия”, и в этом качестве, он является предметом, над которым производятся операции
(управление, описание, обмен, коллекционирование и т.д.). Модель должна быть
максимально гибкой и универсальной, чтобы допускать реализацию функций высокого
уровня. Это, в свою очередь, позволит модели быть основой для построения моделей
высокого уровня других элементов MPEG-21 (таких как идентификация & описание или
IPMP). Эта модель не регламентирует выбор языка. Вместо этого модель помогает
сформировать общий набор абстрактных понятий и терминов, которые могут использоваться
для определения такой схемы. Технология DID описана в трех нормативных секциях:
 Модель: Модель декларации цифрового объекта описывает набор абстрактных
терминов и понятий для образования полезной модели определения цифровых
объектов. В пределах этой модели цифровой объект является цифровой
репрезентацией “работы”, и как таковой, он является предметом, над которым
производятся операции (управление, описание, обмен, коллекционирование, и т.д.).
 Репрезентация: нормативное описание синтаксиса и семантики каждого элемента
декларации цифрового объекта в XML.
 Схема: нормативная XML схема, включающая всю грамматику репрезентации
декларации цифрового объекта в XML.

Далее следуют описания семантических значений элементов модели декларации цифрового


объекта.

Контейнер
Контейнер является структурой, которая позволяет группировать объекты и/или
контейнеры. Эти группы объектов и/или контейнеров могут использоваться для
формирования логических пакетов (для транспортировки или обмена) или логические
архивы (для организаций). Дескрипторы позволяют “помечать” контейнеры данными,
которые пригодны для целей группирования (например, инструкции по доставке пакета, или
информация о категории для архивов (shelf)).

Следует заметить, что сам контейнер не является объектом; контейнеры могут


группироваться в объекты и/или контейнеры.

Объект
Объект представляет собой группировку субобъектов и/или компонентов, которые
сопряжены с соответствующими дескрипторами. Дескрипторы содержат информацию об
объекте, как представление о действии (work). Объекты могут содержать выбор, который
позволяет им быть адаптированными к требованиям заказчика или сконфигурированными.
Объекты могут быть условными (на базе осуществленного выбора). Объекты, которые не
содержат субобъектов, могут рассматриваться как сущность - логически неделимое
действие. Объект, который не содержит в себе субобъектов, может рассматриваться как
компиляция - действие состоит из потенциально независимых частей.

Отношение между объектом и цифровым объектом (как это определено в ISO/IEC 21000-
1:2001, MPEG-21 Vision, Technologies and Strategy) может быть определено следующим
образом: объекты являются декларативными репрезентациями цифровых объектов.

Компонент
Компонент соединяет ресурс со всеми его дескрипторами. Эти дескрипторы представляют
собой данные, относящиеся ко всем или части специфических вариантов ресурса. Такие
дескрипторы обычно содержат управляющую или структурную информацию о ресурсе
(такую как полоса пропускания, набор символов, входные точки или тип шифрования), но не
данные, описывающие содержимое ресурса.

Следует заметить, что сам компонент не является объектом; компоненты являются


строительными блоками объектов. Ниже представлены некоторые объекты и компоненты.
Ссылка (anchor) привязывает дескрипторы к фрагменту, который соответствует
специфическому положению или диапазону в пределах ресурса.

Дескриптор (descriptor) устанавливает соответствие между информацией и вложенными


элементами. Эта информация может быть компонентом (таким как набросок изображения,
или компонент текста), или заявление (statement).

Условие (condition) описывает опционный элемент, и его связи с условиями отбора, которые
определяют условия его включения. Могут использоваться несколько предикатов, которые
объединяются, например, посредством операции AND. Любой предикат может входить в
условие со знаком отрицания. Могут использоваться несколько условий, сопряженных с
данным элементом, которые объединяются с помощью, например, операции OR (когда
определяют условия включения элемента).

Выбор (choice) описывает набор вариантов, которые могут определять конфигурацию


объекта. Варианты в рамках предлагаемого выбора могут быть эксклюзивными (выбор
только одного) или инклюзивными (выбор любого числа вариантов или ни одного).

Вариант (selection) описывает специфические решения, которые вводят одно или более
условий где-то внутри объекта. Если вариант выбран, его предикат становятся истинными
(true); если он не выбран, его предикат имеет значение false; если выбор не сделан, предикат
является неопределенным.

Аннотация (annotation) описывает набор данных о некотором идентифицированном


элементе модели без изменения или добавления к указанному элементу. Информация может
иметь форму утверждений, дескрипторов или ссылок.

Утверждение (assertion) определяет полностью или частично сконфигурированное


состояние выбора путем присвоения предикатам, сопряженным с вариантами выбора,
значений истинно, ложно или не определено.

Ресурс (resource) является индивидуально идентифицированным элементом, таким как


видео- или аудио-клип, изображение, или текст. Ресурс потенциально может быть
физическим объектом. Все ресурсы должны быть локализуемы с помощью уникального
адреса.

Фрагмент (fragment) однозначно определяемая специфическая точка или интервал в


пределах ресурса. Фрагмент может быть специфическим для определенного ресурса.

Заявление (statement) является текстовой строкой, содержащей данные.

Предикат (predicate) однозначно идентифицированное утверждение, которое может быть


истинным, ложным или неопределенным. На рис. 1 показан пример, где отображены
основные элементы модели, а также их взаимоотношения в рамках модели декларации
цифровых объектов.
Рис. 1. Взаимоотношения принципиальных элементов в пределах модели Digital Identification
Declaration Model

Идентификация цифрового объекта


Область спецификации DII (Digital Item Identification) включает в себя:

 Идентификацию цифрового объекта и его частей (включая ресурсы);


 Идентификацию IP, имеющих отношение к цифровым объектам (и их частям);
 Идентификацию схемы описания DS (Description Schemes);
 Идентификаторы, для того чтобы связать цифровые объекты с информацией, такой
как описательные метаданные.
 Идентификацию различных типов цифровых объектов.

Спецификация DII не формирует новых систем идентификации для элементов содержимого


(content), для которых идентификация и схемы описания уже существуют и используются
(например, ISO/IEC 21000-3 не пытается заменить ISRC (International Standard Recording
Code), описанную в ISO 3901 для звуковых записей, но позволяет использовать ISRC в
рамках MPEG-21).

Идентификаторы, предлагаемые в данной спецификации, могут быть сопряжены с


цифровыми объектами путем включения их в определенное место декларации цифрового
объекта. Это место является элементом Statement. Примерами подобных заявлений может
быть описательная, идентификационная или управляющая информация. На рис. 6.46
показаны примеры такого рода данных. Закрашенные прямоугольники являются субъектами
спецификации DII, в то время как боксы с четко очерченными границами - определены в
спецификации DID:

Рис. 2. Взаимоотношения между декларацией и идентификацией цифрового объекта

Несколько элементов в декларации цифрового объекта могут содержать нуль один или более
дескрипторов. Каждый Descriptor может содержать одно заявление, которое может
содержать один идентификатор, относящийся к составляющему элементу заявления. На рис.
2 для идентификации компонента и объект используются два заявления (левая часть
диаграммы) и (правая часть диаграммы).

Цифровой объект и его составные части в рамках MPEG-21 идентифицируются с помощью


инкапсулированных в идентификационную DS URI. URI (Uniform Resource Identifier)
является компактной строкой символов для идентификации абстрактного или физического
ресурса, где ресурс определяется как "нечто, что имеет идентификатор".

Требование того, чтобы идентификатор цифрового объекта являлся URI, согласуется с тем,
что идентификатор может быть URL (Uniform Resource Locator). Термин URL относится к
специфическому субнабору URI, который используется сегодня в качестве указателя
информации в Internet.

Идентификация цифровых объектов


ISO/IEC-21000-3 допускает использование любого идентификатора типа URI в качестве
идентификатора цифрового объекта (и его частей). Спецификация предоставляет
возможность регистрировать идентификационные системы в регистрационном центре. На
рис. 3 показано, как музыкальный альбом и его части могут быть идентифицированы с
помощью DII.
Рис. 3. Метаданные и идентификаторы музыкального альбома в рамках MPEG-21

В некоторых случаях может быть нужно использовать автоматическую систему для


получения с сервера цифрового объекта (или его частей) или информации, сопряженной с
цифровым объектом (например, в случае интерактивной системы доступа к содержимому в
реальном времени).

Идентификация различных схем описания


Так как разные пользователи MPEG-21 могут иметь различные схемы описания их контента,
необходимо, чтобы MPEG-21 DII допускало разделение таких разных схем. MPEG-21 DII
при решении этой задачи использует для области имен механизм XML.

Идентификация различных типов цифровых объектов


Различные части MPEG-21 будут определять разные типы цифровых объектов. Например,
адаптация цифровых объектов DIA (Digital Item Adaptation) в дополнение к CDI (Content
Digital Item) определяет XDI (Context Digital Item). В то время как CDI содержит ресурсы,
такие как файлы MP3 или видео потоки MPEG-2, XDI содержат информацию о контексте, в
котором будет использоваться CDI.

DII предоставляет механизм, позволяющий терминалу MPEG-21 разделять эти разные типы
цифровых объектов путем размещения URI внутри маркера типа заявления, которые будут
появляться в качестве дочернего элемента дескриптора, который будет появляться, как
дочерний элемент объекта. Если маркер типа отсутствует, цифровой объект считается
цифровым объектом содержимого (Content).

Защита и управление правами интеллектуальной


собственности (IPMP)
Одна из частей MPEG-21 будет определять рамки защиты и управления правами
интеллектуальной собственности IPMP (Intellectual Property Management and Protection).
IPMP в ближайшее время станет международным стандартом. Проект включает в себя
средства удаленного доступа к инструментарию IPMP, а также механизмы обмена
сообщениями между средствами IPMP и терминалом. Стандарт охватывает также средства
аутентификации IPMP, и обеспечение интеграции правовых выражений (Rights Expressions)
в соответствии с информационным правовым словарем и языком описания прав.
Язык описания прав
Язык описания прав REL (Rights Expression Language) представляет собой язык, который
может восприниматься ЭВМ, и приспособлен для декларации прав и разрешений с помощью
информационно-правового словаря.

REL предназначен для обеспечения гибких механизмов поддержки прозрачного


использования цифровых ресурсов при публикации, распространении и получении
цифровых фильмов, цифровой музыки, электронных книг, широковещательных программ,
интерактивных игр, компьютерных программ и других цифровых продуктов так, чтобы
права интеллектуальной собственности были защищены в полной мере. Предполагается
также поддержать спецификацию управления доступом и использованием цифрового
материала в случаях, где финансовый обмене является частью условий использования и
поддерживает обмен частным цифровым материалом (content).

Язык описания прав предполагает наличие гибкого механизма обработки персональных


данных согласно с правами и требованиями пользователей, с учетом их пожеланий
конфиденциальности.

Стандарт REL должен быть способен гарантировать взаимосогласованность и надежность


при работе с разными системами и сервисами. Чтобы достичь этого, он должен предложить
широкое многообразие и расширяемость в декларации прав, условий и обязательств,
удобства и адаптивность при работе с различными моделями бизнеса и использования
цифровых объектов.

Модель данных MPEG REL


MPEG REL реализует простую и расширяемую модель данных для многих ключевых
концепций и элементов.

Модель данных MPEG REL для описания прав состоит из четырех базовых сущностей и
отношений между этими сущностями. Эти базовые отношения определяют предоставление
гранта. Структурно, грант MPEG REL состоит из следующих частей:

 Принципал, которому предоставляется право доступа


 Право, которое определяет это предоставление (grant)
 Ресурс, к которому эти права относятся.
 Условие, которое должно быть выполнено, прежде чем будет можно воспользоваться
правами.

Рис. 4. Модель REL Data


Принципал
Принципал (principal) определяет, кому (какому принципалу) предоставляются права.
Каждый принципал идентифицирует одну из сторон. Напротив, набор принципалов,
охватывающий всех, не является принципалом.

Хозяин обозначает участника, которого он однозначно идентифицирует с помощью


индивидуальной информации. Важно, чтобы принципал мог проверить информацию,
которая сопряжена с механизмом аутентификации. Тип принципала поддерживает
следующие идентификационные технологии:

 Принципал, который должен предоставить для аутентификации несколько параметров


доверия (credentials). При этом все они должны быть корректны одновременно
 Владелец ключа (keyHolder) - кто-то, кто владеет секретным ключом из пары
открытый/секретный ключ
 Другие идентификационные технологии, которые могут быть придуманы кем-то.

Право
Право определяет действие или класс операций, которые принципалу будет разрешено
осуществить над некоторым ресурсом при определенных условиях.

MPEG REL предоставляет правовой элемент, куда следует записать информацию о правах и
предоставляет набор обычно используемых, специфических или исключительных прав в
отношении таких операций, как возможность выдать, аннулировать и получить что-то.
Расширения MPEG REL могут определять права использования специфических типов
ресурсов. Например, расширение MPEG REL определяет права использования цифровых
операций (например, воспроизведения и печати).

Ресурс
Ресурс является "объектом", к которому принципал может получить доступ (grant). Ресурс
может быть цифровым объектом (таким как электронная книга, аудио или видео-файл или
изображение), сервисом (таким как email, или транзакция B2B), или даже блоком данных,
который может принадлежать принципалу (таким как имя или email адрес).

MPEG REL предоставляет механизмы инкапсуляции данных, необходимых для


идентификации и использования определенного ресурса или ресурсов, которые
соответствуют заданному образцу. Последний позволяет идентифицировать набор ресурсов с
некоторыми общими характеристиками. Расширения MPEG REL могут определять ресурсы,
соответствующие определенной бизнес-модели и техническим приложениям.

Условие
Условие специфицирует срок условия и обязательства, при которых могут реализовываться
права. Простым условием является временной интервал, в течение которого может быть
реализовано право. Несколько более сложное условие требует, существования права,
предварительно предоставленного некоторому принципалу. Используя механизм реализации
предоставленного права, одно право может стать зависимым от наличия других прав.

MPEG REL определяет элемент условия, куда вкладывается информация об условиях


реализации права. Расширения MPEG REL может определить условия, соответствующие
специфическим вкладам моделей использования. Например, расширение содержимого
MPEG REL определяет условия, соответствующие использованию цифровых объектов
(например, водяной знак, адресат и т.д.).

Соотношение с терминологией MPEG


Сущности в информационной модели MPEG REL: принципал, право, ресурс и условие,
могут соответствовать (но не обязательно быть эквивалентны) в терминологии MPEG-21
пользователю, включая терминал, праву, цифровому объекту и условию.

Информационный правовой словарь RDD (Rights Data Dictionary) включает в себя набор
ясных, непротиворечивых, структурированных и однозначно идентифицированных терминов
для поддержки языка описания прав MPEG-21 (Rights Expression Language).

Структура словаря специфицирована, вместе с методологией формирования словаря.


Определены средства описания новых терминов.

RDD распознает легальные определения исключительно как термины другого контекста


(Authorities), которые могут быть поставлены в соответствие RDD. Следовательно, термины,
непосредственно авторизованные RDD, не определяют и не предписывают прав
интеллектуальной собственности.

Адаптация цифрового объекта


Целью ключевых элементов терминалов и сети является достижение прозрачного доступа к
распределенному мультимедийному контенту путем изоляции пользователя от
конфигураций сети, терминала и программного обеспечения. Это сделает возможным
предоставление пользователю сетевых и терминальных ресурсов по запросу, и сформировать
сообщество пользователей, где мультимедийный материал может создаваться и передаваться
в соответствии с требованиями к качеству, надежности и гибкости.

Планируется стандартизовать следующие объекты.

 Пользовательские характеристики. Средства описания, которые специфицируют


характеристики пользователя, включая предпочтения в отношении определенных
медиа ресурсов, предпочтения в отношении способов отображения, и мобильные
характеристики пользователя. Кроме того, сюда относятся средства описания для
поддержки доступности ресурсов для различных пользователей.
 Терминальные возможности. Средства описания, которые специфицируют
возможности терминалов, включая кодирование и декодирование медиа ресурсов,
спецификации оборудования, программ и системных особенностей, а также
коммуникационных протоколов, которые поддерживает терминал.
 Сетевые характеристики. Средства описания, которые специфицируют возможности
и условия сети, включая используемую полосу, задержку и частоту ошибок.
 Характеристики естественного окружения. Средства описания, которые
специфицируют положение и время пользователя в данной окружающей среде, а
также аудиовизуальные характеристики естественного окружения, которые могут
включать уровни шума в аудитории и свойства освещения.
 Адаптивность ресурса. Средства, способствующие адаптации ресурса, включая
адаптацию двоичных ресурсов и метаданных.
 Мобильность сессии. Средства, которые специфицируют то, как передать состояние
цифрового ресурса от одного пользователя другому.
Формат файлов
Цифровой объект MPEG-21 может быть комплексным набором информации. В состав могут
входить статичные и динамичные образцы (например, изображения и фильмы), а также
информация цифрового объекта, метаданные, информация о размещении объектов и пр.. Он
может включать как текстовые данные (напр. XML) так и двоичную информацию (напр.
презентацию MPEG-4 или статические картинки). По этой причине формат файла MPEG-21
будет наследовать несколько концепций MP4, для того чтобы сделать возможным
многоцелевые файлы. Двухцелевые MP4 и MP21 файлы, например, MP4-проигрыватель
будут воспроизводить на лишь данные MPEG-4, а проигрыватель MPEG-21- только данные
MP21.

Устойчивая ассоциация идентификации и описания с


цифровыми объектами
В качестве логического расширения спецификации декларации и идентификации цифровых
объектов, MPEG намерен рассматривать требования устойчивой ассоциации идентификации
и описания с содержимым объектов.

Термин устойчивая ассоциация используется для классификации всех методик управления и


описания связи с содержимым. Это будет подразумевать инкорпорирование
идентификаторов в контекст различных файлов содержимого, транспортные форматы,
включая заголовки файлов. Это также реализует возможность для идентификаторов,
ассоциированных с содержимым, быть защищенными от неавторизованного удаления и
модификации.

В стандарте определены следующие ассоциации идентификации и описания с цифровыми


объектами:

1. В рамках идентификации и описания будет можно на постоянной основе


ассоциировать идентификаторы и дескрипторы с медийными ресурсами.
2. Среда запоминания идентификаторов и описаний, ассоциированных с цифровыми
объектами, будет выполнять следующие стандартные требования:
a. Дескрипторы смогут содержать двоичную и/или текстовую информацию;
(напр., HTML, AAC, JPEG и т.д.).
b. Будет можно ассоциировать дескрипторы с элементами в пределах
иерархического цифрового объекта, который содержит ресурсы.
c. Будет можно запоминать в рамках цифрового объекта ссылки на описательные
медиа данные вне зависимости от их положения.
3. Подход, в котором поддерживается идентификация и описание цифровых объектов,
будет позволять локализовать цифровые объекты по описанию и наоборот. Заметим,
что это не означает, что они должны быть жестко связаны друг с другом;
4. Данный подход будет обеспечивать эффективность системы разделения сопряженных
цифровых объектов, таких как различные версии, или реализации одного и того же
объекта, различных имен одного и того же объекта (напр., псевдонимы, прозвища и
т.д.).
5. Подход будет обеспечивать механизмы поддержки, адаптации, интегрирования с
целью определения уровней доступа к описаниям объектов и прав их использования.
6. Адаптация цифровых объектов определена в качестве важного аспекта для
терминалов и сетей, которые будут предоставлять средства поддержки адаптации
ресурсов, дескрипторов (метаданных) и управления качеством обслуживания.
Ссылки
ISO/IEC TR 21000-1:2001(E) Part 1: Vision, Technologies and Strategy, freely
[1]
downloadable from http://www.iso.ch/iso/en/ittf/PubliclyAvailableStandards
Требования текущей версии MPEG-21 можно найти по адресу
[2]
http://mpeg.telecomitalialab.com/working_documents.htm.

Previous: 2.5.2 Стандарт MPEG-7    UP: 2.5 Ме

2.6 Методы сжатия информации


Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
2.6.1 Алгоритм Зива-Лемпеля 2 12
2.6.2 Локально адаптивный алгоритм сжатия 2 2
Сжатие данных с использованием преобразования Барроуза-
2.6.3 4 12
Вилера
2.6.4 Метод Шеннона-Фано 1 3
2.6.5 Статический алгоритм Хафмана 5 20
Итого    

Полагаю, что все читатели знакомы с архиваторами файлов, вероятно, многие из вас
неоднократно ими пользовались. Целью архивации файлов является экономия места на
жестком или гибком магнитном диске. Кому не приходилось время от времени задумываться
над тем, войдет ли данный файл на дискету? Существует большое число программ-
архиваторов, имеются и специальные системные программные средства типа Stacker или
Doublespace и т.д., решающие эту проблему.
Сегодня, когда дискеты в прошлом, их место заняли флэш-карты с объемом жестких дисков
десятилетие тому назад, архивация начала менять свое назначение. Архивация все чаще
используется при передаче данных для целей экономии полосы пропускания.

Первые теоретические разработки в области сжатия информации относятся к концу 40-х


годов. В конце семидесятых появились работы Шеннона, Фано и Хафмана. К этому времени
относится и создание алгоритма FGK (Faller, Gallager, Knuth), где используется идея
"сродства", а получатель и отправитель динамически меняют дерево кодов (смотри,
например, http://www.ics.uci.edu/~dan/plus/DC-Sec4.html).

В этом разделе пойдет речь о методах сжатия без потери информации. К таким методам
относятся:

 Алгоритм Хафмана
 Арифметическое кодирование
 Контекстное кодирование (PPM - Prediction by Partial Matching)
 Алгоритм Зива-Лемпеля(-Welch)
 Алгоритм Барроуза-Веллера

Полное число алгоритмов сжатия данных без потерь информации существенно более десяти.

Пропускная способность каналов связи более дорогостоящий ресурс, чем дисковое


пространство, по этой причине сжатие данных до или во время их передачи еще более
актуально. Здесь целью сжатия информации является экономия пропускной способности и в
конечном итоге ее увеличение. Все известные алгоритмы сжатия сводятся к шифрованию
входной информации, а принимающая сторона выполняет дешифровку принятых данных.

Существуют методы, которые предполагают некоторые потери исходных данных, другие


алгоритмы позволяют преобразовать информацию без потерь. Сжатие с потерями
используется при передаче звуковой или графической информации, при этом учитывается
несовершенство органов слуха и зрения, которые не замечают некоторого ухудшения
качества, связанного с этими потерями. Более детально эти методы рассмотрены в разделе
"Преобразование, кодировка и передача информации".

Сжатие информации без потерь осуществляется статистическим кодированием или на основе


предварительно созданного словаря. Статистические алгоритмы (напр., схема кодирования
Хафмана) присваивают каждому входному символу определенный код. При этом наиболее
часто используемому символу присваивается наиболее короткий код, а наиболее редкому -
более длинный. Распределение частот отдельных букв английского алфавита показано на
рис. 2.6.1. Такое распределение может быть построено и для русского языка. Таблицы
кодирования создаются заранее и имеют ограниченный размер. Этот алгоритм обеспечивает
наибольшее быстродействие и наименьшие задержки. Для получения высоких
коэффициентов сжатия статистический метод требует больших объемов памяти.
Рис. 2.6.1. Распределение английских букв по их частоте использования

Величина сжатия определяется избыточностью обрабатываемого массива бит. Каждый из


естественных языков обладает определенной избыточностью. Среди европейских языков
русский обладает одной из самых высоких уровней избыточности. Об этом можно судить по
размерам русского перевода английского текста. Обычно он примерно на 30% больше. Если
речь идет о стихотворном тексте, избыточность может быть до двух раз выше.

В 1977 году Абрахам Лемпель и Якоб Зив предложили алгоритм сжатия данных, названный
позднее LZ77. Этот алгоритм используется в программах архивирования текстов compress,
lha, pkzip и arj. Модификация алгоритма LZ78 применяется для сжатия двоичных данных.
Эти модификации алгоритма защищены патентами США. Алгоритм предполагает
кодирование последовательности бит путем разбивки ее на фразы с последующим
кодированием этих фраз. Суть алгоритма заключается в следующем.

Если в тексте встретится повторение строк символов, то повторные строки заменяются


ссылками (указателями) на исходную строку. Ссылка имеет формат <префикс, расстояние,
длина>. Префикс в этом случае равен 1. Поле расстояние идентифицирует слово в словаре
строк. Если строки в словаре нет, генерируется код символ вида <префикс, символ>, где
поле префикс = 0, а поле символ соответствует текущему символу исходного текста. Отсюда
видно, что префикс служит для разделения кодов указателя от кодов символ. Введение
кодов <символ> позволяет оптимизировать словарь и поднять эффективность сжатия.
Главная алгоритмическая проблема здесь заключается в оптимальном выборе строк, так как
это предполагает значительный объем переборов.

Альтернативой статистическому алгоритму стала схема сжатия, основанная на динамически


изменяемом словаре (напр., алгоритмы Лембеля-Зива). Данный метод предполагает замену
потока символов кодами, записанными в памяти в виде словаря (таблица перекодировки).
Соотношение между символами и кодами меняется вместе с изменением данных. Таблицы
кодирования периодически меняются, что делает метод более гибким. Размер небольших
словарей лежит в пределах 2-32 килобайт, но более высоких коэффициентов сжатия можно
достичь при заметно больших словарях до 400 килобайт.
Реализация алгоритма возможна в двух режимах: непрерывном и пакетном. Первый
использует для создания и поддержки словаря непрерывный поток символов. При этом
возможен многопротокольный режим (например, TCP/IP и DECnet). Словари сжатия и
декомпрессии должны изменяться синхронно, а канал должен быть достаточно надежен
(напр., X.25 или PPP), что гарантирует отсутствие искажения словаря при повреждении или
потере пакета. При искажении одного из словарей оба ликвидируются и должны быть
созданы вновь.

Пакетный режим сжатия также использует поток символов для создания и поддержания
словаря, но поток здесь ограничен одним пакетом и по этой причине синхронизация
словарей ограничена границами кадра. Для пакетного режима достаточно иметь словарь
объемом, порядка 4 Кбайт. Непрерывный режим обеспечивает лучшие коэффициенты
сжатия, но задержка получения информации (сумма времен сжатия и декомпрессии) при
этом больше, чем в пакетном режиме.

При передаче пакетов иногда применяется сжатие заголовков, например, алгоритм Ван
Якобсона (RFC-1144). Этот алгоритм используется при скоростях передачи менее 64 Kбит/с.
При этом достижимо повышение пропускной способности на 50% для скорости передачи
4800 бит/с. Сжатие заголовков зависит от типа протокола. При передаче больших пакетов на
сверх высоких скоростях по региональным сетям используются специальные канальные
алгоритмы, независящие от рабочих протоколов. Канальные методы сжатия информации не
могут использоваться для сетей, базирующихся на пакетной технологии, SMDS (Switched
Multi-megabit Data Service), ATM, X.25 и Frame Relay. Канальные методы сжатия дают
хорошие результаты при соединении по схеме точка-точка, а при использовании
маршрутизаторов возникают проблемы - ведь нужно выполнять процедуры
сжатия/декомпрессии в каждом маршрутизаторе, что заметно увеличивает суммарное время
доставки информации. Возникает и проблема совместимости маршрутизаторов, которая
может быть устранена процедурой идентификации при у становлении виртуального канала.

Иногда для сжатия информации используют аппаратные средства. Такие устройства должны
располагаться как со стороны передатчика, так и со стороны приемника. Как правило, они
дают хорошие коэффициенты сжатия и приемлемые задержки, но они применимы лишь при
соединениях точка-точка. Такие устройства могут быть внешними или встроенными,
появились и специальные интегральные схемы, решающие задачи сжатия/декомпрессии. На
практике задача может решаться как аппаратно, так и программно, возможны и
комбинированные решения.

Если при работе с пакетами заголовки оставлять неизмененными, а сжимать только


информационные поля, ограничение на использование стандартных маршрутизаторов может
быть снято. Пакеты будут доставляться конечному адресату, и только там будет выполняться
процедура декомпрессии. Такая схема сжатия данных приемлема для сетей X.25, SMDS,
Frame Relay и ATM. Маршрутизаторы корпорации CISCO поддерживают практически все
режимы сжатия/декомпрессии информации, перечисленные выше.

Этой проблеме посвящено много книг, например, David Salomon, Giovanni Motta, "Handbook
of Data Compression", Springer, или Khalid Sayood, "Introduction to data compression". Обе
книги можно, по крайней мере частично, просмотреть через Интернет. За последние 15 лет
эти технологии достаточно мало изменились.

Если вам предложат архиватор, который, как утверждает продавец, сожмет любой файл, не
верьте. Если бы это было возможно, то любой файл можно было бы путем
последовательности операций архивации довести до нулевого размера. Самое забавное, что в
США был выдан патент (5.533.051) на такой алгоритм сжатия данных.
Сжатие информации является актуальной задачей, как при ее хранении, так и при пересылке.
Сначала рассмотрим вариант алгоритма Зива-Лемпеля.

Смотри также Introduction to Data Compression. Guy E. Blelloch, Computer Science Department.
Carnegie Mellon University. (55 стр.)

2.6.2 Локально адаптивный алгоритм


сжатия
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Этот алгоритм используется для кодирования (L,I), где L строка длиной N, а I - индекс. Это
кодирование содержит в себе несколько этапов.

1. Сначала кодируется каждый символ L с использованием локально адаптивного алгоритма


для каждого из символов индивидуально. Определяется вектор целых чисел R[0],…,R[N-1],
который представляет собой коды для символов L[0],…,L[N-1]. Инициализируется список
символов Y, который содержит в себе каждый символ из алфавита Х только один раз. Для
каждого i = 0,…,N-1 устанавливается R[i] равным числу символов, предшествующих
символу L[i] из списка Y. Взяв Y = [‘a’,’b’,’c’,’r’] в качестве исходного и L = ‘caraab’,
вычисляем вектор R: (2 1 3 1 0 3).

2. Применяем алгоритм Хафмана или другой аналогичный алгоритм сжатия к элементам R,


рассматривая каждый элемент в качестве объекта для сжатия. В результате получается код
OUT и индекс I.

Рассмотрим процедуру декодирования полученного сжатого текста (OUT,I).

Здесь на основе (OUT,I) необходимо вычислить (L,I). Предполагается, что список Y


известен.

1. Сначала вычисляется вектор R, содержащий N чисел: (2 1 3 1 0 3).


2. Далее вычисляется строка L, содержащая N символов, что дает значения R[0],…,R[N-
1]. Если необходимо, инициализируется список Y, содержащий символы алфавита X
(как и при процедуре кодирования). Для каждого i = 0,…,N-1 последовательно
устанавливается значение L[i], равное символу в положении R[i] из списка Y
(нумеруется, начиная с 0), затем символ сдвигается к началу Y. Результирующая
строка L представляет собой последнюю колонку матрицы M. Результатом работы
алгоритма будет (L,I). Взяв Y = [‘a’,’b’,’c’,’r’] вычисляем строку L = ‘caraab’.
Наиболее важным фактором, определяющим скорость сжатия, является время, необходимое
для сортировки вращений во входном блоке. Наиболее быстрый способ решения проблемы
заключается в сортировке связанных строк по суффиксам.

Для того чтобы сжать строку S, сначала сформируем строку S’, которая является
объединением S c EOF, новым символом, который не встречается в S. После этого
используется стандартный алгоритм к строке S’. Так как EOF отличается от прочих символов
в S, суффиксы S’ сортируются в том же порядке, как и вращения S’. Это может быть сделано
путем построения дерева суффиксов, которое может быть затем обойдено в
лексикографическом порядке для сортировки суффиксов. Для этой цели может быть
использован алгоритм формирования дерева суффиксов Мак-Крейгта. Его быстродействие
составляет 40% от наиболее быстрой методики в случае работы с текстами. Алгоритм работы
с деревом суффиксов требует более четырех слов на каждый исходный символ. Манбер и
Майерс предложили простой алгоритм сортировки суффиксов строки. Этот алгоритм
требует только двух слов на каждый входной символ. Алгоритм работает сначала с первыми
i символами суффикса а за тем, используя положения суффиксов в сортируемом массиве,
производит сортировку для первых 2i символов. К сожалению этот алгоритм работает
заметно медленнее.

В работе [1] предложен несколько лучший алгоритм сортировки суффиксов. В этом


алгоритме сортируются суффиксы строки S, которая содержит N символов S[0,…,N-1].

1. Пусть k число символов, соответствующих машинному слову. Образуем строку S’ из


S путем добавления k символов EOF в строку S. Предполагается, что EOF не
встречается в строке S.
2. Инициализируем массив W из N слов W[0,…,N-1] так, что W[i] содержат символы
S’[i,…,i+k-1] упорядоченные таким образом, что целочисленное сравнение слов
согласуется с лексикографическим сравнением для k-символьных строк. Упаковка
символов в слова имеет два преимущества: это позволяет для двух префиксов
сравнить сразу k байт и отбросить многие случаи, описанные ниже.
3. Инициализируется массив V из N целых чисел. Если элемент V содержит j, он
представляет собой суффикс S’, чей первый символ равен S’[j]. Когда выполнение
алгоритма завершено, суффикс V[i] будет i-ым суффиксом в лексикографическом
порядке.
4. Инициализируем целочисленный массив V так, что для каждого i = 0,…,N-1 : V[i]=i.
5. Сортируем элементы V, используя первые два символа каждого суффикса в качестве
ключа сортировки. Далее для каждого символа ch из алфавита выполняем шаги 6 и 7.
Когда эти итерации завершены, V представляет собой отсортированные суффиксы S и
работа алгоритма завершается.
6. Для каждого символа ch’ в алфавите выполняем сортировку элементов V,
начинающихся с ch, за которым следует ch’. В процессе выполнения сортировки
сравниваем элементы V путем сопоставления суффиксов, которые они представляют
при индексировании массива W. На каждом шаге рекурсии следует отслеживать
число символов, которые оказались равными в группе, чтобы не сравнивать их снова.
Все суффиксы, начинающиеся с ch, отсортированы в рамках V.
7. Для каждого элемента V[i], соответствующего суффиксу, начинающемуся с ch (то
есть, для которого S[V[i]] = ch), установить W[V[i]] значение с ch в старших битах и i
в младших битах. Новое значение W[V[i]] сортируется в те же позиции, что и старые
значения.

Данный алгоритм может быть улучшен различными способами. Одним из самоочевидных


методов является выбор символа ch на этапе 5, начиная с наименьшего общего символа в S и
предшествующий наиболее общему.
Ссылки
1. M.Burrows and D.J.Wheeler. A block-sorting Lossless Data Compression Algorithm.
Digital Systems Research Center. SRC report 124. May 10, 1994.
2. J.L.Bently, D.D.Sleator, R.E.Tarjan, and V.K.Wei. A locally adaptive data compression
algorithm. Communications of the ACM, Vol. 29, No. 4, April 1986, pp. 320-330
3. E.M.McCreight. A space economical suffix tree construction algorithm. Journal of the
ACM, Val. 32, No. 2, April 1976, pp. 262-272.
4. U.Manber and E.W.Mayers, Suffix arrays: Anew method for on-line string searches. SIAM
Journal on Computing, Vol. 22, No. 5, October 1993, pp. 935-948.

Смотри также раздел 2.6.3 "Сжатие данных с использованием преобразования Барроуза-


Вилера",

2.6.3 Сжатие данных с использованием


преобразования Барроуза-Вилера
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Майкл Барроуз и Давид Вилер (Burrows-Wheeler) в 1994 году предложили свой алгоритм
преобразования (BWT). Этот алгоритм работает с блоками данных и обеспечивает
эффективное сжатие без потери информации. В результате преобразования блок данных
имеет ту же длину, но другой порядок расположения символов. Алгоритм тем эффективнее,
чем больший блок данных преобразуется (например, 256-512 Кбайт).

Последовательность S, содержащая N символов ({S(0),… S(N-1)}), подвергается N


циклическим сдвигам (вращениям), лексикографической сортировке, а последний символ
при каждом вращении извлекается. Из этих символов формируется строка L, где i-ый символ
является последним символом i-го вращения. Кроме строки L создается индекс I исходной
строки S в упорядоченном списке вращений. Существует эффективный алгоритм
восстановления исходной последовательности символов S на основе строки L и индекса I.
Процедура сортировки объединяет результаты вращений с идентичными начальными
символами. Предполагается, что символы в S соответствуют алфавиту, содержащему K
символов.

Для пояснения работы алгоритма возьмем последовательность S= “abraca” (N=6), алфавит X


= {‘a’,’b’,’c’,’r’}.

1. Формируем матрицу из N*N элементов, чьи строки представляют собой результаты


циклического сдвига (вращений) исходной последовательности S, отсортированных
лексикографически. По крайней мере одна из строк M содержит исходную
последовательность S. Пусть I является индексом строки S. В приведенном примере индекс
I=1, а матрица M имеет вид:

Номер строки  
0 aabrac
1 abraca
2 acaabr
3 bracaa
4 caabra
5 racaab

2. Пусть строка L представляет собой последнюю колонку матрицы M с символами L[0],


…,L[N-1] (соответствуют M[0,N-1],…,M[N-1,N-1]). Формируем строку последних символов
вращений. Окончательный результат характеризуется (L,I). В данном примере L=’caraab’, I
=1.

Процедура декомпрессии использует L и I. Целью этой процедуры является получение


исходной последовательности из N символов (S).

1. Сначала вычисляем первую колонку матрицы M (F). Это делается путем сортировки
символов строки L. Каждая колонка исходной матрицы M представляет собой перестановки
исходной последовательности S. Таким образом, первая колонка F и L являются
перестановками S. Так как строки в M упорядочены, размещение символов в F также
упорядочено. F=’aaabcr’.

2. Рассматриваем ряды матрицы M, которые начинаются с заданного символа ch. Строки


матрицы М упорядочены лексикографически, поэтому строки, начинающиеся с ch
упорядочены аналогичным образом. Определим матрицу M’, которая получается из строк
матрицы M путем циклического сдвига на один символ вправо. Для каждого i=0,…, N-1 и
каждого j=0,…,N-1,

M’[i,j] = m[i,(j-1) mod N]

В рассмотренном примере M и M’ имеют вид:

Строка M M’
0 aabrac caabra
1 abraca aabraс
2 acaabr racaab
3 bracaa abraca
4 caabra acaabr
5 racaab bracaa

Подобно M каждая строка M’ является вращением S, и для каждой строки M существует


соответствующая строка M’. M’ получена из M так, что строки M’ упорядочены
лексикографически, начиная со второго символа. Таким образом, если мы рассмотрим
только те строки M’, которые начинаются с заданного символа ch, они должны следовать
упорядоченным образом с учетом второго символа. Следовательно, для любого заданного
символа ch, строки M, которые начинаются с ch, появляются в том же порядке что и в M’,
начинающиеся с ch. В нашем примере это видно на примере строк, начинающихся с ‘a’.
Строки ‘aabrac’, ‘abraca’ и ‘acaabr’ имеют номера 0, 1 и 2 в M и 1, 3, 4 в M’.
Используя F и L, первые колонки M и M’ мы вычислим вектор Т, который указывает на
соответствие между строками двух матриц, с учетом того, что для каждого j = 0,…,N-1
строки j M’ соответствуют строкам T[j] M.

Если L[j] является к-ым появлением ch в L, тогда T[j]=1, где F[i] является к-ым появлением
ch в F. Заметьте, что Т представляет соответствие один в один между элементами F и
элементами L, а F[T[j]] = L[j]. В нашем примере T равно: (4 0 5 1 2 3).

3. Теперь для каждого i = 0,…, N-1 символы L[i] и F[i] являются соответственно последними
и первыми символами строки i матрицы M. Так как каждая строка является вращением S,
символ L[i] является циклическим предшественником символа F[i] в S. Из Т мы имеем
F[T[j]] = L[j]. Подставляя i =T[j], мы получаем символ L[T(j)], который циклически
предшествует символу L[j] в S.

Индекс I указывает на строку М, где записана строка S. Таким образом, последний символ S
равен L[I]. Мы используем вектор T для получения предшественников каждого символа: для
каждого i = 0,…,N-1 S[N-1-i] = L[Ti[I]], где T0[x] =x, а Ti+1[x] = T[Ti[x]. Эта процедура
позволяет восстановить первоначальную последовательность символов S (‘abraca’).

Последовательность Ti[I] для i =0,…,N-1 не обязательно является перестановкой чисел 0,


…,N-1. Если исходная последовательность S является формой Zp для некоторой подстановки
Z и для некоторого p>1, тогда последовательность Ti[I] для i = 0,…,N-1 будет также формой
Z’p для некоторой субпоследовательности Z’. Таким образом, если S = ‘cancan’, Z = ‘can’ и
p=2, последовательность Ti[I] для i = 0,…,N-1 будет [2,4,0,2,4,0].

Описанный выше алгоритм упорядочивает вращения исходной последовательности


символов S и формирует строку L, состоящую из последних символов вращений. Для того,
чтобы понять, почему такое упорядочение приводит к более эффективному сжатию,
рассмотрим воздействие на отдельную букву в обычном слове английского текста.

Возьмем в качестве примера букву “t” в слове ‘the’ и предположим, что исходная
последовательность содержит много таких слов. Когда список вращений упорядочен, все
вращения, начинающиеся с ‘he’, будут взаимно упорядочены. Один отрезок строки L будет
содержать непропорционально большое число ‘t’, перемешанных с другими символами,
которые могут предшествовать ‘he’, такими как пробел, ‘s’, ‘T’ и ‘S’.

Аналогичные аргументы могут быть использованы для всех символов всех слов, таким
образом, любая область строки L будет содержать большое число некоторых символов. В
результате вероятность того, что символ ‘ch’ встретится в данной точке L, весьма велика,
если ch встречается вблизи этой точки L, и мала в противоположном случае. Это свойство
способствует эффективной работе локально адаптивных алгоритмов сжатия, где кодируется
относительное положение идентичных символов. В случае применения к строке L, такой
кодировщик будет выдавать малые числа, которые могут способствовать эффективной
работе последующего кодирования, например, посредством алгоритма Хафмана.

Ссылки
1. J.Ziv and A.Lempel. A universal algorithm for sequential data compression. IEEE
Transactions on Information Theory. Vol. IT-23, N.3, May 1977, pp. 337-343.
2. J.Ziv and A.Lempel. Compression of individual sequences via variable rate coding. IEEE
Transactions on Information Theory. Vol. IT-24. N.5, September 1978, pp. 530-535.
3. M.Burrows and D.J.Wheeler. A block-sorting Lossless Data Compression Algorithm.
Digital Systems Research Center. SRC report 124. May 10, 1994.
4. J.L.Bently, D.D.Sleator, R.E.Tarjan, and V.K.Wei. A locally adaptive data compression
algorithm. Communications of the ACM, Vol. 29, No. 4, April 1986, pp. 320-330
5. http://www.ics.uci.edu/~dan/pubs/DataCompression.html (Saleem Bhatti)
6. http://www.speednet/~spenser/ted/DataCompression.html
7. http://www.iicm.edu/jucs_1_8/differencial_ziv_lempel_text/html/paper.html

Смотри http://web2.airmail/markn/articles/bwt/bwt.htm

2.6.4 Метод Шеннона-Фано


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Данный метод выделяется своей простотой. Берутся исходные сообщения m(i) и их


вероятности появления P(m(i)). Сообщения упорядываются так, чтобы вероятность i-го
сообщения была не больше (i+1)-го. Этот список делится на две группы с примерно равной
интегральной вероятностью. Каждому сообщению из группы 1 присваивается 0 в качестве
первой цифры кода. Сообщениям из второй группы ставятся в соответствие коды,
начинающиеся с 1. Каждая из этих групп делится на две аналогичным образом и добавляется
еще одна цифра кода. Процесс продолжается до тех пор, пока не будут получены группы,
содержащие лишь одно сообщение. Каждому сообщению в результате будет присвоен код x
c длиной –lg(P(x)). Это справедливо, если возможно деление на подгруппы с совершенно
равной суммарной вероятностью. Если же это невозможно, некоторые коды будут иметь
длину –lg(P(x))+1. Алгоритм Шеннона-Фано не гарантирует оптимального кодирования.
Смотри http://www.ics.uci.edu/~dan/pubs/DC-Sec3.html.

2.6.5 Статический алгоритм Хафмана


Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)

Статический алгоритм Хафмана можно считать классическим (см. также Р. Галлагер. Теория
информации и надежная связь. “Советское радио”, Москва, 1974.) Определение статический
в данном случае относится к используемым словарям. Смотри также
www.ics.ics.uci.edu/~dan/pubs/DataCompression.html (Debra A. Lelewer и Daniel S. Hirschberg).

Пусть сообщения m(1),…,m(n) имеют вероятности P(m(1)),… P(m(n)) и пусть для


определенности они упорядочены так, что P(m(1))  P(m(2))  …  P(m(N)). Пусть x1,…, xn –
совокупность двоичных кодов и пусть l1, l2,…, lN – длины этих кодов. Задачей алгоритма
является установление соответствия между m(i) и xj. Можно показать, что для любого
ансамбля сообщений с полным числом более 2 существует двоичный код, в котором два
наименее вероятных кода xN и xN-1 имеют одну и ту же длину и отличаются лишь последним
символом: xN имеет последний бит 1, а xN-1 – 0. Редуцированный ансамбль будет иметь свои
два наименее вероятные сообщения, сгруппированными вместе. После этого можно
получить новый редуцированный ансамбль и так далее. Процедура может быть продолжена
до тех пор, пока в очередном ансамбле не останется только два сообщения. Процедура
реализации алгоритма сводится к следующему (см. рис. 2.6.5.1). Сначала группируются два
наименее вероятные сообщения, предпоследнему сообщению ставится в соответствие код с
младшим битом, равным нулю, а последнему – код с единичным младшим битом (на рисунке
m(4) и m(5)). Вероятности этих двух сообщений складываются, после чего ищутся два
наименее вероятные сообщения во вновь полученном ансамбле (m(3) и m`(4); p(m`(4)) =
p(m(4)) + P(m(5))).

Рис. 2.6.5.1 Пример реализации алгоритма Хафмана

На следующем шаге наименее вероятными сообщениями окажутся m(1) и m(2). Кодовые


слова на полученном дереве считываются справа налево. Алгоритм выдает оптимальный код
(минимальная избыточность).

Но при использовании кодов разной длины могут возникнуть проблема разделение кодовых
слов при последовательной пересылке. Например [6], пусть <(a,1); (b,01); (c,101); (d,011)>,
тогда битовая последовательность 1011 может быть интерпретирована как aba, ca или ada.
Чтобы избежать этой неопределенности можно посылать код длины перед каждым
символом, что связано с пересылкой дополнительных данных. Более эффективным
решением является конструирование кодов, в которых мы можем всегда однозначно
преобразовать битовую последовательность в кодовое слово. Кодом такого типа является
префиксный код, в котором никакая битовая строка не является префиксом другого кода.
Например, <(a,1); (b.01);(c,000);(d,001)>. Префиксные коды имеют то преимущество перед
другими кодами, что мы можем дешифровать любое сообщение без необходимости
выявления начала следующего. Префиксный код может быть представлен в виде двоичного
дерева:

 Каждое сообщение является листом дерева.


 Код каждого сообщения определяется движением от корня к листу, причем к коду
добавляется 0 для ответвления влево и 1 – для ответвления вправо (см. рис. 6.2.1 и
6.2.2).

Такое дерево называется деревом префиксных кодов. Это дерево может использоваться и
при декодировании префиксных кодов. При поступлении битов декодер может следовать
вдоль дерева, пока не достигнет листа, формируя таким способом сообщение. После этого
при поступлении очередного бита осуществляется возврат к корню дерева и процедура
повторяется. При декодировании могут использоваться несколько префиксных деревьев.

При использовании кодирования по схеме Хафмана надо вместе с закодированным текстом


передать соответствующий алфавит. При передаче больших фрагментов избыточность,
сопряженная с этим не может быть значительной. Для одного и того же массива бит могут
быть сформированы разные алфавиты, но они будут одинаково оптимальными (среднее
число бит, приходящихся на один символ для любого такого алфавита, будет идентичным).
Таким образом, коды Хафмана являются оптимальным (наиболее экономным), но не
единственным решением.

Возможно применение стандартных алфавитов (кодовых таблиц) для пересылки


английского, русского, французского и т.д. текстов, программных текстов на С++, Паскале и
т.д. Кодирование при этом не будет оптимальным, но исключается статистическая обработка
пересылаемых фрагментов и отпадает необходимость пересылки кодовых таблиц. Ниже в
таблице представлена таблица возможных кодов Хафмана для английского алфавита.
Буква Код Хафмана
E 100
T 001
A 1111
O 1110
N 1100
R 1011
I 1010
S 0110
H 0101
D 11011
L 01111
F 01000
C 01000
M 00011
U 00010
G 00001
Y 00000
P 110101
W 011101
B 011100
V 1101001
K 110100011
X 110100001
J 110100000
Q 1101000101
Z 1101000100

Ниже представлена аналогичная таблица для русского алфавита [Яглом А.М., Яглом И.М.
"Вероятность и информация". 3-е изд. - Наука, 1973]. В этой таблице коды букв Е и Ё
идентичны, аналогичная сутуация с кодами Ь и Ъ. Следует также иметь в виду, что помимо
букв определенные коды должны быть присвоены символам пунктуации, числам и
некоторым специальным символам (1 2 3 4 5 6 7 8 9 0 . , : ; ! ? ... ' " ~ % # * + - = \ ( ) [ ] { } _).

Относит.
Буква Код Хафмана
частота

0,175 111
пробел
O 0,090 110
Е,Ё 0,072 1001
А 0,062 1010
И 0,062 1001
T 0,053 1000
Н 0,053 0111
C 0,045 0110
Р 0,040 01011
В 0,038 01010
Л 0,035 01001
К 0,028 01000
М 0,026 00111
Д 0,025 001101
П 0,023 001100
У 0,021 00101
Я 0,018 001001
Ы 0,016 001000
З 0,016 000111
Ь,Ъ 0,014 000110
Б 0,014 000101
Г 0,013 000100
Ч 0,012 000011
Й 0,010 0000101
Х 0,009 0000100
Ж 0,007 0000011
Ш 0,006 00000101
Ю 0,006 00000100
Ц 0,004 00000010
Щ 0,003 00000001
Э 0,003 000000001
Ф 0,002 000000000

Возможная схема реализации алгоритма формирования кодов Хафмана для русского


алфавита показана на рис. 2.6.5.2.
Рис. 2.6.5.2

Среднее число элементарных сигналов для передачи буквы при данном методе кодирования
равно 4,4.

Следует заметить, что часто встречающиеся символы (последовательности бит) несут меньше
информации, чем редко встречающиеся, не случайно для них применено большее число бит.
Также как поезд, сходящий с рельс, имеет большую информационную емкость, чем поезд
прибывающий по расписанию. Не случайно люди интуитивно воспринимают сообщения о
несчастьях с большим интересом.

2.7 Обнаружение ошибок


Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)
Каналы передачи данных ненадежны, да и само оборудование обработки информации
работает со сбоями. По этой причине важную роль приобретают механизмы детектирования
ошибок. Ведь если ошибка обнаружена, можно осуществить повторную передачу данных и
решить проблему. Если исходный код по своей длине равен полученному коду, обнаружить
ошибку передачи не предоставляется возможным.

Простейшим способом обнаружения ошибок является контроль по четности. Обычно


контролируется передача блока данных (М бит). Этому блоку ставится в соответствие
кодовое слово длиной N бит, причем N>M. Избыточность кода характеризуется величиной 1-
M/N. Вероятность обнаружения ошибки определяется отношением M/N (чем меньше это
отношение, тем выше вероятность обнаружения ошибки, но и выше избыточность).

При передаче информации она кодируется таким образом, чтобы с одной стороны
характеризовать ее минимальным числом символов, а с другой – минимизировать
вероятность ошибки при декодировании получателем. Для выбора типа кодирования важную
роль играет так называемое расстояние Хэмминга.

Пусть А и Б две двоичные кодовые последовательности равной длины. Расстояние Хэмминга


между двумя этими кодовыми последовательностями равно числу символов, которыми они
отличаются. Например, расстояние Хэмминга между кодами 00111 и 10101 равно 2.

Можно показать, что для детектирования ошибок в n битах, схема кодирования требует
применения кодовых слов с расстоянием Хэмминга не менее N+1. Можно также показать,
что для исправления ошибок в N битах необходима схема кодирования с расстоянием
Хэмминга между кодами не менее 2N+1. Таким образом, конструируя код, мы пытаемся
обеспечить расстояние Хэмминга между возможными кодовыми последовательностями
больше, чем оно может возникнуть из-за ошибок.

Широко распространены коды с одиночным битом четности. В этих кодах к каждым М бит
добавляется 1 бит, значение которого определяется четностью (или нечетностью) суммы
этих М бит. Так, например, для двухбитовых кодов 00, 01, 10, 11 кодами с контролем
четности будут 000, 011, 101 и 110. Если в процессе передачи один бит будет передан
неверно, четность кода из М+1 бита изменится.

Предположим, что частота ошибок (BER) равна р=10-4. В этом случае вероятность передачи
8 бит с ошибкой составит 1-(1-p)8=7,9х10-4. Добавление бита четности позволяет
детектировать любую ошибку в одном из переданных битах. Здесь вероятность ошибки в
одном из 9 бит равна 9p(1-p)8. Вероятность же реализации необнаруженной ошибки составит
1-(1-p)9 – 9p(1-p)8 = 3,6x10-7. Таким образом, добавление бита четности уменьшает
вероятность необнаруженной ошибки почти в 1000 раз. Использование одного бита четности
типично для асинхронного метода передачи. В синхронных каналах чаще используется
вычисление и передача битов четности как для строк, так и для столбцов передаваемого
массива данных. Такая схема позволяет не только регистрировать но и исправлять ошибки в
одном из битов переданного блока.

Контроль по четности достаточно эффективен для выявления одиночных и множественных


ошибок в условиях, когда они являются независимыми. При возникновении ошибок в
кластерах бит метод контроля четности неэффективен и тогда предпочтительнее метод
вычисления циклических сумм (CRC). В этом методе передаваемый кадр делится на
специально подобранный образующий полином. Дополнение остатка от деления и является
контрольной суммой.

В Ethernet вычисление CRC производится аппаратно (см. также ethernet). На рис. 2.7.1.
показан пример реализации аппаратного расчета CRC для образующего полинома B(x)= 1 +
x2 + x3 +x5 + x7. В этой схеме входной код приходит слева.

Рис. 2.7.1. Схема реализации расчета CRC

Эффективность CRC для обнаружения ошибок на многие порядки выше простого контроля
четности. В настоящее время стандартизовано несколько типов образующих полиномов. Для
оценочных целей можно считать, что вероятность невыявления ошибки в случае
использования CRC, если ошибка на самом деле имеет место, равна (1/2)r, где r - степень
образующего полинома.

CRC-12 x12 + x11 + x3 + x2 + x1 + 1


CRC-16 x16 + x15 + x2 + 1
CRC-
x16 + x12 + x5 + 1
CCITT

2.8 Коррекция ошибок


Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Алгоритм Хэмминга
Циклические коды
Линейные блочные коды
Метод коррекции ошибок FEC (Forward Error Correction)
Ссылки
Введение в коды Рида-Соломона: принципы, архитектура и реализация
Свойства кодов Рида-Соломона
Ошибки в символах
Декодирование
Архитектура кодирования и декодирования кодов Рида-Соломона
Образующий полином
Архитектура кодировщика
Архитектура декодера
Вычисление синдрома
Ссылки

Исправлять ошибки труднее, чем их детектировать или предотвращать. Процедура


коррекции ошибок предполагает два совмещенные процесса: обнаружение ошибки и
определение места (идентификация сообщения и позиции в сообщении). После решения этих
двух задач, исправление тривиально - надо инвертировать значение ошибочного бита. В
наземных каналах связи, где вероятность ошибки невелика, обычно используется метод
детектирования ошибок и повторной пересылки фрагмента, содержащего дефект. Для
спутниковых каналов с типичными для них большими задержками системы коррекции
ошибок становятся привлекательными. Здесь используют коды Хэмминга или коды свертки.

Но существуют и более простые методы коррекции ошибок. Например, передача блока


данных, содержащего N строк и M столбцов, снабженных битами четности для каждой
строки и столбца. Обнаружение ошибки четности в строке i и столбце j указывает на бит,
который должен быть инвертирован. Может показаться, что в случае, когда неверны два
бита, находящиеся в разных строках и столбцах, они также могут быть исправлены. Но это
не так. Ведь нельзя разделить варианты i1,j1 - i2,j2 и i1,j2 - i2,j1.

Этот метод может быть развит путем формирования блока данных с N строками, M
столбцами и K слоями. Здесь биты четности формируются для всех строк и столбцов
каждого из слоев, а также битов, имеющих одинаковые номера строк и столбцов i,j. Полное
число битов четности в этом случае равно (N+M+1)×K +(N+1)×(M+1). Если M=N=K=8,
число бит данных составит 512, а число бит четности - 217. Нетрудно видеть, что в этом
случае число исправляемых ошибок будет больше 1. Смотри рис. 1.

Рис. 1. Метод коррекции более одной ошибки в блоке данных (битам данных соответствуют
окрашенные квадраты)
Алгоритм Хэмминга
Код Хэмминга представляет собой блочный код, который позволяет выявить и исправить
ошибочно переданный бит в пределах переданного блока. Обычно код Хэмминга
характеризуется двумя целыми числами, например, (11,7) используемый при передаче 7-
битных ASCII-кодов. Такая запись говорит, что при передаче 7-битного кода используется 4
контрольных бита (7+4=11). При этом предполагается, что имела место ошибка в одном бите
и что ошибка в двух или более битах существенно менее вероятна. С учетом этого
исправление ошибки осуществляется с определенной вероятностью. Например, пусть
возможны следующие правильные коды (все они, кроме первого и последнего, отстоят друг
от друга на расстояние 4):

00000000
11110000
00001111
11111111

При получении кода 00000111 не трудно предположить, что правильное значение


полученного кода равно 00001111. Другие коды отстоят от полученного на большее
расстояние Хэмминга. Расстояние Хэмминга для двух кодов равной длины равно числу
разных бит в этих кодах.

Рассмотрим пример передачи кода буквы s = 0x073 = 1110011 с использованием кода


Хэмминга (11,7).

Позиция бита: 11 10 9 8 7 6 5 4 3 2 1
Значение бита: 1 1 1 * 0 0 1 * 1 * *

Символами * помечены четыре позиции, где должны размещаться контрольные биты. Эти
позиции определяются целой степенью 2 (1, 2, 4, 8 и т.д.). Контрольная сумма формируется
путем выполнения операции XOR (исключающее ИЛИ) над кодами позиций ненулевых
битов. В данном случае это 11, 10, 9, 5 и 3. Вычислим контрольную сумму:

11 = 1011
10 = 1010
09 = 1001
05 = 0101
03 = 0011
 1110

Таким образом, приемник получит код:

Позиция бита: 11 10 9 8 7 6 5 4 3 2 1
Значение бита: 1 1 1 1 0 0 1 1 1 1 0

Просуммируем снова коды позиций ненулевых битов и получим нуль.

11 = 1011
10 = 1010
09 = 1001
08 = 1000
05 = 0101
04 = 0100
03 = 0011
02 = 0010
 0000

Ну а теперь рассмотрим два случая ошибок в одном из битов посылки, например, в бите 7 (1
вместо 0) и в бите 5 (0 вместо 1). Просуммируем коды позиций ненулевых бит еще раз.

11 = 1011
10 = 1010 11 = 1011
09 = 1001 10 = 1010
08 = 1000 09 = 1001
07 = 0111 08 = 1000
05 = 0101 04 = 0100
04 = 0100 03 = 0011
03 = 0011 02 = 0010
02 = 0010 = 0101
 0111

В обоих случаях контрольная сумма равна позиции бита, переданного с ошибкой. Теперь для
исправления ошибки достаточно инвертировать бит, номер которого указан в контрольной
сумме. Понятно, что если ошибка произойдет при передаче более чем одного бита, код
Хэмминга при данной избыточности окажется бесполезен.

В общем случае код имеет N=M+C бит и предполагается, что не более чем один бит в коде
может иметь ошибку. Тогда возможно N+1 состояние кода (правильное состояние и n
ошибочных). Пусть М=4, а N=7, тогда слово-сообщение будет иметь вид: M4, M3, M2, C3,
M1, C2, C1. Теперь попытаемся вычислить значения С1, С2, С3. Для этого используются
уравнения, где все операции представляют собой сложение по модулю 2:

С1 = М1 + М2 + М4
С2 = М1 + М3 + М4
С3 = М2 + М3 + М4

Для определения того, доставлено ли сообщение без ошибок, вычисляем следующие


выражения (сложение по модулю 2):

С11 = С1 + М4 + М2 + М1
С12 = С2 + М4 + М3 + М1
С13 = С3 + М4 + М3 + М2

Результат вычисления интерпретируется следующим образом.


С11 С12 С13 Значение
1 2 4 Позиция бит
0 0 0 Ошибок нет
0 0 1 Бит С3 не верен
0 1 0 Бит С2 не верен
0 1 1 Бит М3 не верен
1 0 0 Бит С1 не верен
1 0 1 Бит М2 не верен
1 1 0 Бит М1 не верен
1 1 1 Бит М4 не верен

Описанная схема легко переносится на любое число n и М.

Число возможных кодовых комбинаций М помехоустойчивого кода делится на n классов,


где N - число разрешенных кодов. Разделение на классы осуществляется так, чтобы в
каждый класс вошел один разрешенный код и ближайшие к нему (по расстоянию Хэмминга)
запрещенные коды. В процессе приема данных определяется, к какому классу принадлежит
пришедший код. Если код принят с ошибкой, он заменяется ближайшим разрешенным
кодом. При этом предполагается, что кратность ошибки не более qm.

Можно доказать, что для исправления ошибок с кратностью не более qm кодовое расстояние
должно превышать 2qm (как правило, оно выбирается равным D = 2qm +1). В теории
кодирования существуют следующие оценки максимального числа N n-разрядных кодов с
расстоянием D.

d=1 n=2n
d=2 n=2n-1
d=3 n 2n /(1+n)

d=2q+1
(для кода Хэмминга это неравенство превращается в
равенство)

В случае кода Хэмминга первые k разрядов используются в качестве информационных,


причем

k= n - log(n+1),

откуда следует (логарифм по основанию 2), что k может принимать значения 0, 1, 4, 11, 26,
57 и т.д., это и определяет соответствующие коды Хэмминга (3,1); (7,4); (15,11); (31,26);
(63,57) и т.д.

Циклические коды
Обобщением кодов Хэмминга являются циклические коды BCH (Bose-Chadhuri-
Hocquenghem). Это коды с широким выбором длины и возможностей исправления ошибок.
Циклические коды характеризуются полиномом g(x) степени n-k, g(x) = 1 + g1x + g2x2 + … +
xn-k. g(x) называется порождающим многочленом циклического кода. Если многочлен g(x) n-
k и является делителем многочлена xn + 1, то код C(g(x)) является линейным циклическим
(n,k)-кодом. Число циклических n-разрядных кодов равно числу делителей многочлена xn +
1.

При кодировании слова все кодовые слова кратны g(x). g(x) определяется на основе
сомножителей полинома xn +1 как:

xn +1 = g(x)h(x)

Например, если n=7 (x7+1), его сомножители (1 + x + x3)(1 + x + x2 + x4), а g(x) = 1+x + x3.

Чтобы представить сообщение h(x) в виде циклического кода, в котором можно указать
постоянные места проверочных и информационных символов, нужно разделить многочлен
xn-kh(x) на g(x) и прибавить остаток от деления к многочлену xn-kh(x). См. Л.Ф. Куликовский и
В.В. Мотов, “Теоретические основы информационных процессов”. Москва “Высшая школа”
1987. Привлекательность циклических кодов заключается в простоте аппаратной реализации
с использованием сдвиговых регистров.

Пусть общее число бит в блоке равно N, из них полезную информацию несут в себе K бит,
тогда в случае ошибки, имеется возможность исправить m бит. Таблица 2.8.1 содержит
зависимость m от N и K для кодов ВСН.

Таблица 2.8.1

Общее число бит N Число полезных бит М Число исправляемых бит m


26 1
31 21 2
16 3
57 1
63 51 2
45 3
120 1
127 113 2
106 3

Увеличивая разность N-M, можно не только нарастить число исправляемых бит m, но


открыть возможность обнаружить множественные ошибки. В таблице 2.8.2 приведен
процент обнаруживаемых множественных ошибок в зависимости от M и N-M.

Таблица 2.8.2

Число полезных бит Число избыточных бит (n-m)


М 6 7 8
32 48% 74% 89%
40 36% 68% 84%
48 23% 62% 81%

Другой блочный метод предполагает “продольное и поперечное” контрольное суммирование


предаваемого блока. Блок при этом представляется в виде N строк и M столбцов.
Вычисляется биты четности для всех строк и всех столбцов, в результате получается два
кода, соответственно длиной N и M бит. На принимающей стороне биты четности для строк
и столбцов вычисляются повторно и сравниваются с присланными. При выявлении отличия
в бите i кода битов четности строк и бите j - кода столбцов, позиция неверного бита
оказывается определенной (i,j). Понятно, что если выявится два и более неверных битов в
контрольных кодах строк и столбцов, задача коррекции становится неразрешимой. Уязвим
этот метод и для двойных ошибок, когда сбой был, а контрольные коды остались
корректными.

Применение кодов свертки позволяют уменьшить вероятность ошибок при обмене, даже
если число ошибок при передаче блока данных больше 1.

Линейные блочные коды


Блочный код определяется, как набор возможных кодов, который получается из
последовательности бит, составляющих сообщение. Например, если мы имеем К бит, то
имеется 2К возможных сообщений и такое же число кодов, которые могут быть получены из
этих сообщений. Набор этих кодов представляет собой блочный код. Линейные коды
получаются в результате перемножения сообщения М на порождающую матрицу G[IA].
Каждой порождающей матрице ставится в соответствие матрица проверки четности (n-k)*n.
Эта матрица позволяет исправлять ошибки в полученных сообщениях путем вычисления
синдрома. Матрица проверки четности находится из матрицы идентичности i и
транспонированной матрицы А. G[IA] ==> H[ATI].

  IA AT

Если , то H[ATI] =

Синдром полученного сообщения равен

S = [полученное сообщение]. [матрица проверки четности].

Если синдром содержит нули, ошибок нет, в противном случае сообщение доставлено с
ошибкой. Если сообщение М соответствует М=2k, а k =3 высота матрицы, то можно записать
восемь кодов:

Сообщения Кодовые вектора Вычисленные как


M1 = 000 V1 = 000000 M1.G
M2 = 001 V2 = 001101 M2.G
M3 = 010 V3 = 010011 M3. G
M4 = 100 V4 = 100110 M4. G
M5 = 011 V5 = 011110 M5.G
M6 = 101 V6 = 101011 M6 .G
M7 = 110 V7 = 110101 M7 .G
M8 = 111 V8 = 111000 M8 .G

Кодовые векторы для этих сообщений приведены во второй колонке. На основе этой
информации генерируется таблица 2.8.3, которая называется стандартным массивом.
Стандартный массив использует кодовые слова и добавляет к ним биты ошибок, чтобы
получить неверные кодовые слова.

Таблица 2.8.3. Стандартный массив для кодов (6,3)

000000 001101 010011 100110 011110 101011 110101 111000


000001 001100 010010 100111 011111 101010 110100 111001
000010 001111 010001 100100 011100 101001 110111 111010
000100 001001 010111 100010 011010 101111 110001 111100
001000 000101 011011 101110 010110 100011 111101 110000
010000 011101 000011 110110 001110 111011 100101 101000
100000 101101 110011 000110 111110 001011 010101 011000
001001 000100 011010 101111 010111 100010 111100 011001

Предположим, что верхняя строка таблицы содержит истинные значения переданных кодов.
Из таблицы 2.8.3 видно, что, если ошибки случаются в позициях, соответствующих битам
кодов из левой колонки, можно определить истинное значение полученного кода. Для этого
достаточно полученный код сложить с кодом в левой колонке посредством операции XOR.

Синдром равен произведению левой колонки (CL "coset leader") стандартного массива на
транспонированную матрицу контроля четности HT.

Синдром = CL . HT Левая колонка стандартного массива


000 000000
001 000001
010 000010
100 000100
110 001000
101 010000
011 100000
111 001001
Чтобы преобразовать полученный код в правильный, нужно умножить полученный код на
транспонированную матрицу проверки четности, с тем чтобы получить синдром.
Полученное значение левой колонки стандартного массива добавляется (XOR!) к
полученному коду, чтобы получить его истинное значение. Например, если мы получили
001100, умножаем этот код на HT:

этот результат указывает на место ошибки, истинное значение кода получается в результате
операции XOR:

под горизонтальной чертой записано истинное значение кода.

Транспортировка данных подвержена влиянию шумов и наводок, которые вносят искажения.


Если вероятность повреждения данных мала, достаточно зарегистрировать сам факт
искажения и повторить передачу поврежденного фрагмента.

Когда вероятность искажения велика, например, в каналах коммуникаций с


геостационарными спутниками, используются методы коррекции ошибок. Одним из таких
методов является FEC (Forward Error Correction, иногда называемое канальным
кодированием [1]). Технология FEC последнее время достаточно широко используется в
беспроводных, локальных сетях (WLAN). Существуют две основные разновидности FEC:
блочное кодирование и кодирование по методу свертки.

Блочное кодирование работает с блоками (пакетами) бит или символов фиксированного


размера. Метод свертки работает с потоками бит или символов произвольной
протяженности. Коды свертки при желании могут быть преобразованы в блочные коды.

Существует большое число блочных кодов, одним из наиболее важных является алгоритм
Рида-Соломона, который используется при работе с CD, DVD и жесткими дисками ЭВМ.
Блочные коды и коды свертки могут использоваться и совместно.

Метод коррекции ошибок FEC (Forward


Error Correction)
Для FEC-кодирования иногда используется метод сверки, который впервые был применен в
1955 году. Главной особенностью этого метода является сильная зависимость кодирования
от предыдущих информационных битов и высокие требования к объему памяти. FEC-код
обычно просматривает при декодировании 2-8 бит десятки или даже сотни бит, полученных
ранее. Смотри также RFC-3452, -3453, -3695, -5052.
В 1967 году Эндрю Витерби (Andrew Viterbi) разработал технику декодирования, которая
стала стандартной для кодов свертки. Эта методика требовала меньше памяти. Метод
свертки более эффективен, когда ошибки распределены случайным образом, а не
группируются в кластеры. Работа же с кластерами ошибок более эффективна при
использовании алгебраического кодирования.

Одним из широко используемых разновидностей коррекции ошибок является турбо


кодирование, разработанное американской аэрокосмической корпорацией. В этой схеме
комбинируется два или более относительно простых кодов свертки. В FEC, также как и в
других методах коррекции ошибок (коды Хэмминга, алгоритм Рида-Соломона и др.), блоки
данных из k бит снабжаются кодами четности, которые пересылаются вместе с данными, и
обеспечивают не только детектирование, но и исправление ошибок. Каждый
дополнительный (избыточный) бит является сложной функцией многих исходных
информационных бит. Исходная информация может содержаться в выходном передаваемом
коде, тогда такой код называется систематическим, а может и не содержаться.

В результате через канал передается n-битовое кодовое слово (n>k). Конкретная реализация
алгоритма FEC характеризуется комбинацией (n,k). Применение FEC в Интернет
регламентируется документом RFC-3452. Коды FEC могут исключить необходимость
обратной связи при потере или искажении доставленных данных (запросы повторной
передачи). Особенно привлекательна технология FEC при работе с мультикастинг-потоками,
где ретрансмиссия не предусматривается (см. RFC-3453).

В 1974 году Йозеф Оденвальдер (Joseph Odenwalder) объединил возможности


алгебраического кодирования и метода свертки. Хорошего результата можно добиться, введя
специальную операцию псевдослучайного перемешивания бит (interleaver).

В 1993 году группой Клода Берроу (Claude Berrou) был разработан турбо код. В кодеке,
реализующем этот алгоритм, содержатся кодировщики как минимум двух компонент
(реализующие алгебраический метод или свертку). Кодирование осуществляется для блоков
данных. Здесь также используется псевдослучайное перемешивание бит перед передачей.
Это приводит к тому, что кластеры ошибок, внесенных при транспортировке, оказываются
разнесенными случайным образом в пределах блока данных.

На рис. 2. проводится сравнение вариантов BER (bit error rate) при обычной транспортировке
данных через канал и при передаче тех же данных с использованием коррекции ошибок FEC
для разных значений отношения сигнал-шум (S/N). Из этих данных видно, что при
отношении S/N= 8 дБ применение FEC позволяет понизить BER примерно в 100 раз. При
этом достигается результат, близкий (в пределах одного децибела) к теоретическому пределу
Шеннона.

За последние пять лет были разработаны программы, которые позволяют оптимизировать


структуры турбо-кодов. Улучшение BER для турбо-кодов имеет асимптотический предел и
дальнейшее увеличение S/N уже не дает никакого выигрыша. Но схемы, позволяющие
смягчить влияние этого насыщения, продолжают разрабатываться.
Рис. 2.

Турбо кодек должен иметь столько же компонентных декодеров, сколько имеется


кодировщиков на стороне передатчика. Декодеры соединяются последовательно

Рис. 3. Турбо декодер

Техника FEC находит все большее применение в телекоммуникациях, например, при


передачи мультимедиа [2].

Следует помнить, что как в случае FEC, так и в других известных методах коррекции
ошибок, (BCH, Golay, Hamming и др.) скорректированный код является верным лишь с
определенной конечной вероятностью.

Ссылки
http://www.aero.org/publication/crosslink/winter2002/04.html. Crosslink - The Aerospace
1 Corporation magazine of advances in aerospace technology. The Aerospace Corporation
(Volume 3, Number 1 (Winter 2001/2002)).
Multiple Description Source Coding using Forward Error Correction Codes, Rohit Puri,
2 Kannan Ramchandran, University of California, Berkeley (rpuri,
kannan@eecs.berkeley.edu).
3 http://en.wikipedia.org/wiki/Forward_error_correction
http://www.eccpage.com/, Morelos-Zaragoza, Robert (2004). The Error Correcting Codes
4
(ECC) Page
Введение в коды Рида-Соломона:
принципы, архитектура и реализация
Коды Рида-Соломона были предложены в 1960 Ирвином Ридом (Irving S. Reed) и Густавом
Соломоном (Gustave Solomon), являвшимися сотрудниками Линкольнской лаборатории
МТИ. Ключом к использованию этой технологии стало изобретение эффективного
алгоритма декодирования Элвином Беликамфом (Elwyn Berlekamp;
http://en.wikipedia.org/wiki/Berlekamp-Massey_algorithm), профессором Калифорнийского
университета (Беркли). Коды Рида-Соломона (см. также
http://www.4i2i.com/reed_solomon_codes.htm) базируются на блочном принципе коррекции
ошибок и используются в огромном числе приложений в сфере цифровых
телекоммуникаций и при построении запоминающих устройств. Коды Рида-Соломона
применяются для исправления ошибок во многих системах, включая:

 Устройства памяти (включая магнитные ленты, CD, DVD, штриховые коды, и т.д.)
 Беспроводные или мобильные коммуникации (включая сотовые телефоны,
микроволновые каналы и т.д.)
 Спутниковые коммуникации
 Цифровое телевидение / DVB (digital video broadcast).
 Скоростные модемы, такие как ADSL, xDSL и т.д...

На рис. 4 показаны практические приложения (дальние космические проекты) коррекции


ошибок с использованием различных алгоритмов (Хэмминга, кодов свертки, Рида-Соломона
и пр.). Данные и сам рисунок взяты из http://en.wikipedia.org/wiki/Reed-
Solomon_error_correction..

Рис. 4. Несовершенство кода, как функция размера информационного блока для разных
задач и алгоритмов
Типовая система представлена ниже (см. http://www.4i2i.com/reed_solomon_codes.htm):

Рис. 5. Схема коррекции ошибок Рида-Соломона

Кодировщик Рида-Соломона берет блок цифровых данных и добавляет дополнительные


"избыточные" биты. Ошибки происходят при передаче по каналам связи или по разным
причинам при запоминании (например, из-за шума или наводок, царапин на CD и т.д.).
Декодер Рида-Соломона обрабатывает каждый блок, пытается исправить ошибки и
восстановить исходные данные. Число и типы ошибок, которые могут быть исправлены,
зависят от характеристик кода Рида-Соломона.

Свойства кодов Рида-Соломона


Коды Рида-Соломона являются субнабором кодов BCH и представляют собой линейные
блочные коды. Код Рида-Соломона специфицируются как RS(n,k) s-битных символов..

Это означает, что кодировщик воспринимает k информационных символов по s бит каждый


и добавляет символы четности для формирования n символьного кодового слова. Имеется n-
k символов четности по s бит каждый. Декодер Рида-Соломона может корректировать до t
символов, которые содержат ошибки в кодовом слове, где 2t = n-k.

Диаграмма, представленная ниже, показывает типовое кодовое слово Рида-Соломона:

Рис. 6. Структура кодового слова R-S

Пример: Популярным кодом Рида-Соломона является RS(255,223) с 8-битными символами.


Каждое кодовое слово содержит 255 байт, из которых 223 являются информационными и 32
байтами четности. Для этого кода:

n = 255, k = 223, s = 8
2t = 32, t = 16

Декодер может исправить любые 16 символов с ошибками в кодовом слове: то есть, ошибки
могут быть исправлены, если число искаженных байт не превышает 16.

При размере символа s, максимальная длина кодового слова (n) для кода Рида-Соломона
равна n = 2s – 1.

Например, максимальная длина кода с 8-битными символами (s=8) равна 255 байтам.
Коды Рида-Соломона могут быть в принципе укорочены путем обнуления некоторого числа
информационных символов на входе кодировщика (передавать их в этом случае не нужно).
При передаче данных декодеру эти нули снова вводятся в массив.

Пример: Код (255,223), описанный выше, может быть укорочен до (200,168). Кодировщик
будет работать с блоком данных 168 байт, добавит 55 нулевых байт, сформирует кодовое
слово (255,223) и передаст только 168 информационных байт и 32 байта четности.

Объем вычислительной мощности, необходимой для кодирования и декодирования кодов


Рида-Соломона зависит от числа символов четности. Большое значение t означает, что
большее число ошибок может быть исправлено, но это потребует большей вычислительной
мощности по сравнению с вариантом при меньшем t.

Ошибки в символах
Одна ошибка в символе происходит, когда 1 бит символа оказывается неверным или когда
все биты не верны.

Пример: Код RS(255,223) может исправить до 16 ошибок в символах. В худшем случае,


могут иметь место 16 битовых ошибок в разных символах (байтах). В лучшем случае,
корректируются 16 полностью неверных байт, при этом исправляется 16 x 8=128 битовых
ошибок.

Коды Рида-Соломона особенно хорошо подходят для корректировки кластеров ошибок


(когда неверными оказываются большие группы бит кодового слова, следующие подряд).

Декодирование
Алгебраические процедуры декодирования Рида-Соломона могут исправлять ошибки и
потери. Потерей считается случай, когда положение неверного символа известно. Декодер
может исправить до t ошибок или до 2t потерь. Данные о потере (стирании) могут быть
получены от демодулятора цифровой коммуникационной системы, т.е. демодулятор
помечает полученные символы, которые вероятно содержат ошибки.

Когда кодовое слово декодируется, возможны три варианта:

1. Если 2s + r < 2t (s ошибок, r потерь), тогда исходное переданное кодовое слово всегда
будет восстановлено,

В противном случае

2. Декодер детектирует ситуацию, когда он не может восстановить исходное кодовое


слово

или
3. Декодер некорректно декодирует и неверно восстановит кодовое слово без какого-
либо указания на этот факт.

Вероятность каждого из этих вариантов зависит от типа используемого кода Рида-Соломона,


а также от числа и распределения ошибок.

Преимущество кодирования
Преимущество использования кодов Рида-Соломона заключается в том, что вероятность
сохранения ошибок в декодированных данных обычно много меньше, чем вероятность
ошибок, если коды Рида-Соломона не используются. Это часто называется выигрышем
кодирования.

Пример: Пусть имеется цифровая телекоммуникационная системы, работающая с BER (Bit


Error Ratio) равной 10-9, т.е. не более 1 из 109 бит передается с ошибкой. Такого результата
можно достичь путем увеличения мощности передатчика или применением кодов Рида-
Соломона (или другого типа коррекции ошибок). Алгоритм Рида-Соломона позволяет
системе достичь требуемого уровня BER с более низкой выходной мощностью передатчика.

Архитектура кодирования и декодирования кодов Рида-


Соломона
Кодирование и декодирование Рида-Соломона может быть выполнено аппаратно или
программно.

Арифметика конечного поля Галуа


Коды Рида-Соломона базируются на специальном разделе математики – полях Галуа (GF)
или конечных полях. Арифметические действия (+, -, x, / и т.д.) над элементами конечного
поля дают результат, который также является элементом этого поля. Кодировщик или
декодер Рида-Соломона должны уметь выполнять эти арифметические операции. Эти
операции для своей реализации требуют специального оборудования или
специализированного программного обеспечения.

Образующий полином
Кодовое слово Рида-Соломона формируется с привлечением специального полинома. Все
корректные кодовые слова должны делиться без остатка на эти образующие полиномы.
Общая форма образующего полинома имеет вид:

g(x) = (x-ai)(x-ai+1)…(x-ai+2t)

а кодовое слово формируется с помощью операции:

c(x) = g(x).i(x)
где g(x) является образующим полиномом, i(x) представляет собой информационный блок,
c(x) – кодовое слово, называемое простым элементом поля.

Пример: Генератор для RS(255,249)

g(x)= (x-a0)(x-a1)(x-a2)(x-a3)(x-a4)(x-a5)
g(x)= x6 + g5x5 + g3x3 + g2x2 + g1x1 + g0

Архитектура кодировщика
2t символов четности в кодовом слове Рида-Соломона определяются из следующего
соотношения:.

p(x) = i(x)·x n-k mod g(x)

Ниже показана схема реализации кодировщика для версии RS(255,249):

Рис. 7. Схема кодировщика R-S

Каждый из 6 регистров содержит в себе символ (8 бит). Арифметические операторы


выполняют сложение или умножение на символ как на элемент конечного поля..

Архитектура декодера
Общая схема декодирования кодов Рида-Соломона показана ниже на рис. 8.
Рис. 8. Схема работы с кодами Рида-Соломона

Обозначения

r(x) Полученное кодовое слово


Si - Синдромы
L(x) - Полином локации ошибок
Xi - Положения ошибок
Yi - Значения ошибок
c(x) - Восстановленное кодовое слово
v - Число ошибок.

Полученное кодовое слово r(x) представляет собой исходное (переданное) кодовое слово c(x)
плюс ошибки:.

r(x) = c(x) + e(x)

Декодер Рида-Соломона пытается определить позицию и значение ошибки для числа t


ошибок (или 2t потерь) и исправить ошибки и потери.

Вычисление синдрома
Вычисление синдрома похоже на вычисление четности. Кодовое слово Рида-Соломона имеет
2t синдромов, это зависит только от ошибок (а не передаваемых кодовых слов). Синдромы
могут быть вычислены путем подстановки 2t корней образующего полинома g(x) в r(x).

Нахождение позиций символьных ошибок


Это делается путем решения системы уравнений с t неизвестными. Существует несколько
быстрых алгоритмов для решения этой задачи. Эти алгоритмы используют особенности
структуры матрицы кодов Рида-Соломона и сильно сокращают необходимую
вычислительную мощность. Делается это в два этапа:

1. Определение полинома локации ошибок

Это может быть сделано с помощью алгоритма Berlekamp-Massey или алгоритма


Эвклида. Алгоритм Эвклида используется чаще на практике, так как его легче
реализовать, однако, алгоритм Berlekamp-Massey позволяет получить более
эффективную реализацию оборудования и программ..
2. Нахождение корней этого полинома. Это делается с привлечением алгоритма поиска
Chien.

Нахождение значений символьных ошибок


Здесь также нужно решить систему уравнений с t неизвестными. Для решения используется
быстрый алгоритм Forney.

Реализация кодировщика и декодера Рида-Соломона


Аппаратная реализация
Существует несколько коммерческих аппаратных реализаций. Имеется много разработанных
интегральных схем, предназначенных для кодирования и декодирований кодов Рида-
Соломона. Эти ИС допускают определенный уровень программирования (например,
RS(255,k), где t может принимать значения от 1 до 16).

Программная реализация
До недавнего времени, программные реализации в "реальном времени" требовали слишком
большой вычислительной мощности для практически всех кодов Рида-Соломона. Главной
трудностью в программной реализации кодов Рида-Соломона являлось то, что процессоры
общего назначения не поддерживают арифметические операции для поля Галуа. Однако
оптимальное составление программ в сочетании с возросшей вычислительной мощностью
позволяют получить вполне приемлемые результаты для относительно высоких скоростей
передачи данных.

На рис. 9 показана фотография поверхности Марса, полученная американской станцией


"Curiosity" (2012г). Сам Марс с Земли даже с помощью бинокля виден плохо. Современные
методы коррекции ошибок позволяют получить приемелемы результат даже в условиях,
когда шум на порядки превышает сигнал. Смотри также рис. 4.
Рис. 9. Фотография, полученная марсианской станцией Curiosity (США)

Ссылки
Wicker, "Error Control Systems for Digital Communication and Storage", Prentice-Hall
[1]
1995
Lin and Costello, "Error Control Coding: Fundamentals and Applications", Prentice-Hall
[2]
1983.
[3] Clark and Cain, "Error Correction Coding for Digital Communications", Plenum 1988
[4] Wilson, "Digital Modulation and Coding", Prentice-Hall 1996
[5] http://en.wikipedia.org/wiki/Reed-Solomon_error_correction
[6] http://en.wikipedia.org/wiki/Forward_error_correction (forward error correction)
[7] http://en.wikipedia.org/wiki/BCH_code
[8] http://www.cs.cornell.edu/Courses/cs722/2000sp/ReedSolomon.pdf.
[9] http://www.ka9q.net/code/fec/ (Фил Карн)
http://www.radionetworkprocessor.com/reed-solomon.html (собрание ссылок на книги,
[10]
статьи и программные коды)
[11] http://rscode.sourceforge.net/ (библиотека программ)
[12] http://www.artech-house.com/ (приложения для видео-коммуникаций)
[13] http://www.cs.utk.edu/~plank/plank/papers/SPE-9-97.html (учебные материалы)d>
[14] http://www.trl.ibm.co.jp/news/lead_rs_e.htm
[15] http://www.sxlist.com/techref/method/error/rs-gp-pk-uoh-199609/index
[16] http://www.csdmag.com/main/1999/06/9906building.htm
[17] http://www.4i2i.com/products.htm (аппаратные и программные реализации)

Смотри также www.cs.ucl.ac.uk/staff/S.Bhatti/D51-notes/node33.html (Saleem Bhatti).

2.9 Видеоконференции по каналам


Интернет и ISDN
Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
2.9.1 Используемые стандарты 3 9
Итого    
Расширение международных контактов и реализация проектов с "удаленными"
отечественными партнерами делает актуальной проблему экономии командировочных
расходов особенно в случае коротких поездок (1-7 дней). Одним из средств решения
проблемы является использование видеоконференций. Видеоконференции по каналам
Интернет могут быть привлекательны для дистанционного обучения и медицинской
диагностики. В отличие от телевизионных программ обучение с использованием Интернет
предполагает диалог между преподавателем и обучаемым, что делает процесс более
эффективным (эта техника может успешно дополнить WWW-методику, широко
используемую в университетах США и Европы). Медицинские приложения еще более
многообещающи. Видеоконференции позволят проконсультироваться в клинике, отстоящей
на тысячи километров, устроить консилиум с участием врачей из разных городов,
оперативно передать томограмму или многоканальную кардиограмму пациента с целью ее
интерпретации и т.д. В более отдаленной перспективе технология видеоконференций может
быть применена для целей телевидения.

Рис. 2.9.1. Оборудование, необходимое для видеоконференций

Для проведения видеоконференции необходимо иметь цифровой канал с пропускной


способностью не менее 56-128кбит/с. Если канал не позволяет, можно ограничиться аудио
телеконференцией (см. раздел IP-phone). Схеме оборудования, необходимого для
видеоконференции показано на рис. 2.9.1.

Помимо стандартного оборудования рабочей станции (как правило, под ОС UNIX) требуется
интерфейс для подключения видеокамеры и микрофонов. Этот интерфейс обычно
снабжается аппаратной схемой сжатия видео и аудио данных. Многие современные
мультимедиа интерфейсы снабжены входами для видеокамеры. Из обязательного
оборудования на рис. 2.9.1 не показаны наушники и звуковые колонки. Полезным
дополнением может служить сканнер, который позволит с высоким разрешением передать
изображения документов или чертежей, видеомагнитофон, а также видео проектор для
отображений принятого изображения на экране или телевизор с большим экраном.

Видеоконференции обеспечивают не только "живое" общение партнеров, но также


оперативное обсуждение и редактирование чертежей и документов. При этом разрешающая
способность может превышать в 10-100 раз ту, которая доступна для факсов.

Реализовать видеоконференцию можно разными путями, из них два наиболее реальны:

Использование оборудования, каналов и программного обеспечения ISDN. Полоса и


1.
качество здесь гарантируются, но стоимость весьма высока
Применение каналов Интернет, соответствующего (обычно общедоступного)
программного обеспечения и оборудования общего применения. Вариант относительно
2.
дешев, но качество здесь пока не гарантируется, ведь информационный поток при
проведении сеанса конкурирует с потоками от других процессов в Интернет

При видеоконференциях используется технология codec (coder/decoder) для выделенных и


телефонных коммутируемых линий (>56 Кбит/с, интерфейс V35), применим и режим
коммутации пакетов (multicast backbone, >256 Кбит/с). Перечень стандартов,
регламентирующих протоколы видеоконференций можно найти в следующем разделе
(2.9.1). Но базовым протоколом для работы в локальных сетях, где не гарантируется нужный
уровень qos), является H.323 (1996-98 гг.; вторая дата относится к принятию версии 2). Этот
стандарт обеспечивает видеоконференции для соединений точка-точка и для многоточечных
топологий в рамках стека протоколов TCP/IP, он регламентирует и принципы сжатия видео и
аудио информации. Привлекательность стандарта заключается в том, что он применим к уже
существующей инфраструктуре телекоммуникаций с широкими вариациями задержек
отклика. Способствует этому возрастающая пропускная способность локальных (Fast
Ethernet и Gigabit Ethernet) и региональных сетей (SDH, ATM, FDDI, Fibre Channel и т.д.).
Способствуют этому как новейшие протоколы из семейства IP - RTP и RSVP, так и
поддержка H.323 такими компаниями как Intel, Microsoft, Cisco и IBM. H.323 не привязан ни
к одной операционной системе и не предполагает использования какого-либо
специализированного оборудования. На рис. 2.9.2 показана структура системы H.323 и
основных ее компонентов.
Рис. 2.9.2. Структура системы H.323 и основных ее компонентов

Cоставляющие коммуникационной системы


H.323 определяет четыре главных составляющих коммуникационной системы:

Терминалы

Шлюзы

Блоки многоточечного управления

Системы управления доступом (gatekeepers)

Терминалы служат для предоставления пользователям определенных услуг и обеспечивают


двухсторонний обмен данными в реальном масштабе времени. Все терминалы H.323 должны
также поддерживать стандарт H.245, который служит для выбора параметров канала.
Структура терминала показана на рис. 2.9.3.
Рис. 2.9.3. Структура терминала H.323

Интерфейс RAS (registration/admission/status) служит для взаимодействия с блоком доступа


(gatekeeper) и поддерживает протоколы RTP/RTCP. Опционными частями H.323 являются
видео кодеки, протоколы для проведения информационных конференций (T.120) и
возможности поддержания многоточечной связи (mcu). Внешний шлюз также является
опционным элементом конференций H.323. Шлюз может выполнять функции интерфейса
для согласования с требованиями других форматов, например, H.225 - H.221 или других
коммуникационных процедур, например, H.245 - H.242. Типичным шлюзом можно считать
соединитель H.323 с коммутируемой телефонной сетью (GSTN). Блок схема такого шлюза
показана на рис. 2.9.4.

Данный шлюз устанавливает аналоговую связь с терминалами GSTN, с терминалами H.320


по каналам ISDN и с терминалами H.324 по сети GSTN. Терминалы взаимодействуют со
шлюзом через протоколы H.245 и Q.931. Применяя соответствующую перекодировку, можно
обеспечить работу шлюза H.323 с терминалами, поддерживающими протоколы V.70, H.322,
H.310 и H.321. Многие функции шлюза не стандартизованы, к их числу, например, относится
нумерация подключенных терминалов.

Шлюз IP/GSTN

Рис. 2.9.4. Схема шлюза IP/GSTN

Узел управления доступом (gatekeeper) является центральным блоком сети H.323. Через него
проходят все запросы обслуживания, при этом он выполняет функцию виртуального
переключателя. Узел управления доступом осуществляет преобразование имен терминалов и
шлюзов в их IP и IPX-адреса в соответствии со спецификацией RAS. Например, если
администратор сети установил верхний предел на число участников конференции, при
достижении этого порога узел управления доступом может отказать в установлении
соединения. Совокупность терминалов, шлюзов и блоков MTU, управляемая общим блоком
доступа, называется зоной H.323. Узел управления доступом может опционно
маршрутизовать запросы H.323. Разработчики иногда совмещают функции шлюза, MCU и
узла управления доступом, возможно независимое совмещение функций MCU и узла
управления доступом. К числу обязательных функций узла управления доступом относится.

преобразование адресов (например, из стандарта E.164 в транспортный формат)

осуществление контроля доступа к локальной сети с использованием сообщений Admission


Request, Confirm и Reject (возможен режим разрешения доступа для всех запросов)

управление полосой пропускания (поддержка сообщений Bandwidth Request, Confirm и


Reject)
Управление зоной. Реализация всех вышеперечисленных функций для MCU, шлюза и
терминалов, зарегистрированных в зоне.

Определены некоторые опционные функции узла управления доступом:

обработка запросов управления Q.931

осуществление авторизации терминалов (Q.931), допускаются ограничения доступа на


определенные периоды времени

управление запросами (контроль занятости терминалов и использования полосы


пропускания)

Для организации конференций с числом участников три и более используется блок


многоточечного доступа (MCU). MCU включает в себя многоточечный контроллер (MC) и
многоточечный процессор (MP). MC осуществляет согласование рабочих параметров
терминалов для обеспечения совместимости при передаче видео и аудио информации в
рамках протокола H.245. Многоточечный контроллер управляет также ресурсами каналов,
при этом поддерживается как уникастный, так и мультикастный обмен. Все терминалы
посылают аудио, видео и данные MCU в режиме соединения точка-точка. Управляющая
канальная информация H.245 передается непосредственно в MC. MP может выполнять
перекодировку в случае использования кодеков различного типа. Конференция может быть
организована в централизованном (все обмены идут через MCU) и децентрализованном
режиме, когда терминалы непосредственно взаимодействуют друг с другом. Терминалы
используют протокол H.245, для того чтобы сообщить MC, сколько видео- и аудио- потоков
они могут обработать одновременно. MP может осуществлять отбор видеосигналов и
смешение аудио-каналов при децентрализованной многоточечной конференции.
Допускается и смешенный режим, когда одновременно реализуется централизованная и
децентрализованная схема обменов.

Новейшая версия H.323 (v2) за счет аутентификации и шифрования/дешифрования


обеспечивает безопасность и конфиденциальность (перехват в промежуточных узлах
становится невозможным). Более подробно возможности версии 2 изложены в документе
http://www.databeam.com/h323/.

Звуковой сигнал передается в оцифрованной и сжатой форме. Алгоритмы компрессии,


поддерживаемые H.323, соответствуют требованиям стандартов ITU. Терминалы H.323
должны быть способны работать со стандартом компрессии голоса G.711 (56 или 64 Кбит/c).
Голосовой кодек должен следовать рекомендациям G.723, а видео кодек должен
соответствовать стандарту H.261 (поддержка H.263 является опционной, этот стандарт
обеспечивает более высокое качество изображения). В таблице 2.9.1 приведены форматы для
видео-конференций ITU.

Таблица 2.9.1

Формат картинки для видео- Размер изображения в


H.261 H.263
конференции пикселях

не
Sub-QCIF 128*96 необходимо
специфицировано

QCIF 176*44 необходимо необходимо

CIF 352*288 опционно опционно


4CIF 702*576 - опционно

16CIF 1408*1152 - опционно

Видеоконференции реализуемы на ЭВМ IBM/PC [1,2], Mackintosh, SUN, HP, DEC. Пакетная
техника обеспечивает удовлетворительное качество изображения и звукового
сопровождения при низкой загрузке канала и малой вероятности ошибок при передаче
пакетов. Достижимое сжатие видеосигнала - 1000:1, звукового 8:1.

Например, система SPARC classic M позволяет передавать по сети Ethernet до 30 кадров в


секунду при разрешении 768x576 точек (PAL). Рассмотренное оборудование может
использоваться не только для "дальней" связи, но для коллективного редактирования
документов и чертежей в пределах одного предприятия, используя локальную сеть. Это
может найти применение при реализации систем САПР больших предприятий. Для
компрессии применяются методы CellB, JFPEG, MPEG1, Capture (YUV, RGB-8).

Наиболее популярные программные продукты для телеконференций: vic, vat, nv, wb, sd, ivs.
(см. http://www.anl.gov/linda/video.html.)

Такие программные средства как VAT (Visual Audio Tool, ftp.ee.lbl.gov), nevot (network voice
terminal, gaia.cs.umass.edu:/pub/hgschulz/nevot), VIC (Video Conference), IVS (INTRA
Videoconferencing System, avahi.inria.fr:/pub/videoconference), NV (Net Video,
beta.xerox.com:/pub/net-research) или wb (whiteboard, ftp.ee.lbl.gov) базируются на утилитах
X11, они позволяют пользователю осуществить связь ЭВМ-ЭВМ или сессии с большим
числом участников по каналам Интернет. Поддерживаются следующие схемы кодирования и
передачи данных: PCM (64 Кбит/с), DVI, GSM и LPC (8 Кбит/с). В wb имеется возможность
импорта файлов Postscript (обычно используемых для прозрачек). При этом достигается
разрешение 640*512, число цветов равно 256, число кадров 2-20, коэффициент сжатия
информации ~20:1, а требуемая полоса пропускания канала >128 Кбит/с. Эти параметры не
идеальны. Желательно вдвое большее разрешение, число цветов должно быть равно 16
миллионам, а частота кадров 25-50, но это требует существенно большей пропускной
способности каналов (> 2 Мбит/с). Но прогресс в области быстродействия каналов связи
столь стремителен....

Система mmcc (Multimedia Conference Control program, ftp.isi.edu:confctrl/mmcc.tar.Z) во


многом аналогична описанным выше, она позволяет клиенту осуществить вызов нужного
партнера. Весьма полезной утилитой является SD (Session Directory, ftp.ee.lbl.gov:sd.tar.Z),
которая может запускать приложения, необходимые для проведения видео конференций.

Пакет CUSeeMe (gated.cornell.edu:/pub/video/Mac.CU-SeeMe0.60b1) предназначен для


персонального общения через Интернет, он работает на IBM/PC и MAC, требует 4 Мбайт
оперативной памяти. Один кадр передается за 6-7 сек при полосе 28,8 Кбит/с, разрешение
320*240 пикселей. Такое качество соответствует скорее видео телефону. На экране
предусмотрена область прокрутки, где можно напечатать какой-либо текст. Этим список
доступных программных продуктов не исчерпывается. Приведенные здесь краткие описания
даны лишь в качестве примеров.

Подчеркну, что качество работы сети более критично для передачи звука, чем изображения,
ведь потеря нескольких кадров подчас совсем незаметна. Потеря же пакетов при передаче
звука более заметна, особенно при диалоге. Когда же используется сжатие, любые
повреждения пакетов приводят к потере целых блоков данных.
Для экспериментов с передачей звука и изображения группой IETF (Internet Engineering Task
Force) была сформирована структура мультикастинг-сети MBONE. MBONE (Multicast
Backbone, до 300 Кбит/с) представляет собой виртуальную сеть, построенную из уникаст-
туннелей, которые функционируют поверх Интернет. MBONE составляет около 3,5% от
всего Интернет. Рабочие станции для доступа к MBONE должны поддерживать IP-
мультикастинг (см. RFC-1112 "Host Extensions for IP Multicasting"). Следует иметь в виду,
что не все маршрутизаторы поддерживают мультикастинг.

При работе с MBONE отправитель не должен знать, кто является получателем, а требуемая
пропускная способность канала не зависит от того, обслуживается один клиент или 100.

Требования к каналу для передачи изображения


Требуемая полоса канала для видеоконференций определяется необходимой разрешающей
способностью и частотой кадров. Таблица требований к каналу для передачи изображения
представлена ниже.

Частота Размер экрана (24 цветовых бит)


кадров/с 1280*1024 640*480 320*240 160*120
900 211 53 13
30
Мбит/с Мбит/с Мбит/с Мбит/с

В таблице приведены требования на пропускную способность канала при использовании


различных степеней сжатия передаваемых видеоданных для частоты кадров 30/с и 24 бит на
пиксель для отображения цвета.

Степень сжатия
Размер экрана
данных

  1280*1024 640*480 320*240 160*120

100:1 9 Мбит/с 2.11 Мбит/с 0.53 Мбит/с 0.13 Мбит/с

50:1 18 4,22 1,06 0,26

25:1 36 8,44 2,12 0.52

12:1 75 17,58 4,4 1,08

6:1 150 35,17 8,8 2,16

Требования при передаче звука определяются необходимым качеством, так для получения
полосы 6 Кгц нужно 64 Кбит/с, а для уровня, сопоставимого с CD, - 1,4 Мбит/с. Применение
сжатия информации позволяет снизить эти требования в 4-8 раз. Общепринятыми
стандартами для сжатия изображения при видеоконференциях являются JPEG, MPEG, H.261.
Обычно они реализуются программно, но есть и аппаратные реализации.

Если сегодня базовым транспортным протоколом для мультимедиа является UDP, то в самое
ближайшее время его потеснит RTR и дополнят RSVP и ST-II, что заметно повысит качество
и надежность (см. также раздел IP-phone).
Набор стеков протоколов, которые могут использоваться для реализации видео конференций
в рамках стандартов ITU (транспортный протокол H.320):

1. GSTN - H.324 - H.320 - [T.120; H.243; H.281]


2. ISDN - H.221 - H.320 - [T.120; H.243; H.281]
3. ISDN - PPP - IP - H.323 - H.320 - [T.120; H.243; H.281]
4. LC - PPP - IP - H.323 - H.320 - [T.120; H.243; H.281]
ATM - AAL5 - IP - H.323 - H.320 - [T.120; H.243;
5.
H.281]
6. ATM - AAL1 - H.221 - H.320 - [T.120; H.243; H.281]

2.9.1 Используемые стандарты


Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Для видеоконференций стандартизованы следующие скорости обмена:

112 Кбит/с (64 видео, 48 аудио);


128 Кбит/с (64 видео, 64 - аудио);
128 Кбит/с (96 видео, 32 -аудио);
128 Кбит/с (112 - видео, 16 -аудио);
384 Кбит/с (320 - видео, 64 аудио).

G.711 CCITT рекомендация для импульсно-кодовой модуляции (PCM) голоса с


использованием -закона кодирования при 8 кГц (8000 стробирований в сек)

G.721 CCITT рекомендация для адаптивной дифференциальной импульсно-кодовой


модуляции (ADPCM) для кодирования звука с полосой 32 кГц.

G.722 CCITT рекомендация для ADPCM при 64 Кбит/с (7 кГц)

G.723 CCITT рекомендация для ADPCM при 24 Кбит/с

G.728 (CLEP) CCITT рекомендация для ADPCM при 16 Кбит/с (3.1 кГц)

H.221 CCITT рекомендация для структуры кадров аудио-видео каналов при скоростях 64 -
1920 Кбит/с.

H.261 или P*64- CCITT рекомендация для кодирования/декодирования аудио-видео


процедур при скоростях p x 64 Кбит/с, где p=1-30, что эквивалентно 64 Кбит/с - 2 Мбит/с.
Рекомендации первоначально были разработаны для узкополосного ISDN. Достижимы
коэффициенты сжатия от 4:1 до 160:1. Регламентированы форматы:

CIF 352x288 15 кадров/сек.


Quarter CIF (QCIF) 176x144
CIF 704x576
QCIF 352x288
Super CIF 704x576.

H.320 CCITT рекомендации для узкополосных видео-телефонных систем и терминального


оборудования со скоростями не более 1920 Кбит/с. Общее описание CODEC.
JPEG - ISO/CCITT рекомендации объединенной группы фотоэкспертов. В рекомендации
определен алгоритм сжатия для стационарных цветных изображений, при котором
отбрасываются визуально второстепенные детали изображения, убирается избыточность в
пределах кадра, в результате обеспечивается сжатие1:30 при потере качества изображения и
1:15 без потери качества.

JPEG для движущегося изображения - стандарт JPEG, адаптированный для отображения


движущегося изображения, обеспечивает индивидуальный доступ к кадрам и коэффициент
сжатия информации 20:1.

MPEG-1 ISO/CCITT рекомендации группы экспертов по движущемуся изображению,


определен алгоритм сжатия для движущегося изображения при работе с каналами 1.5 Мбит/с
(1.2 Мбит/с видео + 200 Кбит/с для аудио) с коэффициентами сжатия от 50:1 до 200:1 при
размере изображения 352x240x24 бит и частоте кадров 30/сек.

MPEG-2 ISO/CCITT рекомендации группы экспертов по движущемуся изображению, поток


данных для видео и аудио лежит в пределах между 4 и 15 Мбит/с, достигаются
коэффициенты сжатия от 50:1 до 200:1, размер изображения 728x486, качество соответствует
телевидению высокого разрешения стандарта NTSC (National Television Standards Committee
US).

Сводные данные по стандартам для видеоконференций представлены в таблице 2.9.1.1.


Новым универсальным набором стандартов для реализации видео-телефонии и
мультимедийных обменов является H.323.

Таблица 2.9.1.1

H.323
  H.320 H.321 H.322 H.324
V1/V2
Дата принятия 1990 1995 1995 1996/1998 1996
Сети без
Узкопо- Сети с
Широко- гаранти-
лосная гаранти-
полосная рованной PSTN или POTS,
переклю- рованной
Сеть ISDN полосы анало-говые теле-
чаемая полосой
ATM пропус- фонные системы
цифровая пропус-
LAT кания
ISDN кания
(Ethernet)
H.261
Видео H.261 H.263 H.261 H.263 H.261 H.263 H.261 H.263
H.263
G.711
G.711 G.711 G.711 G.722
Аудио G.722 G.722 G.722 G.728 G.723
G.728 G.728 G.728 G.723
G.729
Мультиплек-
H.221 H.221 H.221 H.225 H.223
сирование
H.230 H.230
Управление H.242 H.245 H.245
H.242 H.242
Многото-чечный H.231 H.231 H.231 H.323  
режим H.243 H.243 H.243
Данные T.120 T.120 T.120 T.120 T.120
AAL
Общий I.363 I.400 & V.34
I.400 TCP/IP
интерфейс AJM I.361 TCP/IP модем
PHY I.400

2.10 Элементы статистической теории


каналов связи
Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Канал связи с изменяющимися состояниями


Симметричный канал без памяти

Данная статья имеет целью познакомить с терминологией и математическими основами


статистической теории передачи данных. Именно на этой математической основе зиждятся
приведенные выше теоремы Шеннона и Найквиста. Статья является компиляцией из
нескольких источников (Ю.В.Прохоров, Ю.А.Розанов "Теория вероятностей. Основные
понятия, предельные теоремы, случайные процессы" Наука, М. 1967; Л.Ф. Куликовский,
В.В.Мотов, "Теоретические основы информационных процессов", Высшая школа, 1987; Р.
Галлагер "Теория информации и надежная связь" Советское радио, 1974 и др.). Материалы,
предлагаемые здесь не могут считаться исчерпывающими и призваны быть поводом для
более углубленного изучения по существующим монографиям.

Канал связи предназначен для транспортировки сообщений. Математическая модель канала


связи описывается некоторой совокупностью Х1 элементов х1 (X1 = {x11, x12,, …x1j}),
называемых сигналами на входе канала, совокупностью Х2 элементов х2 (x2 = {x21, x22,, …
x2k}), называемых выходными сигналами, и условными распределениями вероятностей
p2=p2(a2 |x1) в пространстве x2 выходных сигналов x2. Если посланный сигнал (сигнал на
входе) есть х1, то с вероятностью P2=P2(A2|x1) на выходе канала будет принят сигнал х2 из
некоторого множества A2  Х2 (распределения задают вероятности того или иного
искажения посланного сигнала х1). Совокупность всех возможных сообщений обозначим
символом x0. Предполагается, что каждое из сообщений x0 X0 может поступать с
определенной вероятностью. То есть, в пространстве X0 имеется определенное
распределение вероятностей P0=P0(A0 ).

Сообщения х0 не могут быть переданы по каналу связи непосредственно, для их пересылки


используются сигналы x1 X1. Кодирование сообщений х0 в сигналы х1 описывается при
помощи условного распределения вероятностей P1=P1(A1 |x0). Если поступает сообщение х0,
то с вероятностью P1=P1(A1|x0) будет послан один из сигналов х1, входящих в множество A1
 Х1 (условные распределения P1(A1|x0) учитывают возможные искажения при кодировании
сообщений). Аналогичным образом описывается декодирование принимаемых сигналов х2 в
сообщения x3. Оно задается условным распределением вероятностей P3=P3(A3|x2) на
пространстве Х3 сообщений х3, принимаемых на выходе канала связи.
На вход канала связи поступает случайное сообщение 0 с заданным распределением
вероятностей P0=P0(A0). При его поступлении передается сигнал 1, распределение
вероятностей которого задается правилом кодирования P1=P1(A1|x0):

P{ξ2  A2|0, 1} = P2(A2|1)

Принятый сигнал ξ2 декодируется, в результате чего получается сообщение ξ3:

P{ξ3  A3|ξ0, ξ1, ξ2} = P3(A3| ξ2)

Последовательность ξ0  ξ1  ξ2  ξ3 является марковской. При любых правилах


кодирования и декодирования описанного типа имеет место неравенство:

I(ξ0,ξ3)  I(ξ1, ξ2),

где I(ξ0, ξ3) - количество информации о ξ0 в принятом сообщении ξ3, I(ξ1, ξ2) - количество
информации о ξ1 в принятом сигнале ξ2.

Предположим, что распределение вероятности входного сигнала 1 не может быть


произвольным и ограничено определенными требованиями, например, оно должно
принадлежать классу W. Величина C = sup I(( 1 , 2) , где верхняя грань берется по всем
возможным распределениям P1  W, называется емкостью канала и характеризует
максимальное количество информации, которое может быть передано по данному каналу
связи (теорема Шеннона).

Предположим далее, что передача сообщений ξ0  ξ3 должна удовлетворять определенным


требованиям точности, например, совместное распределение вероятностей Pξ0 ξ1
передаваемого и принимаемого сообщений ξ0 и ξ3 должно принадлежать некоторому классу
V. Величина H= inf I( ξ0 ξ3), где нижняя грань берется по всем возможным распределениям
Pξ0 ξ3  V, характеризует минимальное количество информации, которое должно заключать в
себе принимаемое сообщение ξ3 о ξ0, чтобы было выполнено условие точности передачи.
Величина H называется энтропией источника сообщений.

Если возможна передача 0  ξ1  ξ2  ξ3 с соблюдением требований V и W, то есть


существуют соответствующие способы кодирования и декодирования (существуют
условные распределения P1, P2 и P3), то H  С.

Для выполнения этого неравенства передача является возможной, т.е. возможна передача

последовательно поступающих сообщений

Предположим, что совокупность Х0 всех возможных сообщений х0 является дискретной


(имеется не более чем счетное число различных сообщений x0, поступающих с
соответствующими вероятностями P0(x0), x0  X0) и условие точности передачи v состоит в
том, что принимаемое сообщение ξ3 должно просто совпадать с переданным сообщением ξ3 =
ξ0 с вероятностью 1. Тогда

Предположим далее, что имеется лишь конечное число N различных входных сигналов х1 и
нет никаких ограничений на вероятности P{ ξ1 = x1}, x1     X1. Кроме того, предположим, что
передаваемые сигналы принимаются без искажений, то есть с вероятностью 1 ξ2= ξ1. Тогда
емкость канала выражается формулой C = log2N, т.е. передаваемое количество информации
I(1,ξ 2 ) будет максимальным в том случае, когда сигналы x1  X1 равновероятны.

Если сообщения поступают независимо друг от друга, то количество

информации, которое несет группа сообщений есть

группа сообщений, поступающая на кодирование с вероятностью

Пусть H<C, положим также =(1/2)(C-H). Согласно закону больших чисел, примененному к
последовательности независимых и одинаково распределенных случайных величин

с математическим ожиданием

для любого ε >0 найдется такое n(), что при всех n ≥ n(ε )

P{-H- (1/n)logP( ξ 0n)  H+ } ≥ 1-, где

Полученное неравенство говорит о том, что все группы сообщений х0n можно разбить на два

класса. К первому классу относятся высоковероятные сообщения х0n, для которых P(x0n)
-n(H+ )
≥2 и количество которых Mn не больше чем 2n(H+ ):

Mn  2n(H+ )

Ко второму классу относятся все остальные маловероятные сообщения х0n:

Каждую группу высоковероятных сообщений х0n можно в принципе передать, закодировав ее

соответствующей комбинацией сигналов . Число всевозможных


nC
комбинаций такого вида есть Nn=2 , и видно, что Mn<Nn. Имеется Nn различных сигналов x1n,
с помощью которых можно закодировать и передать безошибочно все Mn высоковероятных

сообщений x0n Если в дополнение к этому при поступлении любого маловероятного

сообщения x0n передавать некоторый один и тот же сигнал (отличный от

сигналов, при помощи которых передаются высоковероятные сообщения x0n , то с


вероятностью, не меньшей чем 1-, на выходе канала связи будет приниматься

последовательность :

При выполнении неравенства H < C оказывается возможной передача достаточно длинных

сообщений с той оговоркой, что с вероятностью  - наперед заданное


сколь угодно малое положительное число) может быть допущена ошибка. Имеется целое
семейство каналов связи и источников сообщений, зависящих от параметра n.

Количество информации I(0, 3) для абстрактных случайных величин 0 и 3 со значениями в


пространствах Х0 и Х3 может быть записано в виде:

I(0, 3) = Mi(0,3), где

- информационная плотность. Последовательность пар (0n,3n) называется информационно


устойчивой, если при n  ∞

I(0,3)  ∞ и

(по вероятности)

Рассмотренная выше последовательность (0n,3n), 3n=0n поступающих сообщений  0n =(

) обладает свойством информационной устойчивости, что в конечном


счете и определило возможность передачи сообщений  0n с точностью до . Этот факт
допускает широкое обобщение. Например, если Сn - пропускная способность канала
1n 2n, Hn - минимальное количество информации, необходимое для соблюдения
требуемой точности передачи 0n  3n, причем

(при n  ∞),

и существуют информационно устойчивые последовательности пар (0n,3n) и (1n,n), для


которых одновременно

то при весьма широких предположениях для любого наперед заданного  >0 существует
такое n(), что по всем каналам связи с параметром n  n() возможна передача с точностью
до .
2.10.2. Канал связи с изменяющимися состояниями
Как было указано выше, канал характеризуется условными распределениями З2, задающими
вероятности тех или иных искажений посылаемого сигнала х1. Несколько изменим схему
канала связи, считая, что имеется некоторое множество Z возможных состояний z канала
связи, причем если канал находится в некотором состоянии z и на входе возникает сигнал x1,
то независимо от других предшествующих обстоятельств канал переходит в другое
состояние z1. Этот переход подвержен случайностям и описывается условными
распределениями P(C|x1, z) (P(C|x1, z) - вероятность того, что новое состояние z1 будет
входить в множество C  Z). При этом уже считается, что выходной сигнал х2 однозначно
определяется состоянием канала z1, т.е. существует некоторая функция  =  (z) на
пространстве z возможных состояний канала такая, что х2=  (z1). Эта более общая схема
позволяет учитывать те изменения, которые в принципе могут возникать в канале по мере
его работы.

Рассмотрим стационарный режим работы канала связи. Предположим, что последовательно


передаваемые сигналы
….,  1(-1),  1(0),  1(1),…, соответствующие состояниям канала …,  (-1),  (0),  (1),…, и
определяемые ими сигналы
…,  2(-1),  2(0),  2(1),…, на выходе образуют стационарные и стационарно связанные
случайные последовательности. Величина С=supI( 1, 2), где I( 1, 2), означает скорость
передачи информации о стационарной последовательности {1(n)} последовательностью {
2(n)} и верхняя грань берется по всем допустимым распределениям вероятностей входной
последовательности {1(n)}, называется пропускной способностью канала связи.

Предположим, что поступающие на вход канала связи сообщения { 0(n)}, n =…, -1, 0, 1 ,…,
образуют случайную последовательность. Будем считать правило кодирования заданным,
если при всех k, m и k1,…, km  k определены условные вероятности

P{ 1(k1)  B1,…,  1 (km) Bm| 0(-∞ ,k)}

Того, что при поступлении последовательности сообщений

 0(-∞ ,k) = …,  0(k-1),  0(k)

на соответствующих местах будут переданы сигналы  1(k1),…,  1(km), входящие в


указанные множества B1, …, Bm. Эти вероятности считаются стационарными в том смысле,
что они не меняются при одновременной замене индексов k и k1,…,km на k+l и k1+l,…,km+l
при любом целом l. Аналогичными вероятностями p{  3(k1)  D1,…,  3(km)  Dm| 2(-∞ ,k)}
задается правило декодирования.

Определим величину H формулой H = inf I(  0, 3), где I( 0,  3) - скорость передачи
информации о стационарной последовательности {0(n)} последовательностью {3(n)}, n =
…, -1, 0, 1,… (эти последовательности предполагаются стационарно связанными), и нижняя
грань берется по всем допустимым распределениям вероятностей, удовлетворяющим
требованиям точности передачи {0(n)}  { 3(n)}.

Неравенство H  C является необходимым условием возможности передачи

{ 0(n)}  { 1(n)}  { 2(n)}  { 3(n)}.


Напомним, что каждое сообщение 0(n) представляет собой некоторый элемент х0 из
совокупности Х0. Можно интерпретировать Х0 как некоторый алфавит, состоящий из
символов х0. Предположим, что этот алфавит Х0 является конечным и требование точности
передачи состоит в безошибочном воспроизведении передаваемых символов:

P{ 3(k) =  3(k)} =1 для любого целого k.

Предположим также, что имеется лишь конечное число входных сигналов х1 и состояний
канала z. Обозначим состояния канала целыми числами 1, 2, …, N, и пусть p(k, x1,j) -
соответствующие вероятности перехода из состояния k в состояние j при входном сигнале x1:

p(k,x1,j) = P{ (x+1) = j| (n)=k,  1(n+1)=x1}.

Дополнительно предположим, что любые произведения вида

p(k0,x1(1),k1)p(k1,x1(2),k2)… p(kn-1,x1(n),kn)

являются стохастическими матрицами, задающими эргодические цепи Маркова. Это условие


будет выполнено, если, например, каждая из переходных матриц {p(k,x1,j)} имеет
положительный коэффициент эргодичности. Тогда при выполнении неравенства H<C и
соблюдении условия эргодичности стационарной последовательности { 0(n)} сообщений на
входе передача возможна с точностью до любого  >0, т.е. при соответствующих способах
кодирования и декодирования принимаемая последовательность сообщений { 3(n)} будет
обладать тем свойством, что p{3(k)   0(k)} <  для любого целого k.

Пусть  1 = { (t), t T1} и  2= { (t), t  T2} - два семейства случайных величин, имеющих
совместное гауссово распределение вероятностей, и пусть H1 и H2 - замкнутые линейные
оболочки величин  (t), t T1, и  (t), t T2, в гильбертовом пространстве L2 (). Обозначим
буквами P1 и P2 операторы проектирования на пространства H1 и H2 и положим P(1) = P1P2P1,
P(2) = P2P1P2. Количество информации I(1, 2) о семействе величин 1, содержащееся в
семействе 2, конечно тогда и только тогда, когда один из операторов P(1) или P(2)
представляет собой ядерный оператор, т.е. последовательность  1,  2,… его собственных

значений (все они неотрицательны) удовлетворяет условию . При этом

В случае, когда  1 и  2 образованы конечным числом гауссовых величин:

1={ (1),…,  (m)},  2 = { (m+1),…,  (m+n)}, причем корреляционная матрица B общей


совокупности  (1),…,  (m+n) является невырожденной, количество информации I( 1,  2)
может быть выражено следующей формулой:

где B1 и B2 - корреляционные матрицы соответствующих совокупностей  1 и  2.


Гауссовы распределения обладают следующим экстремальным свойством. Для
произвольных распределений вероятностей величин

 1 = { (1), …,  (m)} и  2 = { (m+1), …,  (m+n)}

с соответствующими корреляционными матрицами B1, B2 и B количество информации I( 1, 


2) удовлетворяет неравенству

Пусть  = ( 1,…, n) и  = ( 1,…,n) - векторные случайные величины в n-мерном


евклидовом пространстве X и (x,y) - некоторая неотрицательная функция, определяющая
условие близости величин  и , которое выражается следующим соотношением:

M, )   .

Величину H=H, определенную как H = inf I(, ), обычно называют -энтропией случайной
величины  (нижняя грань берется по всем случайным величинам , удовлетворяющим
указанному условию -близости случайной величине ).

Пусть (x,y) = (|x-y|) и существует производная ’(0), 0<’(0)<∞. Тогда при   0 имеет
место асимптотическая формула, в которой логарифмы берутся по основанию e:

где () - гамма функция и h - дифференциальная энтропия случайной величины :

(p(x) - плотность распределения вероятностей, удовлетворяющая весьма широким условиям,


которые выполняются, например, если плотность p(x) ограничена и h( ) > -∞ ).

Пусть (,  > 0)

Тогда

В частности, при  =2,  =1 имеет место асимптотическая формула


Пусть пара случайных процессов ( 1(t),  2(t)) образует стационарный в узком смысле
процесс,  [u,v] - совокупность значений  (t), u  t  v, и пусть

- условное количество информации о процессе 1= ,

содержащееся в отрезке процесса 2. Среднее количество указанной информации


представляет собой линейно растущую функцию от t:

Фигурирующая здесь величина I(, ) называется средней скоростью передачи информации
стационарным процессом  о стационарном процессе 1 или просто - скоростью передачи
информации.

Скорость передачи информации I(1,2) обладает рядом свойств, аналогичных свойствам


количества информации. Но она имеет и специфические свойства. Так для всякого
сингулярного случайного процесса  2, т.е. такого процесса, все значения  2(t) которого

являются функциями от совокупности величин (t0 может быть выбрано любым),


имеет место равенство I( 1,  2)=0.

Для всякого регулярного случайного процесса  2 равенство I(1,2)=0 справедливо лишь


тогда, когда случайный процесс  1 не зависит от процесса 2 (это говорит о том, что в
некоторых случаях I(1,2)  I( 2, 1) ).

При дополнительных условиях типа регулярности скорость передачи информации I( 1, 2)
совпадает с пределом

где - количество информации об отрезке процесса , заключенное в

. Так будет, например тогда, когда время меняется дискретно, а отдельные величины
1(t) и 2(t) могут принимать лишь конечное число различных значений или когда
распределение вероятностей процессов 1 и 2 является гауссовым. В случае непрерывного
времени t так будет для гауссовых процессов, когда спектральная плотность f() процесса
2(t) удовлетворяет условию

0< c   2nf( )  c < ∞

Пусть стационарный процесс  =  (t) представляет собой последовательность величин,


каждая из которых принимает значения из некоторого алфавита x, состоящего из конечного
числа символов x1, x2,…,xn. Предположим, что вероятность появления на фиксированном
месте определенного символа xi есть pi, а вероятность появиться за ним символу xj не зависит
от предшествующих xi значений и есть pij:
P{ (t) = xi} = pi, P{(t+1) = xi xi|(t) = xi, (t-1),…, } = pij

Другими словами  =  (t) - стационарная цепь Маркова с переходными вероятностями {pij} и


стационарным распределением {pi}. Тогда скорость передачи информации стационарным
процессом (t) будет

I(,) = -

В частности, если  = (t) - последовательность независимых величин (в случае pij = pj), то

I(,) = -

Пусть 1 = 1(t) и 2 = 2(t) - стационарные гауссовы процессы со спектральными плотностями


f11(), f22() и взаимной спектральной плотностью f12() причем процесс 2 = 2(t) является
регулярным. Тогда

I(1, 2) = -

Рассмотрим следующее условие близости гауссовых стационарных процессов 1(t) и 2(t):

M|1(t) - 2(t)|2 2

Наименьшая скорость передачи информации


H = infI(1,2), совместимая с указанным условием “-точности”, выражается следующей
формулой:

где

а параметр 2 определяется из равенства

Эта формула показывает, какого типа спектральная плотность f22() должна быть у
регулярного стационарного процесса  2(t), который несет минимальную информацию I (1,
2)  H о процессе 1(t). В случае дискретного времени, когда f11( )   при всех  , - 
2

, нижняя грань H скорости передачи достигается для такого процесса  2 (t) (со
спектральной плотностью f22(), задаваемой приведенной выше формулой), который связан с
процессом  1(t) формулой
 2(t) =  1(t) + (t), где (t) - стационарный гауссов шум, не зависящий от процесса  2(t); в
общем случае формула f22() задает предельный вид соответствующей спектральной
плотности регулярного процесса  2(t).

В случае, когда спектральная плотность f11() приближенно выражается формулой

соответствующая минимальная скорость передачи информации H может быть вычислена по

приближенной формуле , 2 = M[(t)]2.

2.10.3. Симметричный канал без памяти


Рассмотрим симметричный канал передачи данных без памяти c конечным числом входных
сигналов х1, когда передаваемый сигнал х1 с вероятностью 1-p правильно принимается на
выходе канала связи, а с вероятностью p искажается, причем все возможные искажения

равновероятны: вероятность того, что на выходе будет сигнал х2, равна для любого х2
 x1, где N - общее число сигналов. Для такого канала связи пропускная способность
c = supI( 1,2) достигается в случае, когда на вход поступает последовательность
независимых и равномерно распределенных сигналов …,  1(-1),  1(0),  1(1),…; эта
пропускная способность выражается формулой

Рассмотрим канал связи, на входе которого сигналы образуют стационарный процесс  1 =


1(t), M[ 1(t)]2 < ∞.

Пусть при прохождении сигнала  1 =  1(t) он подвергается линейному преобразованию A


со спектральной характеристикой  () и, кроме того, на него накладывается аддитивный
стационарный гауссов шум  = (t), так что на выходе канала имеется случайный процесс 
2(t) вида  2(t) = a  1(t) +  (t).

Предположим также, что ограничения на входной процесс состоит в том, что M[ 1(t)]2   2
(постоянная 2 ограничивает среднюю энергию входного сигнала). Пропускная способность
такого канала может быть вычислена по формуле
[в последнем выражении интегрирование ведется в пределах -     для дискретного
времени t и в пределах -∞ < <∞ для непрерывного t), где f  () - спектральная плотность
гауссова процесса  (t), функция f() имеет вид

а параметр 2 определяется из равенства

Нужно сказать, что если функция f() представляет собой спектральную плотность
регулярного стационарного гауссова процесса  1(t), то этот процесс, рассматриваемый как
входной сигнал, обеспечивает максимальную скорость передачи информации: I( 1, 2) = C.
Однако в наиболее интересных случаях, когда время t меняется непрерывно, функция f()
обращается в нуль на тех интервалах частот , где уровень шума сравнительно высок
(отличные от нуля значения f() сосредоточены в основном на тех интервалах частот , где
уровень шума сравнительно мал), и поэтому не может служить спектральной плотностью
регулярного процесса. Более того, если в качестве входного сигнала выбрать процесс  1(t) с
спектральной плотностью f(), то этот сигнал будет сингулярным и соответствующая
скорость передачи информации I( 1,2) будет равна нулю, а не максимально возможному
значению C, указанному выше.

Тем не менее, приведенные выражения полезны, так как позволяют приблизительно


представить вид спектральной плотности f() регулярного входного сигнала  1(t),
обеспечивающей скорость передачи I(1, 2), близкую к максимальному значению C. С
практической точки зрения наиболее интересен случай, когда канал связи имеет
ограниченную полосу w пропускаемых частот, т.е. когда спектральная характеристика
выражается формулой

а проходящий через канал шум имеет равномерный спектр:

В этом случае пропускная способность может быть вычислена по приближенной формуле

При этом входной сигнал 1(t), обеспечивающий скорость передачи информации I(1, 2),
близкую к максимальной, является гауссовым стационарным процессом со спектральной
плотностью f() вида
так что параметры 2 и 2 имеют следующий физический смысл:

- энергетический уровень входного сигнала,

- энергетический уровень шума.

3 Каналы передачи данных


Семенов Ю.А. (ИТЭФ-МФТИ)
Semenov Yu (ITEP-MIPT)

Номер Название раздела Объем в Объем


раздела страницах в
кбайт
3.1 Кабельные каналы связи 10 92
3.2 Оптоволоконные каналы и беспроводные оптические связи 18 283
3.3 Беспроводные (радио) каналы и сети 16 202
3.4 Протокол SLIP и RS-интерфейсы 2 20
3.5 Протокол PPP 9 99
3.6 Протокол G.703 2 21
3.7 Дерево Штайнера 2 64
Итого    
За последние двадцать лет пропускная способность каналов выросла с 56 кбит/c до 100
Гбит/с. Разработаны технологии, способные работать в случае оптических кабелей со
скоростью 50 Тбит/с. Вероятность ошибки при этом сократилась с 10-5 на бит до
пренебрежимо низкого уровня. Современный же лимит в несколько Гбит/с связан главным
образом с тем, что люди не научились делать быстродействующие преобразователи
электрических сигналов в оптические и наоборот.

Сопоставление возможностей различных технологий передачи данных представлено на рис.


3.1. Радиоканалы покрывают диапазон от десятков килобит в секунду до десятков мегабит в
сек.

Рис. 3.1. Сравнение возможностей скрученной пары, коаксиального кабеля, много- и


одномодовых волокон

Исторически для передачи данных первыми были созданы последовательные каналы. Это
прежде всего протоколы последовательнйо передачи данных SLIP и PPP. В ИТЭФ нами был
реализован канал последовательного обмена между машинами СМ-4 и Электроника-60 еще в
1985 году. Его скорость работы была равна 110 кбит/c. Длина соединения на самодельной
скрученной паре составляла около 2 метров. Канал был реализован на микросхемах UART.
Сегодня это может вызвать только кривую усмешку, а тогда мы были счастливы, так как
смогли копировать флоппи-диски, имеющие разные форматы записи (DEC-IBM). Скоро
люди забудут, что такое флоппи диски. Лишь кое-где имеются 3,5-дюймовые дисководы (1,4
Мбайт). А тогда мы работали с 8-дюймовыми дисками, емкость которых составляла 320-640
килобайт (одиночная и двойная плотности записи). Первые персональные компьютеры
имели последовательные интерфейсы RS-232 с быстродйствием 19,2 кбит/с. Этот интерфейс
долго использовался для подключения к машине мышки.

В 1990 годы с помощью ДЕЗИ был создан канал ИТЭФ-ФИАН-ДЕЗИ с быстродействием 4,6
кбит/сек (на все три института), который дал нам выход в Интернет. Канал использовал две
выделенные телефонные скрученные пары и модемы. Позднее, поменяв модемы, удалось
поднять быстродействие до 14,2 кбит/с. И только в 1992 году был создан спутниковый канал
НИЯФ-МГУ - ДЕЗИ (Гамбург), к которому был подключен и ИТЭФ. Суммарная полоса
пропускания канала была равно 256 кбит/c (позднее полоса была поднята до 2 Мбит/c).
ИТЭФ был подключен к НИЯФ МГУ через радиорелейную линию с пропускной
способностью 2 Мбит/c. Параболические антенны НИЯФ находились у основания шпиля
МГУ. От радирелейного терминала к маршрутизатору CISCO AGS ИТЭФ (интерфейс V-32)
шел последовательный канал G.703.

Вам также может понравиться