A=kp(1-p)k-1
A достигает максимума при p=1/e. A -> 1/e при k ->∞. Среднее число доменов
на один доступ равно 1/А. Так как каждый домен имеет протяженность RTT, то
средняя длительность времени доступа составит RTT/A. Если среднее время
передачи кадра составляет P секунд, то при большом числе станций, готовых к
передаче эффективность канала составит P/(P+RTT/A).
Создатель снабдил людей неплохими системами коммуникаций. Это, прежде всего органы
зрения, слуха и голосовой аппарат. Наиболее важные из них задублированы - мы имеем два
уха и два глаза, что создает предпосылки стерео восприятия и пространственной локации
источника звука или оптического объекта. Определенную информацию об окружающей
среде мы получаем от органов вкуса, обоняния и осязания. Эти информационные каналы
весьма важны для сохранения жизни, но с точки зрения потоков данных они достаточно
узкополосны. Самым широкополосным нашим каналом является визуальный. В оптической
области люди могут воспринимать волны с длиной волны от 380 до 740нм, что в принципе
может обеспечить потоки данных масштаба ~60Тбит/c. Проблема в том, что человек
способен воспринимать <<10Мбит/с, обрабатывая эти данные лишь частично (речь идет о
восприятии движущегося изображения). В акустическом диапазоне наши уши
чувствительны для частот от 20 Гц до 20 кГц. Наш акустический канал принципиально
асимметричен. Передачу данных мы осуществляем голосом (полоса 600 Гц - 6кГц), а
восприятие слухом, который имеет более чем в два раза большую полосу пропускания.
Уместен вопрос, зачем Природа или Создатель сформировали столь асимметричный канал?
Отказать в рациональности такого решения нельзя. Ведь в реальной жизни хотя бы с точки
зрения безопасности через уши мы получаем данные о шорохе листвы, по которой
подползает к вам змея или о подлетающем комаре. Частотные диапазоны этих шумов
находятся вне области воспроизведения нашим голосом. Это же касается раскатов грома или
звука выстрела. Отсюда следует, что мудр тот, кто больше слушает, чем говорит, так он
способствует накоплению информации в своей памяти.
Наконец был создан символьный язык для описания не только объектов реального мира, но и
абстрактных понятий. Достаточно вспомнить скрижали, которые Бог передал Моисею. Об
этом говорится в Ветхом завете, и было это задолго до рождества Христова. Но сами эти
камни с письменами предполагали, что народ или хотя бы священнослужители были
способны прочесть то, что на них написано. Письменность предполагает соглашение между
пишущим и будущими читателями относительно значения графических символов.
Изустные знания ненадежны, легко искажаются. Впрочем, это было свойственно и первым
письменным источникам, ведь первые книги просто переписывались вручную. В качестве
носителя использовались специально обработанные шкуры животных - пергамент, или
прототип бумаги - папирусы (древнейшие египетские папирусы относятся к 25-му веку до
нашей эры) и, наконец, во втором веке нашей эры бумага (Китай). В начале 11-го века в
Китае начали печатать книги с использованием подвижных литер, выполненных из глины
или дерева. В 14-ом веке в Корее стали применяться для печати подвижные металлические
литеры (чем не прототип пишущей машинки?). Практически с самого начала в рукописях и
“полиграфии” использовалось несколько цветов.
Сначала записанная информация имела вид свитков. Позднее они стали объединяться, такие
блоки листов стали называться кодексами. Известные древнейшие библиотеки относятся ко
2-3 тысячелетиям до нашей эры, создавались они героическими усилиями переписчиков.
Переписчик часто заботливо “исправлял” непонятные ему места, внося неизбежные
субъективные искажения. Иногда такие искажения вводились сознательно в угоду
политическим, идеологическим или религиозным воззрениям.
Наш голосовой канал, прежде всего, предназначен для общения с себе подобными. Часть
предыдущей фразы до запятой содержит 19 букв (в кодовом представлении 19 байт). В
норме она произносится примерно за одну секунду, что создает поток данных в 152 бит/сек.
Хорошо тренированный оператор за полторы-две секунды может напечатать эту часть
фразы.
Так говорящий произносит "да", но то, как он это говорит, может означать - нет. Сюда
можно отнести эмоциональную окраску, выбор слов, интонацию, логические ударения,
акцент, по которому можно иногда определить даже место рождения человека. При
разговоре согласно некоторым оценкам мы передаем 5-60 бит в секунду. Но это оценка лишь
смысловой информации, извлекаемой из записи сказанных слов. При беседе мы можем
передавать важные данные мимикой, жестами и другими средствами, причем эти данные
могут иной раз противоречить информации, содержащихся в произносимых словах. Грубые
оценки указывают, что устная речь с точки зрения энтропии имеет 50 процентную
избыточность.
Нашу нервную систему вполне можно рассматривать, как локальную сеть, внешние же
коммуникации человека могут служить аналогом Интернет. По внутренним нервным
магистралям распространяются сигналы от различных рецепторов, сообщая данные о
состоянии окружающей среды и самого организма, аналогично, но в противоположном
направлении передаются управляющие сигналы. Обратные связи являются основой жизни и
способом адаптации к окружающей среде. Я не являюсь тонким знатоком физиологии
человека, но, тем не менее, позволю предположить, что в нашей нервной системе
используется, как “проводные” соединения, так и адресная система доставки сообщений.
Мне могут возразить, что, смотря телевизор, мы обрабатываем большие потоки. Возможно
это так. Но в любом случае это не больше 200кбайт/сек (вспомним предельную скорость
передачи данных в каналах цифрового ТВ).
Можно с уверенностью сказать, что наши болезни - это сбои системы управления
организмом.
Трудно представить, чтобы ЭВМ Центра управления полетом, прежде чем передать
управляющую информацию бортовой машине, перешлет ей сначала анекдот, найденный
только что в Интернет. Впрочем, это относится скорее к области информатики, чем
телекоммуникаций. Хотя от умения компактно передавать наиболее существенные данные
зависит эффективная работа информационных систем будущего.
где pi – вероятность появления i-го символа (или сообщения). Log2(1/pi) определяет число
бит, характеризующих данную информацию (сколько бит мы должны послать, чтобы
передать эту информацию). Отсюда следует, что сообщение, которые имеют большую
вероятность, несут в себе меньше информации.
Энтропия является мерой неопределенности реализации того или иного случайного события.
Классическое определение информационной энтропии (H) выглядит как:
Обычный способ определения энтропии текста базируется на модели Маркова для текста.
При этом вероятность появления очередного символа предполагается независимой от
предыдущего символа (что, разумеется, не всегда верно).
Если энтропию отдельных букв и даже слов достаточно легко оценить по частоте их
использования, то расчет энтропии сообщения представляет определенную проблему (из-за
огромного их многообразия), а оценку накопленных знаний человечества можно
рассматривать как серьезную проблему на будущее. Куда проще оценивать объем
информации в гигабайтах или петабайтах, как это делается сегодня, в частности, если
оперировать архивированными файлами. Следует только помнить, что такая оценка с
реальным объемом информации практически имеет мало общего.
Если бы глаза размещались, например, на запястьях (иногда неплохо было бы иметь там и
уши), мы могли бы, разведя руки, с высокой точностью определять расстояние до любого
объекта (разрешающая способность возросла бы более чем в 20 раз; кстати, эта идея
реализована мадагаскарскими тараканами, у которых уши размещены в области локтевых
суставов). Но время доступа к данным при этом неизбежно увеличилось бы, возросло бы и
время отклика на сигналы опасности, что создало серьезные угрозы безопасности из-за
замедления реакции. Следует иметь в виду, что скорость распространения сигнала по
синапсам и аксонам нейронов составляет около 120 метров в сек. Кроме того, для кистей рук
велика вероятность повреждений, ведь они у нас являются одним из главных
исследовательских инструментов. Да и размеры человеческого тела с учетом того, что
главным его инструментом выживания является мозг, полагаю, определяются, среди
прочего, скоростью распространения сигналов возбуждения по нервным волокнам.
Возможно, из-за больших задержек в цепях обратных связей вымерли все гигантские
животные.
Такая техника позволяла передать 1 бит информации (логический нуль или логическая
единица) на расстояние до 100 км менее чем за один час (время сильно варьировалось в
зависимости от рельефа местности и погоды). Скорость такого метода передачи данных в
дневное время можно было удвоить, используя черный или белый дым. Костры часто
размещались на специально построенных вышках для увеличения расстояния между ними.
Здесь нечего говорить о надежности, проливной дождь (или вьюга) мог помешать разжечь
костер, да и видимость при этом могла оказаться весьма ограниченной. Здесь надо заметить,
что строго говоря, в вышепредставленном примере передавался не один бит. Ведь только
сигнал с определенного направления имел определенный смысл, а дым или огонь,
появивишийся в другом месте, ничего не значил. Фактически это был код с одной единицей
и определенным количеством нулей. Вопрос о том, сколько здесь должно быть нулей, совсем
не прост. Дым или огонь в точке, близкой к одной из сигнальных вышек, может создать
ложную тревогу, и такие сигналы можно рассматривать в качестве шума.
Техника телекоммуникаций с временем RTT (Round Trip Time), равным 2-6 месяцам,
просуществовала без существенных изменений более 1500 лет.
Ответ только на первый взгляд может показаться очевидным. Например, если весь миллион
бит составляют одни логические единицы, будет ли такое послание сильно отличаться от
одной единицы?
Таким образом, ясно, что бит не является мерой реального объема информации. Очевидность
этого факта подтолкнула математиков к формулировкам принципов измерения объемов
информации, базирующимся на понятии информационной энтропии, смотри "Базовые
определения теории информации".
Рассматривая таблицу кодов Морзе, следует обратить внимание на то, что наиболее часто
используемые буквы имеют более короткие коды (это, прежде всего е, т, а, и, н и м). Это
очень важный принцип, позволяющий увеличить среднюю скорость передачи данных. Он
используется достаточно широко, можно, например, вспомнить принцип распределения
символов на клавиатуре ЭВМ, в центре размещаются наиболее часто используемые буквы.
Посмотрите на клавиатуру вашей ЭВМ, в центре и ближе к клавише пробела размещаются
именно указанные в начале абзаца буквы. Используется эта техника и при архивировании
данных (алгоритм Хафмана). Кроме того, весьма важными являются паузы между буквами.
Если пауза окажется малой, то трудно будет отличить НН от Ц, АА от Я и т.д. Распределение
частот (вероятностей P) использования букв русского алфавита представлено в таблице 1.2.
Буква P Буква P
пробел 0.175 я 0.018
о 0.09 ы 0.016
е,ё 0.072 з 0.016
а 0.062 ь,ъ 0.014
и 0.062 б 0.014
т 0.053 г 0.013
н 0.053 ч 0.012
с 0.045 й 0.01
р 0.04 х 0.009
в 0.038 ж 0.007
л 0.035 ю 0.006
к 0.028 ш 0.006
м 0.026 ц 0.004
д 0.025 щ 0.003
п 0.023 э 0.003
у 0.021 ф 0.002
Аналогичные принципы лежат в основе морских флажковых семафоров, где каждой букве
соответствует определенное положение рук сигнальщика. Здесь можно также вспомнить
французский семафор, изобретенный в 1830 году. Но это также как и сигнальные костры
можно считать первыми приложениями, использующими передачу данных по оптическим
каналам связи.
Позднее было создано много других типов кодов (например, код Бодо для буквопечатающих
аппаратов, ASCII или КОИ-8), в них, как правило, каждому символу или сигналу
соответствует 5-8 бит (в действительности это 5-битовые коды, использующие два регистра).
Сигналами отмечается, например, начало/конец передачи или исправление ошибки.
Характерной особенностью ранних систем было отсутствие кодов для строчных букв. В
мире много национальных алфавитов. Многие из них содержат специфические символы,
достаточно вспомнить символьные набор китайского языка (в детстве меня занимал вопрос -
как устроена китайская пишущая машинка?). Чтобы решить проблемы кодирования
национальных алфавитов был придуман уникод, где каждому символу ставится в
соответствие два октета (байта). Это позволяет расширить многообразие символов с 256 до
65536.
Тенденции в ИТ
Ряд тенденций в сфере ИТ уже сформировались. Это, прежде всего интеграция услуг:
Интернет, цифровое телевидение, телефония, электронная торговля, информационные
услуги и т.д. Развитие мобильных технологий обмена, где мобильная телефония
объединяется с Интернет и услугами абсолютного позиционирования. К этому классу можно
отнести и переход хакерства от любительства к профессионализму и сращение с
криминалитетом, разработка ведущими странами мира кибероружия (см. Eddy Schwartz,
Computer Fraud & Security. September 2010, Winning the Cyberwar of 2010, а также
http://www.caci.com/Contracts/ITES/ArcSightWhitepaperCyberWar.pdf - Cyberwar: Sabotaging
the System. Managing Network-Centric Risks and Regulations (ArcSight)). Надеюсь, что
разрабатывая кибероружие, страны позаботятся и о средствах защиты. Одним из видов
кибервойн является кибершпионаж, как экономический, так и политический. Появление
киберсредств войны отражает общую тенденцию к дистанционному нанесению ущерба
безлюдными средствами (беспилотные самолеты, ракеты и пр.)
Для целей идентификации и для платежных систем внедряется технология NFC (Near Front
Communication). Появились первые коммерческие квантовые компьютеры. Продолжаются
попытки создания искусственного интеллекта (семантические сети и машина Watson).
Мобильные устройства приближаются по вычислительной мощности и функциональности к
персональным машинам.
Начаты работы в сфере когнетивных вычислений (ЭВМ Watson, IBM). Огромные объемы
информации, накопленные в разных областях науки, могут позволить при аналитическом
сопоставлении получить знания нового уровня.
Кремниевые монокристаллы уже сегодня могут иметь диаметр 25см. можно делать чипы с
размером в несколько см (сейчас их размер ~5мм). Это может дать прирост числа элементов
на кристалле в 100 раз. Серьезных проблем с отводом тепла при этом не возникнет. В
области систем памяти пора переходить с числа бит на квадратный дюйм к числу бит в
кубическом дюйме. Но на этом пути следует ожидать больших трудностей с отводом тепла.
Рост тактовых частот процессоров замедлился и уже в 2004 году производители перешли на
многоядерную схему процессоров. Компания Tilera объявила о выпуске 100-ядерного
процессора в середине 2011 года (при тактовой частоте 1,5ГГц он сможет обеспечить
быстродействие 750×109 операций в сек, процессор не совместим с х86 и предназначен для
облачных вычислений и задач сетевой безопасности). При обмене между ядрами
обеспечивается скорость передачи 200 Тбит/с, а при обмене с памятью более 500 Гбит/c). Но
и здесь ресурсы не беспредельны – уже сегодня на кристалле около 70% поверхности
занимают проводные соединения между активными элементами, да и делать кристаллы
размером с книгу вряд ли можно считать целесообразным. Кроме того, производительность
вычислений растет в среднем пропорционально логарифму числа процессоров. Ярким
примером сложившейся ситуации может служить супер-ЭВМ рекордсмен (Япония; 10
петафлоп/c или "Титан" более 17 петафлоп/c США; энергопотребление более 8МВт; ноябрь
2012), которая занимает 800 стоек и требует для своего питания и охлаждения отдельной
электростанции (5 МВт = мощности первой АЭС в Обнинске; см. рис. 2). А это одна из
самых энергоэффективных машин на сегодняшний день (2,2 Гфлопс/Вт). Что ждать от супер-
ЭВМ следующего поколения – машина размером с небольшой город?
Быстро растет объем информации. Журнал Economist оценивает, что объем данных каждый
год увеличивается на 60%. Эта точка зрения подтверждается аналитиком компании IDC,
который предсказывает, что ‘цифровая вселенная’ достигнет 1.8 зеттабайт (1021байт) в 2011
г, на 47% по отношению к 2010 г, и превысит 7 ZB к 2015 г. 1 зеттабайт эквивалентен
содержимому 50 библиотек конгресса США. На рис. 3 показан рост информационных
объемов и доступной памяти. Зазор между потребностями и возможностями со временем
только увеличивается (200 петабайт в год). Причин здесь много. Это оцифровка библиотек и
архивов, создание разнообразных баз данных, видеозапись мониторинга (банкоматы,
эскалаторы метро, банки), частные аудио и видеотеки и т.д.
Марк Либерман оценил объем памяти, которая нужна, чтобы записать все, что было когда-
либо сказано людьми. Для этого нужно 42 зеттабайт, если оцифровка выполняется с
частотой 16 кГц с разрешением 16-бит.
Только в одном Twitter формируется почти 100 млн. коротких сообщений в сутки.
Специалисты из исследовательской компании IDC полагают, что до 2020, объемы
информации цифровой вселенной увеличится на 35 триллионов гигабайт. В 2011 объем
цифровых данных генерируемых и копируемых превысит 1.8 триллиона гигабайт – темп
роста 9 раз за пять лет. Компания Google обрабатывает более одного петабайта в час.
Современные сети Интернет объединяют в единое целое многие десятки (а может быть уже
и сотни) тысяч локальных сетей по всему миру, построенных на базе самых разных
физических и логических протоколов (Ethernet, Token Ring, ISDN, X.25, Frame Relay, ATM и
т.д.). Эти сети объединяются друг с другом с помощью последовательных каналов
(протоколы SLIP, PPP), сетей ATM, SDH (Sonet), Fibre Channel и многих других. В самих
сетях используются протоколы TCP/IP (Интернет), IPX/SPX (Novell), Appletalk, Netbios и
бесконечное множество других, признанных международными, являющихся фирменными и
т.д. Картина будет неполной, если не отметить многообразие сетевых программных
продуктов. На следующем уровне представлены разнообразные внутренние (RIP, IGRP,
OSPF) и внешние (BGP и т.д.) протоколы маршрутизации и маршрутной политики,
конфигурация сети и задание огромного числа параметров, проблемы диагностики и сетевой
безопасности. Немалую трудность может вызвать и выбор прикладных программных средств
(Netscape, MS Internet Explorer и пр.). В последнее время сети внедряются в управление
(CAN), сферу развлечений, торговлю, происходит соединение сетей Интернет и кабельного
телевидения.
Что явилось причиной стремительного роста сети Интернет? Создатели базовых протоколов
(TCP/IP) заложили в них несколько простых и эффективных принципов: инкапсуляцию
пакетов, фрагментацию/дефрагментацию сообщений и динамическую маршрутизацию
путей доставки. Именно эти идеи позволили объединить сети, базирующиеся на самых
разных операционных системах (Windows, Unix, Sunos/Solaris и пр.), использующих
различное оборудование (Ethernet, Token Ring, FDDI, ISDN, ATM, SDH и т.д.) и сделать сеть
нечувствительной к локальным отказам аппаратуры. Огромный размер современной сети
порождает ряд серьезных проблем. Любое усовершенствование протоколов должно
проводиться так, чтобы это не приводило к замене оборудования или программ во всей или
даже части сети. Достигается это за счет того, что при установлении связи стороны
автоматически выясняют сначала, какие протоколы они поддерживают, и связь реализуется
на общем для обеих сторон наиболее современном протоколе (примером может служить
использование расширения протокола SMTP - MIME). В кабельном сегменте современной
локальной сети можно обнаружить пакеты TCP/IP, IPX/SPX (Novell), Appletalk, которые
успешно сосуществуют.
Тот факт, что полтора миллиарда людей могут использовать одни и те же прикладные
программы и услуги (вспомним cloud computing), делает Интернет самым большим,
уникальным рынком товаров и услуг. В 21-ом веке информация становится одним из
основных и самых высокотехнологичных товаров (книги, фильмы, программы, музыкальные
произведения, описания технологий, сетевые развлечения и другие сервисы). Интернет
создает и новые проблемы. Так если вы покупаете коробку с ОС Windows-7, за этот товар
заплачен таможенный сбор. А если вы с помощью кредитной карты оплатите этот продукт в
США? и вам его пришлют через Интернет? Где здесь место для таможни? А если человек
написал программу и продал ее через Интернет, а ему провели оплату на его счет в Женеве,
где здесь место налоговой службы? Я не говорю об эмиссии денег через кредиты в Интернет,
ограничивающей функцию центробанка. Понятно, что без международного сотрудничества
эти проблемы решить нельзя.
Если вас интересуют оригинальные тексты протоколов Интернет, вы можете получить их,
например, по адресу http://www.rfc-editor.org/rfc-index2.html. Эти документы можно найти и в
других депозитариях.
Из этого распределения видно, что к 1979 году окончательно сформировался стек базовых
протоколов и начался экстенсивный рост сети Интернет. По мере выявления недостатков
протоколов и новых потребностей после 1989 года началась активная разработка новых
направлений и приложений в Интернет. В журнале The Internet Protocol Journal, v18, N4, p. 25
опубликована статья редактора Heather Flanagan "The RFC Series – Beyond ASCII", где
обсуждается проблема форматов для документов RFC. В начале все они были текстовыми в
формате ASCII. Потом появились версии HTML и PDF. Сейчас обсуждается возможность
использования кодировок UTF-8 и форматов на основе XML. Окончательное решение по
этому вопросу ожидается в 2016-17 годах.
Но все по порядку. Начнем с того, как устроен Интернет. На рис. 1.3 показана общая схема,
которая облегчит дальнейшее обсуждение данной проблематики (буквами R отмечены
маршрутизаторы-порты локальных сетей).
Хотя Интернет был создан как альтернатива телефонной сети (из-за ее уязвимости), нельзя
утверждать, что архитектуры типа телефонной сети в Интернет невозможны. Здесь следует
вспомнить об технике IP-туннелей, которая все чаще используется в сетях Интернет
(например, в семействе протоколов MOLS).
Широкому распространению Интернет способствует возможность интегрировать самые
разные сети, при построении которых использованы разные аппаратные и программные
принципы. Достигается это за счет того, что для подключения к Интернет не требуется
какого-либо специального оборудования (маршрутизаторы не в счет, ведь это ЭВМ, где
программа маршрутизации реализована аппаратно). Некоторые протоколы из набора TCP/IP
(ARP, SNMP) стали универсальными и используются в сетях, построенных по совершенно
иным принципам. Впрочем в последние годы стали появляться все чаще устройства, где
программные средства TCP/IP реализуются аппаратным образом.
В некотором смысле Интернет возник эволюционно - в начале был Bitnet, fidonet, usenet и
т.д. Со временем стало ясно, что конкуренция сетей должна быть заменена их объединением,
так как от этого выигрывают все и пользователи и сервис-провайдеры. Ведь объединенная
сеть имеет большие информационные ресурсы, может предложить более широкий список
услуг и становится по этой причине привлекательной для еще большего числа клиентов.
В сентябре 2014 число WEB-сайтов в мире достигло 1,022,954,603, впервые число WEB-
сайтов в мире превысило миллиард! (в ноябре 2014 заргистрировано 947,029,805 WEB-
сайтов, в декабре - 915,780,262, в феврале 2015г - 883,419,935, а в марте - 878,346,052 -
падение на 5 млн. WEB-сайтов за месяц). Если раньше наблюдался стабильный рост этого
числа, то в последние месяцы бывают и спады, что свидетельствует о наступлении периода
стабилизации. В мае 2015 получены отклики от 857,927,160 сайтов и 5,281,889 компьютеров.
Впервые на рисунке шкала имеет 10 миллиардов узлов.
В перспективе Интернет может стать и всемирной ярмаркой товаров и услуг. Ведь клиент
может не только увидеть изображение товара и ознакомиться с условиями поставки, но и в
диалоговом режиме получить ответы на интересующие его вопросы, а затем одним нажатием
на клавишу мышки сделать заказ на понравившийся ему товар или услугу. В принципе для
этого не нужен даже номер кредитной карточки, его заменит зашифрованный
соответствующим образом идентификатор пользователя (сертификат) или его IP-адрес (если
он работает на своей домашней машине, а машина имеет GPS-привязку). Таким образом,
можно будет заказывать билеты на самолет или в театр, планировать программу своего
телевизора на неделю вперед и т. д.
Теперь рассмотрим, как строятся каналы связи (стрелки на рис. 1.5). В простейшем случае
связь можно организовать через городскую коммутируемую телефонную сеть, для этого
нужны модемы - по одному на каждой из сторон канала (Рис. 1.5a). Традиционные модемы
могут обеспечить при хорошем качестве коммутируемой аналоговой телефонной сети
пропускную способность до 56 Кбит/с (кабельные широкополосные модемы при длине
соединения порядка 2км могут обеспечить 2 Мбит/с). Привлекательность такого решения
заключается в возможности подключения к любому узлу, имеющему модемный вход.
Наиболее широко указанный метод связи используется для подключения к узлам Интернет
домашних ЭВМ. Недостатком такого решения является низкая надежность канала (особенно
в России), малая пропускная способность и необходимость большого числа входных
телефонных каналов и модемов.
N=4/3×S2
где S – число строк, а 4/3 – отношение ширины кадра к его высоте (для широкоформатного
варианта отношение будет иным). Отсюда следует, что верхняя частота видеосигнала.
F=(N×K}/2=(2×S2×K)/3=6,5МГц
где K – число кадров в сек. Здесь следует немного добавить полосы для звукового
сопровождения, передачи цвета и различных служебных целей, например, для
синхронизации передатчика и приемника. Именно это определяет необходимую полосу для
каждого из телевизионных каналов, число которых может достигать уже сегодня 20-60, что
требует полосу при традиционной схеме более 130-390 мегагерц.
Частота строчной развертки при этом составляет 625×25=15,625 КГц. Несущая частота
должна быть в раз 8-10 больше 6,5 МГц, то есть превышать 48 МГц. Реально большинство
каналов работают на частотах от 100 до 900 МГц. Радиоволны в этом диапазоне не способны
огибать препятствия и по этой причине гарантируют надежный прием лишь при
непосредственной видимости между антеннами передатчика и приемника. Кривизна земли
является естественным ограничителем максимального радиуса надежного приема
телевизионного сигнала. Телевидение высокого разрешения, идущее на смену
традиционному, требует еще большей полосы и частот. На подходе также и стерео
телевидение. Телевидения стало основой и видео-телефонии. В городах телевизионный
сигнал чаще передается по оптоволоконным кабелям.
Уже более десятилетия существует система стерео телевидения с проектированием
изображения непосредственно на глазное дно человека. Эта система используется в шлемах
устройств виртуальной реальности.
Рис. 1.6. Требования к пропускной способности канала для различных видов сервиса.
Для целей идентификации и для платежных систем внедряется технология NFC (Near Front
Communication). Появились первые коммерческие квантовые компьютеры. Продолжаются
попытки создания искусственного интеллекта (семантические сети и машина Watson).
Мобильные устройства приближаются по мощности и функциональности к персональным
машинам.
Может возникнуть вопрос, зачем так много сетевых технологий? Почему не выбрать
наилучшую сетевую технологию, наилучшую ОС и не использовать их повсеместно? Ведь
такая унификация может дать существенный экономический выигрыш.
Киберугрозы и кибервойны
Компьютерные программы стали не только средством, облегчающим жизнь, но и средством
войны. Кибероружие разрабатывается во многих странах. К информационным войнам,
которым уже более 100 лет, добавились кибервойны. В 2007 году состоялась массированная
сетевая атака на Государственный департамент США, министерство экономики, обороны,
энергетики, NASA и некоторые другие правительственные структуры США. Это событие
некоторые американцы называют информационным Пирл-Харбором. По оценкам экспертов
украденный объем данных составил терабайты (сравнимо с суммарным объемом
информации в библиотеке Конгресса США). В 2010 году президент Б.Обама объявил защиту
от кибероружия приоритетной государственной задачей.
“It is now clear this cyber threat is one [of] the most serious economic and national security
challenges we face as a nation,” (Сейчас ясно, что киберугроза является одной из наиболее
серьезных экономических и национальных вызовов, с которым столкнулись мы, как нация.)
Б.Обама. См. Cyberwar: Sabotaging the System Managing Network-Centric Risks and Regulations
Представители разведки США считают, что основной угрозой для США сегодня являются
кибер атаки (James Clapper, руководитель национальной безопасности администрации
Обамы и Robert Mueller, директор ФБР).
Так как все большие сферы жизни человека и государства зависят от эффективной работы
компьютерных сетей, именно такие объекты могут стать объектами атаки террористов.
Такие атаки могут дезорганизовать работу транспорта, энергетических сетей, банковскую
систему и пр. (атаки против банков в связи со скандалом с WikiLeaks на практике показали
эффективность таких атак).
Начало января 2012 ознаменовалось серией атак хакеров на ближнем востоке. Сначала хакер
0xOmar из ОАЭ опубликовал данные более 20000 кредитных карт израильтян. 9-го января
хакеры взломали сайт зам. министра иностранных дел Израиля, обещавшего найти и
наказать 0xOmar. Затем была предпринята атака на сайты авиакомпании El Al и финансовой
биржи Тель-Авива. Кроме того была предпринята попытка проникнуть в базу данных одного
из крупных банков Израиля. Арабские сетевые партизаны получили поддержку
мусульманского проповедника Тарика Ас-Сувейдана, призвавшего начать кибер джихад
против Израиля. 10-го января последовал ответ израильских хакеров. Сначала хакер под
именем 0xOmer опубликовал данные сотен клиентов интернет-магазинов в Саудовской
Аравии. Затем хакер с именем Ганнибал 17-го января опубликовал данные 30000 (или даже
100000) арабских пользователей социальной сети Facebook. Тогда же хакеры заявили, что им
удалось нарушить работу саудовской фондовой биржи и биржи ценных бумаг Абу Даби. В
армии Израиля сформирована группа в 300 хакеров. Но осознание губительности эскалации
взаимных атак привело к тому, что в настоящее время они прекращены.
В условиях войны важно уметь надежно и быстро распознавать своего врага. Именно это
стимулирует разработчиков кибероружия сделать его невидимым (атаки нулевого дня). В
таких условиях враг становится невидимкой и по этой причине особенно опасным.
Из практики известно, что примерно 20-100 строк кода содержат по крайней мере одну
ошибку (по завершении отладки). В ядре любой операционной системы содержится 5-100
миллионов строк кода. А еще имеется оболочка и прикладные программы. Таким образом,
на любой машине работает 10-200 миллионов строк кода (дистрибутив Debian содержит
даже 350 миллионов строк кода). Это означает, что в программах, работающих на вашей
машине, присутствует до 100000 ошибочных строк кода. Вы можете сказать, моя машина
работает. Но разве вы не сталкивались с ситуациями зависания программ, из которых вы
выходили перезапустив программу или перезагрузив компьютер? Большинство таких
ошибок находятся на редко посещаемых ветвях программ или, например, в комментариях.
Основные ошибки удалены из программ при отладке. Другие - при доводке (вспомним
альфа, бета-версии программ). Число ошибок может быть минимизировано, если
разработчики следуют жестким правилам, например, Правилам Хольцмана.
Но даже при самых жестких критериях число ошибок на 1000 строк кода не равно нулю.
Именно по этой причине все шире используются codechecker'ы, которые ищут ошибки не
синтаксиса, как это делают традиционные отладчики, а алгоритма. Но даже они не
гарантируют отсутствия ошибок. Разработка программ, которые даже при наличии
ошибок, гарантируют устойчивую работу или хотя бы достаточно надежный результат -
дело будущего. А программные ошибки, например, в коде управления пассажирским
лайнером могут иметь печальные последствия. Следует также иметь в виду, что хакеры для
вторжения используют именно ошибки в кодах. Получение надежной программы сегодня
результат компромиса между трудоемкостью и безопасностью.
Что может стать следующим этапом развития ИТ? Сказать это достаточно сложно. Возможно
будут разработаны инженерные методы имплантирования знаний в мозг человека. Впрочем
нужда в этом может отпасть, если людям удастся разработать компактные средства
искусственного интеллекта высокой мощности.
Интернет вещей
Интернет вещей – глобально связанная система приборов, объектов и предметов,
базирующаяся на технологии RFID.
Термин Интернет вещей был предложен Кевином Эштоном (Kevin Ashton) в 2009 году.
Интернет вещей предполагает формирование среды, где все объекта окружающего мира - от
транспортных самолетов до авторучек имели выход в Интернет. Появляется возможность
взаимодействия людей с этими предметами, а также общения этих предметов между собой.
Согласно прогнозам компании ABI Research более 30 млрд. устройств будут беспроводным
способом подключены к Интернету вещей к 2020 году.
В сетевом журнале InfoWorld появилась заметка, где утверждается, что Интернет вещей еще
не будет масштабно работать в 2014 году (см. "The Internet of things will not arrive in 2014",
Bill Snyder, InfoWorld, December 12, 2013). Это объясняется нерешенностью проблем
безопасности, питания и управления сетью. Предполагается, что Интернет вещей будет
способствовать росту энергопотребления в мире. В этой среде каждый пользователь станет
администратором, что не будет способствовать ее безопасности.
Окружающий мир быстро изменяется, он стал тотально связанным, см. "Realising the
benefits of a totally connected world", Cliff Saran. Появляется Интернет вещей, который еще
более изменит среду жизни. Контроллеры управления отоплением жилых помещений (200
фунтов стерлингов) уже поступили в продажу. Компания Ксерокс разработала систему
автоматизации управления городским трафиком в Лос Анжелесе (7000 датчиков). Эта
система контролирует даже занятость парковочных мест и динамически меняет расценки за
парковку. Революционные преобразования ждут систему управления аэропортами и доками
(Лондон). Компания Coca-Cola надеется с помощью этой технологии лучше учитывать вкусы
потребителей для своих питейных автоматов.
Передача данных уже на самых ранних этапах использовала цифровые подходы (например,
коды Бодо). Понятно, что, когда информация предназначена непосредственно для человека,
она должна быть соответствующим образом преобразована. Это, прежде всего, относится к
передаче голоса. По каналам связи передаются, как правило, модулированные сигналы.
Несущая частота передачи, например, при трансляции по радиоканалу на порядки
превосходит частоты голосового сигнала. Модуляция позволяет решить проблему
согласования частот. Но следует иметь в виду, что модуляция используется не только в
радиоканалах. Современные цифровые методы передачи также немыслимы без применения
модуляции.
Преобразование частот
Для преобразования частот используется перемножение сигналов. Пусть мы имеем два
синусоидальных сигнала:
Это означает, что в результате перемножения вместо двух частот f1= и f2= мы
имеем две новые частоты ( и ( с амплитудой 1/2*A1*A2. Если входной
сигнал имеет полосу 0 - fм, то после перемножения с сигналом, имеющим частоту fн (несущая
частота), получим сигнал с полосой в интервале от (fн - fм) до (fн+fм). Это преобразование
проиллюстрировано на рис. 2.1. (по вертикальной оси отложена спектральная плотность
сигнала f(j )). На практике это преобразование выполняется с помощью смесителей или
гетеродинов, частота fн называется сигналом гетеродина или несущей.
Если имеется N субъектов, которые хотят осуществлять обмен информацией в одном и том
же частотном диапазоне, они должны осуществлять обмен по очереди (метод
мультиплексирования по времени - TDM) или передаваемые ими сигналы должны
отличаться каким-то еще параметром помимо частоты (например, амплитудой или
направлением излучения). Если это условие не выполнено, весьма вероятно искажение
данных при доставке. Вы наверняка сталкивались с этим, когда за столом пытаются говорить
сразу несколько человек.
[2.1]
где F - полоса пропускания канала в Гц, а V - число дискретных уровней сигнала на выходе
цифрового преобразователя. Суть теоремы Найквиста-Котельникова заключается в том, что
при полосе сигнала F частота стробирования должна быть больше 2F, чтобы принимающая
сторона могла корректно восстановить форму исходного сигнала. По этой причине для
стандартного телефонного канала с полосой F=3кГц, при отсутствии шумов и при V=2
нельзя получить скорость передачи более 6кбит/с. Здесь нет противоречия с теоремой
Шеннона. Ведь в отсутствие шумов значение V не будет иметь ограничения сверху! Здесь не
имеется в виду, что максимальная амплитуда сигнала может достигнуть киловольтов.
Согласитесь, телефонных абонентов такая перспектива вряд ли бы порадовала. Но в
отсутствии шумов можно и в пределах одного вольта представить себе любое число уровней
сигнала. Фактически теорема Шеннона проясняет то, как уровень шумов ограничивает
предельное значение V при заданной максимальной амплитуде сигнала.
По этой причине еще висящие кое-где телеграфные провода обречены. Надо заметить, что и
медные телефонные провода, закопанные в земле, ждет та же участь. Предстоит выкопать
миллионы тонн медных кабелей (похоже, российские бомжи уже начали эту работу).
Медные провода будут заменены оптоволоконными волноводами.
История теоремы Найквиста поучительна. В России считается, что эту теорему на несколько
лет раньше доказал Котельников, но из соображений секретности ему ее не разрешили
опубликовать. В СССР этим преимуществом никто не воспользовался, но приоритет был для
нашей страны утрачен и во всем остальном мире эта теорема заслуженно носит имя
Найквиста. Это хороший пример вреда, наносимого системой секретности в науке.
Следует иметь в виду, что реальная пропускная способность для конкретного пользователя
определяется не только полосой пропускания канала, но и загруженностью его трафиком
других клиентов. Ведь и пропускная способность автомобильной магистрали зависит не
только от числа полос, но и загруженности автомобилями.
Стандартные проводные линии связи имеют ослабление 6 дБ/км на частоте 800 Гц, или 10
дБ/км на частоте 1600 Гц. С самого начала развития телефонии проводная система и
оборудование проектировалось исходя из возможностей человеческого уха и голосового
аппарата. По этой причине все традиционные системы телефонии имели полосу пропускания
3-3,5КГц. На рис. 2.1.1 показана зависимость ослабления от частоты передаваемого сигнала
для медной линии с сечением 0,5 мм.
Рис. 2.1.1. Зависимость ослабления сигнала в медной линии сечением 0,5мм от частоты
Из формулы [2.1] видно, что расширять пропускную способность канала можно за счет
широкополосности и высокого отношения сигнал-шум. Существует много источников шума,
один из главных тепловые шумы (N = kTB, где T – температура в градусах Кельвина, B –
полоса пропускания приемника, а k – постоянная Больцмана). На практике существенно
большее влияние оказывают различного рода наводки. Увеличeние пропускной способности
сети достигается путем сокращения длины кабеля (уменьшение расстояния между узлами
сети), заменой типа кабеля, например, на провод с большим сечением, или применив
оптоволоконный кабель. Определенный эффект может быть получен и с помощью
усовершенствованной системы шумоподавления (новый, более эффективный модем).
Рис. 2.1.2. Зависимость волнового импеданса скрученной пары и фазы (сечение 0,5мм) от
частоты
Источник сигнала и приемник находятся по одну сторону кабеля (NEXT - near end
crosstalk);
Приемник и источник находятся на разных концах кабеля (FEXT - far end crosstalk).
NEXT-наводки при большом числе пар проводов в кабеле подчиняются закону f1.5 , а их
уровень составляет около 55 дБ при частоте 100 кГц. FEXT-наводки сильно зависят от схемы
коммутации и разводки проводов и обычно менее опасны, чем NEXT. Еще одним
источников наводок является импульсный шум внешних электромагнитных переходных
процессов. Этот вид наводок обычно характеризуется процентом времени, в течении
которого его уровень превышает порог чувствительности, и варьируется в зависимости от
обстоятельств в очень широких пределах.
При передаче по линии сигналы модулируются, при этом важно обеспечить сохранение
среднего уровня сигнала (постоянной составляющей). Определенные искажения сигнала
вносит сам кабель. Заметное влияние на характер искажений оказывает межсимвольная
интерференция (ISI - Intersymbol Interference). Эта интерференция возникает из-за
расплывания импульсов в процессе их передачи по линии и наезжания их друг на друга.
Проблема усложняется тем, что характеристики передающей линии могут меняться со
временем (коммутаторы и маршрутизаторы). По этой причине очень важно обеспечить
идентичность условий передачи различных частот при наличии таких вариаций. Для
решения этой задачи используются линейные эквилайзеры (рис. 2.1.3 и 2.1.4), которые
выполняют эту операцию во всем спектре частот, или после стробирования для реального
спектра сигнала. Этот метод чувствителен к шумам в системе. Эквилайзеры с решающей
обратной связью (DFE - Decision Feedback Equalizer) не чувствительны к шумам, они
управляются принятой информацией. Но влияние ошибок при приеме информации в этом
случае может быть усилено.
Обычно двухпроводная линия (тем более 4-х проводная) используется для одновременного
двухстороннего обмена (full duplex). Эта задача может быть решена схемотехнически
мультиплексированием по времени (TDD - Time Division Duplex) или частоте (FDD -
Frequency Division Duplex). TDD довольно легко реализовать, этот метод не требует сложных
фильтров и эквилайзеров. Метод TDD привлекателен при малых длинах кабеля для
коммутируемых телефонных сетей.
Эхоподавление
Рис. 2.1.5. Схема эхо-компенсации
Более широко для реализации двухстороннего обмена по одной паре проводов используется
метод эхо-компенсации. Этот метод предполагает вычитание передаваемого сигнала из
принимаемого, определяя тем самым истинную форму входного сигнала. Если на
приведенном рисунке 2.1.5 Zвх равно волновому сопротивлению линии, то выходной сигнал
передатчика не будет влиять на работу приемника. Здесь предполагается, что выходное
сопротивление передатчика много меньше z= zлинии. Учитывая вариации ослабления сигнала,
схема эхо-компенсации должна уметь работать в очень широком динамическом диапазоне
амплитуд, сохраняя удовлетворительную линейность. Это обстоятельство, а также
зависимость zлинии от частоты, приводит к заметному усложнению схем эхо-компенсации
(Рис. 2.1.6). Системы эхо-компенсации весьма чувствительны к временному разбросу
срабатывания пороговых схем, так как это приводит к фазовому сдвигу вычитаемых друг из
друга сигналов.
Любой транзистор или тем более полупроводниковый ключ имеет сравнимую с этим
временем задержку передачи сигнала. Как же тогда достигается такое быстродействие?
Во весь рост эта проблема встала уже перед разработчиками магистральных многоканальных
(до 1000 и более) переключателей сетей АТМ. Там, хотя тактовая скорость всего 150 Мбит/c,
система должна принимать решение за время меньше одной наносекунды, так как ячейки
могут приходить через все входы одновременно, поднимая загрузку центрального
коммутатора в 1000 и более раз. Можете себе представить масштаб проблемы для 1000-
канальных ATM-коммутаторов, работающих при рабочих частотах 622 Мбит/с?
Весьма важной темой при построении сетей является оптимизация их топологии. Эта
проблема решается марштутизацией пакетов или потоков. В одних сетях выбор маршрута
обмена определяется на фазе формирования виртуального соединения (X.25, ISDN, ATM,
Frame Relay и т.д.), в других, например в Интернет (TCP/IP), маршрут выбирается
динамически и может быть изменен в ходе сессии, если текущий путь окажется недоступен
или, если откроется возможность движения по более короткому пути.
UP: 2 Преобразование, кодировка и передача информации
Игорь Губерман
Шумы определяют емкость канала и задают частоту ошибок при передаче цифровых
данных. Шум по своей природе нестабилен и можно говорить лишь о том, что его величина с
некоторой вероятностью лежит в определенном интервале значений. Плотность вероятности
p(x) определяет вероятность того, что случайный сигнал X имеет значение амплитуды в
интервале между x и x+x. При этом вероятность того, что значение х лежит в интервале
между x1 и x2 определяется равенством:
меньше некоторой величины y равна , откуда следует, что P{x1 <="" x2} = P(x2) – P{x1}, а
Так называемый белый шум подчиняется непрерывному нормальному (Гауссову) распределению , где а – среднее
значение x, а σ – среднеквадратичное отклонение х от a. В случае шумов среднее значение х с учетом полярности часто принимает нулевое значение (а=0).
В этом случае, если мы хотим знать вероятность того, что амплитуда шумового сигнала лежит в пределах v, то можно воспользоваться выражением
Для вычисления P{x1<x<-x1} обычно используются равенства
Распределение P(x) обычно называется функцией ошибок (erf(x) = -erf(-x)). Полезной с практической точки зрения является вероятность
P{-k σs}=Pk(kσ) = , которая позволяет оценить возможность того, что шумовой сигнал превысит некоторый порог, заданный значением k.
Как уже говорилось, во многих случаях шум имеет гауссово распределение с нулевым средним значением амплитуды. В этих случаях среднее значение
мощности шумового сигнала равно вариации функции плотности вероятности. В этом случае отношение сигнал-шум будет равно:
2
. Если шум носит чисто тепловой характер, то σ =kTB, где k - постоянная Больцмана, Т - абсолютная
2
температура, а B - полоса сигнала на входе приемника. В общем случае σ = EnB [Вт], где полоса B измеряется в Гц, En - энергия шума.
Если сигнал стационарный, можно принудительно понижать B, путем усреднения или фильтрации. Самый доступный метод уменьшения уровня шумов -
снижение температуры T. В каждом конкретном случае нужно учитывать, что помимо тепловых существуют и другие виды шумов (фликкер, межгалактический
и пр.). Но тепловой шум обычно превалирует.
Шум определяет вероятность ошибки при передаче сообщения по каналу связи и, в конечном итоге, пропускную способность канала (см. теорему Шеннона;
раздел 2.1 Передача сигналов по линиям связи ).
Высокую надежность. Если шум ниже входного порога, его влияние не ощущается,
возможна повторная посылка кода.
Отсутствие зависимости от источника информации (звук, изображение или
цифровые данные).
Возможность шифрования, что повышает безопасность передачи.
Независимость от времени. Можно передавать не тогда, когда информация
возникла, а когда готов канал.
На практике число нулей или единиц следующих подряд не лимитировано. По этой причине
на принимающей стороне при этом рано или поздно возникает проблема синхронизации
временных шкал передатчика и приемника. Для решения этой проблемы существует два
метода передачи данных: синхронный и асинхронный. Асинхронный метод используется
для относительно низкоскоростных каналов передачи и автономного оборудования.
Синхронный метод применяется в скоростных каналах и базируется на пересылке
синхронизующего тактового сигнала по отдельному каналу или путем совмещения его с
передаваемыми данными. При наличии синхронизации приемника и передатчика можно
допустить более длинные последовательности нулей или единиц, что способствует
повышению пропускной способности. На рис. 2.2.2 показана схема канала, использующая
технику импульсно-кодовой модуляции. Импульсно-кодовая модуляция (ИКМ) была
предложена в 30-ые годы 20-го века, но реализована лишь в 1962 году.
Шаг квантования в АЦП должен быть много меньше диапазона вариации входного сигнала.
Число уровней квантования n выбирается из соображений минимизации искажений сигнала
и повышения уровня s/n. При разумных предположениях (биполярность сигнала (+V -V),
однородность распределения уровня сигнала в рабочем диапазоне, ошибка квантования не
более S/2, где S шаг квантования, и т.д.) [S/N]db = 10 log10(22n) = 6n (N - шум квантования при
этом равен S2/12). Это означает, что при 2n уровнях квантования и при условии, что входной
сигнал может варьироваться во всем рабочем диапазоне АЦП, отношение сигнал-шум (S/N),
связанное с самим процессом квантования, будет равно 6n при n=8 это составит 48 дБ).
Отсюда следует известное значение относительного расстояния между уровнями
квантования, равное 6 дБ. Звуковой сигнал может иметь динамический диапазон 40 дБ, что
создает определенные проблемы, которые преодолеваются путем прямого и обратного
логарифмического преобразования (см. рис. 2.4.1).
Асинхронный режим
Типичный кадр данных в асинхронном канале начинается со стартового бита, за которым
следует 8 битов данных. Завершается такой кадр одним или двумя стоп-битами. Стартовый
бит имеет полярность противоположную пассивному состоянию линии и переводит
приемник в активное состояние. Пример передачи такого кадра показан на рис. 2.2.3.
Манчестерский код
Рис. 2.2.6. Кодирование сигнала с использованием манчестерского кода.
По этой причине система кодирования AMI была модифицирована в HDB3 (High Density
Bipolar 3). Цифра 3 указывает на максимально возможное число последовательных нулей в
кодовой последовательности. AMI требует, чтобы <1> передавались попеременно сигналами
противоположной полярности, так последовательность 11011 должна быть передана как +-
0+-. HDB3 заменяет любую группу из 4 нулей последовательностью из 3 нулей, за которой
следует нарушение последовательности отображения единиц. Таким образом,
последовательность 11000001 будет отображена как +-000-0+ (возможен инверсный вариант,
когда символы + заменяются на - и наоборот). Дальнейшего улучшения балансировки
сигнала можно достичь, если заменить код, содержащий 4 нуля подряд,
последовательностью b00v (b - обычный биполярный сигнал, v - нарушение
последовательности). В США используют схему кодировки B8ZS (Bipolar with 8 Zeros
Substitution), где 8 нулей кодируются как 00b0vb0v. В 1986 году ansi принял решение о
введение схемы кодирования 2B1Q (2 Binary into 1 Quaternary). При этой схеме каждая пара
бит преобразуется в четверичные элементы +3 +1 -1 -3. Код синхронизации (SW -
Synchronization Word) при этом содержит 9 четверичных элементов, повторяющихся каждые
1.5 мс:
Таблица 2.2.1.
Название
Расшифровка Описание
метода
Один бит исходной последовательности кодируется
1B2B
комбинацией из 2 бит половинной длительности
B3ZS bipolar with
Биполярный код с заменой 000/000000/00000000 на
B6ZS 3/6/8 zero
последовательности 00v/0vb0vb/000vb0vb (или b0v для B3ZS)
B8ZS substitution
HDB2 (/3) High density Биполярный код высокой плотности второго (третьего) порядка.
bipolar code of Эквивалентен коду с возвратом к нулю (RZ) и с инверсией для
order 2 (/3) логических 1. Последовательность 000 (соответственно 0000)
заменяется на 00v или b0v (соответственно 000v или b00v).
Число b сигналов между v-сигналами всегда нечетно. В
результате возникает трехуровневый код.
Двухуровневый двоичный код (класса 1B2B) без возвращения к
нулю. Используется инверсия полярности для каждой
coded mark
CMI логической 1 (единице ставится в соответствие 11 или 00), а для
inversion
каждого логического нуля вводится смена полярности в
середине интервала.
Кадр содержит 120 пар бит (quats), что соответствует 240 бит, 8 кадров образуют
мультифрэйм. Первый кадр мультифрэйма выделяется путем посылки Inverted
Synchronization Word (ISW). В конце каждого кадра всегда присутствуют специальные биты,
которые служат для целей управления (бит активации, бит холодного старта, биты состояния
питания, биты управления синхронизацией и т.д.). Структура кадра выглядит следующим
образом:
Такая схема при числе входных и выходных каналов равном N=1000 требует миллиона
элементарных переключателей. Можно рассмотреть вариант, когда используются
коммутаторы с n входами и k выходами. Схема коммутатора с N=16, n=4 и k=2 показана на
рис. 2.2.9. Число элементарных переключателей в таком коммутаторе М равно:
M = 2kN + k(N/n)2
Рис. 2.3.1. Структура кадров для американского (вверху) и европейского (внизу) стандартов
передачи данных
Скорости передачи 1,544 (кодирование B8ZS) и 2,048 Мбит/с (HDB3) называются
первичными скоростями. Кадры структурированы так, что временные домены (таймдомен на
рис. 2.3.1) для передачи данных по каналам B1 и B2 чередуются. В Европе используется
2048Мбит/с интерфейс. Каждый 6-ой кадр используется для сигнальных целей. Количество
временных доменов в кадре определяет число телефонных разговоров, которые могут
осуществляться одновременно. Для американского стандарта это число равно 24, а для
европейского 30 (в последнем случае учтено то, что часть доменов используется в
служебных целях).
А- и мю-преобразования
Адаптивные преобразователи голоса в код
Стандарт MUSICAM
Телефонные сети
А- и мю-преобразования
y ~ log(1 +x) (так называемая -зависимость [-law])
В Европе используется функция преобразования вида:
y ~ ax в области значений x вблизи нуля и
y ~ 1 + log(Ax) при “больших” значениях x (A-зависимость [a-law], см. рис. 2.4.1)
Для компактных музыкальных дисков (CD) характерна полоса 50Гц - 20 кГц, обычная же
речь соответствует полосе 50 Гц - 7 кГц. Только звуки типа Ф или С имеют заметные
составляющие в высокочастотной части звукового спектра. Для высококачественной
передачи речи используется субдиапазонный ADPCM-преобразователь (Adaptive Differential
Pulse Code Modulation). В нем звук сначала стробируется с частотой 16 кГц, производится
преобразование в цифровой код с разрешением не менее 14 бит, а затем подается на
квадратурный зеркальный фильтр (qmf), который разделяет сигнал на два субдиапазона
(50Гц-4кГц и 4кГц-7кГц). Диапазоны этих фильтров перекрываются в области 4кГц.
Нижнему диапазону ставится в соответствие 6 бит (48кбит/с), а верхнему 2 бита (16 Кбит/с).
Выходы этих фильтров мультиплексируются, формируя 64 кбит/с -поток.
Стандарт MUSICAM
На CD используется 16-битное кодирование с частотой стробирования 44,1 кГц, что создает
информационный поток 705 Кбит/c. Для стерео сигнала этот поток может удвоиться.
Практически это не так - сигналы в стереоканалах сильно коррелированы, и можно
кодировать и передавать лишь их разницу, на практике высокочастотные сигналы каналов
суммируются, для различия каналов передается код их относительной интенсивности.
Исследования показывают, что для акустического восприятия тонкие спектральные детали
важны лишь в окрестности 2 кГц. Для передачи звуковой информации с учетом этих
факторов был разработан стандарт MUSICAM (Masking pattern Universal Sub-band Integrated
Coding and Multiplexing), который согласуется с ISO MPEG (Moving Picture Expert Group;
стандарт ISO 11172). При кодировании музыкальных произведений не всякие комбинации
звуков возможны (они воспринимались бы как неблагозвучные). Это является базой для
дополнительного сжатия музыкальных данных. C точки зрения энтропии одной ноте
соответствует <3 бита. Анологичное утверждение справедливо и для передачи человеческого
голоса, только здесь вместо нот следует рассматривать фонемы. При разговоре за счет
вариации скорости произношения информационный поток может варьироваться до 5 раз.
MUSICAM развивает идеологию деления звукового диапазона на субдиапазоны, здесь 20кГц
делится на 32 равных интервалов. Логарифмическая чувствительность человеческого уха и
эффект маскирования позволяет уменьшить число разрядов кодирования. Эффект
маскирования связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо
нечувствительно к малым амплитудам близких частот. Причем чем ближе частота к частоте
маскирующего сигнала, тем сильнее этот эффект (см. рис. 2.4.4). Сплошной линией на
рисунке показана нормальная зависимость порога чувствительности уха, а пунктиром -
зависимость порога чувствительности в присутствии 500-герцного тона с амплитудой в 110
дБ.
Рис. 2.4.4. Изменение порога чувствительности человеческого уха под влиянием эффекта
маскирования.
Телефонные сети
Люди, работающие на ЭВМ дома, часто подсоединяются к Интернету посредством модема
через коммутируемую телефонную сеть с привлечением протоколов SLIP или PPP. Схема
подключения показана на рис. 2.17.
Быстродействие
Линия OC-x Число аудио каналов STM-x
Мбит/с
1 51,84 672 -
3 155,52 2016 1
9 466,56 6048 3
12 622.08 8064 4
24 1244,16 16128 8
48 2488,32 32256 6
6 976,64 4512 2
92 953,28 29024 4
2.4.1 Дельта-модуляция
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)
Если скорость нарастания входного сигнала велика, то уровень на выходе ЦАП будет
отставать и сможет нагнать In(t) только, когда входной сигнал начнет уменьшаться. Данный
метод не является разумной альтернативой PCM. Для улучшения характеристик дельта-
преобразователя реверсивный счетчик можно заменить цифровым процессором, при этом
шаг S становится переменным, но кратным некоторому базовому значению.
Существуют много других способов кодирования человеческого голоса, среди них наиболее
эффективный реализован в приборах, носящих название - вокодер (VOCODER).
Несколько лет назад появился новый вид услуг в Интернет - голосовая связь (IP-phone,
Vocaltec, Skype). Сегодня имеется 30 миллионов абонентов, регулярно пользующихся IP-
phone и его аналогами, ожидается до 200 миллионов до конца текущего десятилетия,
качество передачи постепенно приближается к уровню цифровой телефонии.
Среди пользователей есть те, для кого это лишь возможность общения, как для
радиолюбителей; но все больше людей использует IP-phone для деловых контактов или даже
как объект бизнеса.
Таблица 2.4.3.1.
ftp://cs.ucl.ac.uk/mice/videoconference
http://www.pulver.com/netwatch
http://www.planeteers.com
http://www.newparadigm.com
http://www.vocaltec.com
http://www.itelco.com
http://www.quarterdeck.com
Е(фонемы) =Е(буквы) × n
где n - среднее число букв, приходящихся на одну фонему (средняя длина фонемы в буквах).
Для английского языка n≈1,2.
Связь может осуществляться как с традиционной старой аналоговой телефонной сетью, так и
с ISDN. Телефонные аппараты могут подключаться непосредственно к интерфейсу
маршрутизатора, к сетевой рабочей станции или к специальному сетевому адаптеру.
Стек протоколов Н.323 представлен в таблице ниже (Э.Танненбаум, Компьютерные сети, 4-е
издание, стр. 776).
Речь Управление
G.7xx Q.931 H.245
H.225
RTCP (Сигналы при (Управление
RTP (RAS)
вызове) вызовами)
UDP TCP
Протокол передачи данных
Протокол физического уровня
JPEG
MPEG-1 и -2
Интерактивное телевидение
MPEG-4
MPEG-7
MPEG-21
Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на
каждую из трех цветовых компонент). Самое интересное, что человеческий глаз не способен
различить такое число оттенков! Таким образом, для описания картинки на экране,
содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой
информации по B-каналу ISDN, если не используется сжатие данных, потребуется около 2,5
минут. Эта цифра помогает понять актуальность проблемы сжатия графической
информации. XGA-стандарт дисплея (1024×768 × 24 бита на пиксел при 24 кадрах/сек)
требует потока цифровых данных 453 Мбит/с.
При передаче чисто текстовой информации электронная почта имеет по этой причине
абсолютное преимущество перед факсом, ведь в случае факса передается отсканированное
черно-белое изображение. В перспективе можно ожидать внедрения обязательного сжатия
информации при передаче почтовых сообщений с последующей дешифровкой данных
принимающей стороной. Первым шагом на этом пути является внедрение системы MIME.
Такое усовершенствование электронной почты сделает ее еще более грозным конкурентом
факс-машин. Ведь передача графических образов уже не является монополией
факсимильных систем, а возможность шифрования почтовых сообщений (например, в PGP)
и электронные подписи делает электронную почту более устойчивой в отношении перехвата.
Стандарт JPEG (Joint Photographic Expert Group) имеет четыре режима и много опций. Схема
работы алгоритма JPEG с частичной потерей данных показана на рис. 2.5.3. Коэффициент
сжатия данных составляет 20:1 или даже больше.
В 1970 году в Бритиш Телеком были разработаны основные принципы еще одного вида
передачи графической информации - телетекста, первые опыты по его внедрению относятся
к 1979 году. Стандарт на мозаичное представление символов был принят CEPT в 1983 году.
Каждому символу ставится в соответствие код длиной в 7-8 бит. На экране такой символ
отображается с помощью специального знакового генератора, использующего таблицу.
Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на
каждую из трех цветовых компонент). Таким образом, для описания картинки на экране,
содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой
информации по B-каналу ISDN, если не используется сжатие, потребуется около 2,5 минут.
Эта цифра помогает понять актуальность проблемы сжатия графической информации. Таким
образом, чтобы выдержать конкуренцию со стороны электронной почты разработчикам
факс-систем нужно упорно работать.
[2.5.1]
где v - горизонтальная координата графического блока, u - вертикальная, x - вертикальная
координата внутри блока, а y - горизонтальная координата внутри блока, C(u), C(v) = 1/
для u,v = 0 и С(u), С(v) = 1 в противном случае. Два члена в квадратных скобках являются
ядрами преобразования, показанными ниже на рис. 2.5.4, а p(x,y) представляет собой
пиксельные данные блока реального рисунка. Начало координат в обоих случаях в верхнем
левом углу. Процесс кодирования сводится к разбиению изображения на блоки 8*8 пикселей
и выполнению процедуры двухмерного DCT для каждого из этих блоков. Полученные
коэффициенты преобразования дискретизируются. 64 числа, характеризующие уровень
сигнала, превращаются в 64 коэффициента преобразования (амплитуды пространственных
частот), которые хорошо поддаются процедуре сжатия. Дискретизатор округляет
коэффициенты, эта процедура вносит некоторые ошибки, но обратное преобразование на
принимающей стороне за счет усреднения частично устраняет вносимые искажения. На
практике дискретизатор реализует несколько более сложный алгоритм.
DCT обеспечивает сжатие на уровне 0.5-1.0 бит/пиксель при хорошем качестве изображения.
Сжатие требует времени, а максимально приемлемым временем задержки при пересылке
изображения является 5 секунд. На рис. 2.5.5 приведена качественная оценка четкости и
соответствия оригиналу изображения в зависимости от величины сжатия (DCT). Если
использовать скорость обмена 64 кбит/с, то степени сжатия 0,01 бита на пиксель будет
соответствовать время передачи изображения 0,04 секунды, а сжатию 10 - время передачи
40сек.
Рис. 2.5.5. Качество DCT-изображения для различных значений сжатия информации
(картинка имеет разрешение 512*512 пикселей; заполненные квадратики соответствуют
цветному изображению, а незаполненные - черно-белому)
Все системы сжатия требуют наличия двух алгоритмов: один для сжатия данных
отправителем, другой для восстановления получателем. Эти алгоритмы принципиально
асимметричны. Во-первых, для многих приложений мультимедийный документ, например,
фильм может быть сжат один раз (при записи на сервер или DVD-диск), а декодироваться
тысячи раз на стороне клиентов. По этой причине процедура сжатия может быть достаточно
сложной, дорогой и долгой. Алгоритм же декодирования должен быть достаточно простым и
дешевым. Впрочем, в случае видеоконференций медленное кодирование (сжатие)
совершенно неприемлемо. По этой причине алгоритмы сжатия данных в реальном масштабе
времени принципиально отличаются от алгоритмов кодирования данных при записи на
видео или DVD.
314159260000000000000271828182811111111110707193800000002001
31415926R0132718281828R11007071938R072001
a. снижение числа строк до 288 (формат 625 строк) для отображения яркости;
b. использование максимально возможного сжатия графических данных;
c. повышение пропускной способности канала. Для разрешение по горизонтали вполне
достаточно 3 Мгц. Рекомендация 601 требует 720 пикселей для яркости и 360 для
каждой из составляющих цветов. В настоящее время используется стандарт CIF
(Common Intermediate Format). Для некоторых приложений рекомендовано вдвое
более низкое разрешение по каждой из осей (quarter CIF). PCM-кодирование CIF с 8
битами на пиксель требует 352х288х(1+1/4+1/4)х29.97х8 = 36.5 Мбит/с.
Проблема сжатия информации была, есть и всегда будет актуальной. При известных
современных методах, чем больше эффективность сжатия - больше задержка (наилучший
результат можно получить, используя сжатие всего фильма, чем кадра или тем более
строки). В каждом конкретном случае выбирается то или иное компромиссное решение. При
работе в реальном масштабе времени, где в процессе обмена участвует человек, задержки
более секунды вызывают раздражение, и приходится ограничиваться сравнительно
скромными коэффициентами сжатия.
Ядро всей структуры составляет процедура передачи кадра (внутренний слой, существуют
еще слои GoB, MB и блока, см. рис. 2.5.7, 2.5.8, 2.5.9)
GBSC - (Group of Blocks Start Code) представляет собой 16-разрядное слово, за которым
следует 4 бита номера GoB (GN - GoB number). GN указывает, какой части изображения
соответствует данный GoB. Поле gquant имеет 5 бит и указывает на номер преобразователя
(одного из 31 дискретизаторов), который используется данным GoB. Смысл GEI идентичен
PEI. GEI и GSpare позволяют сформировать структуру данных, идентичную той, что
используется на уровне кадра.
Формат пересылки mb сложнее (см. [17]). Каждый GoB делится на 33 макроблока (MB),
каждый из которых соответствует 16 строкам по 16 пикселей Y (четыре блока 8*8) и CB и CR.
Каждый макроблок начинается с его адреса MBA (MacroBlock Address), имеющего
переменную длину и определяющего положение макроблока в GoB.
Рис. 2.5.8. Блок-схема кодирования и передачи изображения
Сама природа алгоритма кодирования и передачи графических данных такова, что число бит
передаваемых в единицу времени зависит от характера изображения. Чем динамичнее
изменяется картинка, тем больше поток данных. Для выравнивания потока данных широко
используется буферизация. Буферизация в свою очередь порождает дополнительные
задержки, которые в случае видео-конференций или видео-телефонии не должны превышать
нескольких сотен миллисекунд.
Так как при передаче изображения широко используются коды переменной длины, она
крайне уязвима для любых искажений. В случае ошибки будет испорчена вся информация
вплоть до следующего стартового кода GoB. Из-за рекурсивности алгоритма формирования
картинки, искажения будут оставаться на экране довольно долго. Использование векторов
перемещения может привести к дрейфу искажений по экрану и расширению их области. Для
того чтобы уменьшить последствия искажений, в передаваемый информационный поток
включаются коды коррекции ошибок BCH (511,493; Forward Error Correction Code), которые
позволяют исправить любые две ошибки или кластер, содержащий до 6 ошибок в блоке из
511 бит (см. рис. 2.5.10). Алгоритм работает в широком диапазоне скоростей передачи
информации. Для реализации коррекции ошибок в поток двоичных данных включается 8
пакетов, каждый из которых включает в себя 1 кадровый бит, 1 бит индикатор заполнения,
492 бита кодированных данных и 18 бит четности. Поле Fi (индикатор заполнения) может
равняться нулю, тогда последующие 492 бита не являются графической информацией и
могут игнорироваться. Алгоритм предназначен для работы в динамическом диапазоне частот
40:1.
Рис. 2.5.10. Схема передачи данных с коррекцией ошибок
При работе с каналами на 384, 1536 и 1920 Кбит/с сервисный канал использует тайм-слот 1.
Следующие 8 бит имеют название BAS (Bit Allocation Signal) и выполняют следующие
функции:
Очевидно, что BAS-коды (H.242) должны быть надежно защищены от ошибок. Для этой
цели они пересылаются с использованием кодов, допускающих коррекцию ошибок. При
работе оба приемника непрерывно ищут разделительный код кадров. Когда он обнаружен,
бит А для выходного канала делается равным нулю. Только после получения А=0 терминал
может быть уверен в том, что удаленный терминал правильно воспринял код BAS. Работа с
кодами BAS описана в документе H.242. При установлении режима обмена терминалы
обмениваются командами BAS. Команда действительна для последующих двух кадров,
следовательно, при частоте кадров 100 Гц, изменения режима могут производиться каждые
20 мс.
Рисунок известного французского художника Клода Серрэ из книги “Черный юмор и люди в
белом” (см. начало раздела) может служить иллюстрацией того, к чему может привести
использование протокола TCP при передаче изображения в реальном масштабе времени.
Предположим, что в процессе передачи изображения носа пакеты были повреждены, тогда
спустя некоторое время, определяемое размером окна (TCP), будет проведена повторная их
передача. Тем временем переданные ранее пакеты будут использованы для построения
изображения, а часть картинки, содержавшаяся в пакетах, посланных вместо поврежденных,
будет отображена совсем не там, где это следует. Реально из-за повреждения пакетов
возможны в этой версии и более тяжелые искажения изображения. Именно это является
причиной использования UDP для передачи видео и аудио информации при видео и аудио
конференциях (еще лучшего результата можно достичь, использую протокол RTP).
Протокол UDP не требует подтверждения и повторной передачи при ошибке доставки.
Поврежденные пакеты вызовут искажения изображения (или звука) лишь локально.
Стандарт MPEG-1 и -2
Стандарт MPEG 1 (ISO 11172; см. http://www.chiariglione.org/mpeg/standards /mpeg-1/mpeg-
1.htm) определяет методы сжатия данных, позволяющие довести скорости передачи видео- и
аудио информации до 1,5 Мбит/с, что соответствует скоростям обмена обычных CD-ROM.
Стандарт MPEG-2 содержит в себе 9 частей. Первые три стали международными
стандартами MPEG-2. (см. http://www.chiariglione.org/mpeg/ standards/ mpeg-2/mpeg-2.htm;
ISO/IEC JTC1/SC29/WG11).
Часть 1 MPEG-2 относится к объединению одного или более элементарных аудио или видео
потоков, а также прочих данных в один или несколько потоков, удобных для записи или
передачи.
Транспортный поток объединяет один или более потоков PES с общей или разными
временными шкалами. Элементарные потоки с общей временной шкалой образуют
программу. Транспортный поток формируется для использования в относительно
ненадежной среде, где вероятны ошибки, например память или транспортная среда с
высоким уровнем наводок или шума. Пакеты транспортного потока имеют длину 188 байт.
<tdx< td=""></tdx<>
SNR Пространственно
Уровень Простой Основной Высокий Multiview 4:2:2
масштаб масштабируемый
Высокий X X
Высокий-
X X X
1440
Основной X X X X X
Низкий X X
С момента окончательного одобрения MPEG-2 Видео в ноябре 1994, был разработан еще
один профайл. Он использует существующие средства кодирования MPEG-2 Видео, но
способен работать с изображениями, имеющими разрешение 4:2:2 и более высокую скорость
передачи. Несмотря на то, что MPEG-2 Видео не разрабатывался для студийных целей, серия
выполненных тестов показала, что MPEG-2 достаточно хорош, а во многих случаях даже
лучше, чем предлагается спецификациями, разработанными для более высоких скоростей
передачи или студийных приложений.
Профайл 4:2:2 был окончательно одобрен в январе 1996 и сейчас является неотъемлемой
частью стандарта MPEG-2 Видео.
Работа над форматом MPEG-2 была завершена в 1997 г. Стандарт MPEG-2 является
усовершенствованием MPEG-1 и базируется на схеме шифрования с потерями и передачи
без потерь. Кодирование в MPEG-2 идентично используемому в MPEG-1 (I- P- и B-кадры; D-
кадры не используются). I-кадр (Intracoded) представляет собой изображение,
закодированное согласно стандарту JPEG при полном разрешении по яркости и половинном
разрешении по цвету. Такие кадры должны появляться периодически, чтобы исключить
накопления ошибок (включаются в выходной поток 1-2 раза в сек). Эти кадры обеспечивают
совместимость с MPEG-1. P-кадры (Predictive) содержат отличие блоков в последнем кадре
изображения по отношению к предыдущему кадру. P-кадры базируются на идее
макроблоков, которые содержат 16*16 пикселей яркости и 8*8 пикселей цветности. Для
декодирования P-кадра необходимо иметь исчерпывающие данные о предыдущем кадре. B-
кадры (Bi-directional) характеризуют отличие двух последовательных изображений. B-кадры
сходны с P-кадрами, но позволяют устанавливать связь макроблоков не только с
предшествующим, но и с последующим кадром. Кадры следуют в последовательности: I B B
P B B P B B I. Здесь применено двойное косинусное преобразование с числом
коэффициентов 10*10 (против 8*8 в MPEG-1). D-кадры (DC-Coded) используются, для
получения изображения низкого разрешения при быстрой перемотке вперед или назад.
Из этих данных можно получить оценку сверху для пропускной способности визуального
канала человека. Из-за инерциальности человек не различает более 25 кадров в секунду. Один
кадр содержит 1920*1080*24=49766400 бит (здесь предполагается, что человек может
различать 224 оттенков цветов (в реальности возможности много ниже). Угол нашего зрения
много шире телесного угла, перекрываемого телевизионным экраном, но относительно
высокое разрешение мы имеем лишь в близи той точки, на которую мы сфокусировались.
Таким образом, мы можем воспринимать <<1244 Мбит/сек. Практически, эта оценка на
несколько порядков выше реального значения. Понятно, что мозг может обработать на много
порядков меньший объем информации. Оценку возможностей нашей обработки можно
получить из скорости быстрого чтения, когда человек воспринимает содержимое страницы за
время порядка 15 сек. Страница содержит примерно 3 кбайта, что дает скорость
приблизительно 200 байт в сек. Эту цифру можно считать оценкой снизу (ведь буква это
графический образ, а не байт).
Тип кадра
i p b Средний
mpeg-1 (1,15 Мбит/с) 150,000 50,000 20,000 38,000
mpeg-2 (4 Мбит/c) 400,000 200,000 80,000 130,000
Интерактивное телевидение
В последнее время благодаря широкому внедрению цифрового телевидения и новых
стандартов передачи изображения (MPEG-2) открылись возможности для "телевидения по
требованию" (интерактивного телевидения) - системы, где клиент может самостоятельно и
индивидуально формировать ТВ-программу. Первые опыты такого рода относятся к 1995
году. Такие системы базируются на существующих сетях кабельного телевидения. Но
развитие оптоволоконных технологий позволяют ожидать полной интеграции кабельного
цифрового телевидения и информационных сетей Интернет. Следует, впрочем, заметить, что
оптоволокно в каждом жилище является пока непозволительной роскошью. Общая схема
такой системы показана на рис. 2.5.15.
Цены на цветные принтеры в настоящее время спустились ниже 100 долларов, таким
образом нужная копия уже сейчас дешевле стоимости газеты. Экономия на бумаге и
средствах доставки очевидны, да и необходимость в типографиях отпадет, ведь даже книги
можно будет получить непосредственно дома (хотя привлекательность данной услуги и не
вполне очевидна - хорошо сброшированная и переплетенная книга будет привлекательным
объектом еще долго (прогноз относительно будущих книг сотри в разделе "Заключение").
Массовое внедрение таких технологий будет стимулировать падение цен на
соответствующие процессоры и принтеры. Интерактивная схема подключения телевизора-
терминала сделает возможным многие новые виды развлечений, а также выполнение многих
покупок, не выходя из дома. Традиционной почте подписала отсроченный приговор почта
электронная, но появление интерактивных широкополосных средств завершит
многовековую историю почты (да и телеграфа). Ей будет оставлена доставка товаров,
билетов и документов. Побочным продуктом прогресса в данной области станет
общедоступный видеотелефон. Схема видео-сервера представлена на рис. 2.5.16.
Принципиально новым шагом в обработке мультимедиа стал стандарт MPEG-4, где впервые
был введен объектный подход к анализу изображений и звука. Здесь же введено понятие
сцены и базовые принципы ее описания, заложены основы интерактивного взаимодействия
слушателя/зрителя со сценой, впервые рассматриваются в практической плоскости вопросы
интеллектуальной собственности.
MPEG-4 является стандартом ISO/IEC разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал такие известные стандарты как MPEG-1 и MPEG-2. Эти
стандарты сделали возможным интерактивное видео на CD-ROM и цифровое телевидение.
MPEG-4 является результатом работы сотен исследователей и разработчиков всего мира.
Разработка MPEG-4 (в ISO/IEC нотации имеет название ISO/IEC 14496) завершена в октябре
1998. Международным стандартом он стал в начале 1999. Полностью совместимый
расширенный вариант MPEG-4 версия 2 был разработан к концу 1999 и стал международным
стандартом в начале 2000. Работы над этим документом продолжаются (см.
http://sound.media.mit.edu/mpeg4/SA-FDIS.pdf). MPEG-4 предназначен для решения трех
проблем:
Цифровое телевидение;
Интерактивные графические приложения (synthetic content);
Интерактивное мультимедиа World Wide Web.
текст и графика;
говорящие синтезированные головы и ассоциированный текст, использованный для
синтеза речи и анимации головы;
синтезированный звук
2.2. Системы
Как объяснено выше, MPEG-4 определяет набор алгоритмов улучшенного сжатия для аудио
и видео данных. Потоки данных (Elementary Streams, ES), которые являются результатом
процесса кодирования, могут быть переданы или запомнены независимо. Они должны быть
объединены так, чтобы на принимающей стороне возникла реальная мультимедийная
презентация.
Двоичный формат для сцен BIFS (Binary Format for Scenes) описывает
пространственно-временные отношения объектов на сцене. Зрители могут иметь
возможность взаимодействия с объектами, например, перемещая их на сцене или
изменяя свое положение точки наблюдения в 3D виртуальной среде. Описание сцены
предоставляет широкий набор узлов для композиционных 2-D и 3-D операторов и
графических примитивов.
На нижнем уровне, Дескрипторы объектов OD (Object Descriptors) определяют
отношения между элементарными потоками, имеющими отношение к конкретному
объекту (например, аудио- и видео-потоки участников видеоконференции). OD
предоставляют также дополнительную информацию, такую как URL, необходимые
для доступа к элементарным потокам, характеристики декодеров, нужных для их
обработки, идентификация владельца авторских прав и пр.
2.3. Аудио-система
MPEG-4 аудио предлагает широкий перечень приложений, которые покрывают область от
понятной речи до высококачественного многоканального аудио, и от естественных до
синтетических звуков. В частности, он поддерживает высокоэффективную презентацию
аудио объектов, состоящих из:
2.4. Видео-система
Стандарт MPEG-4 Видео допускает гибридное кодирование естественных (пиксельных)
изображений и видео вместе с синтезированными сценами (генерированными на ЭВМ). Это,
например, допускает виртуальное присутствие участников видеоконференций. Видео
стандарт содержит в себе средства и алгоритмы, поддерживающие кодирование
естественных (пиксельных) статических изображений и видео последовательностей, а также
средства поддержки сжатия искусственных 2-D и 3-D графических геометрических
параметров.
3.1. Системы
Версия 2 систем MPEG-4 расширяет версию 1, с тем, чтобы перекрыть такие области, как
BIFS-функциональность и поддержка Java (MPEG-J). Версия 2 также специфицирует
формат файлов для записи содержимого MPEG-4.
3.2. Видео-системы
3.2.1. Натуральное видео
Видео MPEG-4 версия 2 добавляет новые возможности в следующих областях:
3.3. Звук
MPEG-4 Аудио версия 2 является расширением MPEG-4 Аудио версия 1. В новой версии
добавлены новые средства и функции, все прежние возможности и функции сохранены.
Версия 2 MPEG-4 Аудио предоставляет следующие возможности:
3.4. DMIF
Основные средства, вводимые DMIF версия 2 предоставляют поддержку (ограниченную)
мобильных сетей и мониторирования QoS.
4.2. Системы
4.2.1. Advanced BIFS
Продвинутый BIFS предоставляет дополнительные узлы, которые могут быть использованы
в графе сцены для мониторирования доступности и управляемости среды, такие как посылка
команд серверу, продвинутый контроль воспроизведения, и так называемый
EXTERNPROTO, узел, который обеспечивает дальнейшую совместимость с VRML, и
который позволяет написание макросов, определяющих поведение объектов. Предусмотрено
улучшенное сжатие данных BIFS, и в частности оптимальное сжатие для сеток и для
массивов данных.
Формат XMT может быть изменен участниками SMIL, VRML, и MPEG-4. Формат может
быть разобран и воспроизведен непосредственно участником W3C SMIL, преобразован в
Web3D X3D и заново воспроизведен участником VRML, или компилирован в презентацию
MPEG-4, такую как mp4, которая может быть затем воспроизведена участником MPEG-4.
Ниже описано взаимодействие с XMT. Это описание содержит в себе MPEG-4, большую
часть SMIL, масштабируемую векторную графику (Scalable Vector Graphics), X3D, а также
текстуальное представление описания MPEG-7 (смотри http://www.cselt.it/mpeg, где имеется
документация на стандартe MPEG-7).
XMT содержит два уровня текстуального синтаксиса и семантики: формат XMT-A и формат
XMT-Ù.
Модель FlexTime базируется на так называемой метафоре "пружины". Пружина имеет три
ограничения: минимальная длина, менее которой она не сжимается, максимальная длина,
при которой она может оборваться, и оптимальная длина, при которой она остается ни
сжатой, ни растянутой. Следуя модели пружины, временные воспроизводимые медиа-
объекты могут рассматриваться как пружины, с набором длительностей воспроизведения,
соответствующих этим трем ограничениям пружины. Оптимальная длительность
воспроизведения (оптимальная длина пружины) может рассматриваться как
предпочтительный выбор автора для длительности воспроизведения медиа-объекта.
Участник, где возможно, поддерживает длительность воспроизведения настолько близко к
оптимальному значению, насколько позволяет презентация, но может выбрать любую
длительность между минимальной и максимальной, как это специфицировал автор. Заметим,
что поскольку растяжение или сжатие длительности в непрерывных средах, например, для
видео, подразумевает соответствующее замедление или ускорение воспроизведения, для
дискретных сред, таких как статическое изображение, сжатие или растяжение сопряжено в
основном с модификацией периода рэндеринга.
5. Профайлы в MPEG-4
MPEG-4 предоставляет большой и богатый набор средств для кодирования аудио-
визуальных объектов. Для того чтобы позволить эффективную реализацию стандарта,
специфицированы субнаборы систем MPEG-4, средств видео и аудио, которые могут
использоваться для специфических приложений. Эти субнаборы, называемые ‘профайлами’,
ограничивают набор средств, которые может применить декодер. Для каждого из этих
профайлов, устанавливается один или более уровней, ограничивающих вычислительную
сложность. Подход сходен с MPEG-2, где большинство общеизвестных комбинаций
профайл/уровень имеют вид ‘главный_профайл @главный_уровень’. Комбинация
профайл@уровень позволяет:
Существуют профайлы для различных типов медиа содержимого (аудио, видео, и графика) и
для описания сцен. MPEG не предписывает или рекомендует комбинации этих профайлов,
но заботится о том, чтобы обеспечить хорошее согласование между различными областями.
16. Продвинутый простой профайл выглядит как простой, здесь он содержит только
прямоугольные объекты, но он имеет несколько дополнительных средств, которые
делают его более эффективным: B-кадры, компенсация перемещения ¼ пикселя и
компенсация общего перемещения.
17. Масштабируемый профайл тонкой гранулярности допускает большое число
масштабных уровней - до 8 - так что качество доставки можно легко адаптировать к
условиям передачи и декодирования. Он может использоваться с простым или
продвинутым простым в качестве базового уровня.
18. Простой студийный профайл является профайлом с очень высоким качеством для
применения в приложениях студийного редактирования. Он работает только с I-
кадрами, но он действительно поддерживает произвольные формы и большое число
alpha-каналов. Возможная скорость передачи достигает 2 Гбит/c.
19. Центральный студийный профайл добавляет P-кадры к простому студийному
варианту (Simple Studio), делая его более эффективным, но требующим более сложной
реализации.
a) Сеть
b) Сцена
c) Ресурс
В настоящее время определен только один профайл, который включает все эти средства. В
контексте слоев для этого профайла могут быть определены некоторые ограничения,
например, допуск только одной временной шкалы.
6. Верификационное тестирование:
проверка работы MPEG
MPEG выполняет верификационные тесты для проверки того, предоставляет ли стандарт то,
что должно быть. Результаты испытаний можно найти на базовой странице MPEG:
http://www.cselt.it/mpeg/quality_tests.htm
6.1. Видео
6.1.1. Тесты эффективности кодирования
6.1.1.1. Низкие и средние скорости передачи бит (версия 1)
При испытаниях для низкой и средней скорости передачи, рассматривались
последовательности кадров, которые следуют стандарту MPEG-1. (MPEG-2 будет
идентичным для прогрессивных последовательностей за исключением того, что MPEG-1
немного более эффективен, так как имеет несколько меньшую избыточность заголовков).
Тест использует типовую тестовую последовательность для разрешений CIF и QCIF,
закодированный с идентичными условиями по скорости передачи для MPEG-1 и MPEG-4.
Тест был выполнен для низких скоростей от 40 кбит/с до 768 кбит/с.
При интерпретации этих результатов, нужно заметить, что главный профайл MPEG-4 более
эффективен, чем MPEG-1 и MPEG-2.
Результаты показывают, что в среднем качество видео, полученное для мобильного канала,
является высоким, что воздействие ошибок в видео MPEG-4 остается локальным, и что
качество быстро восстанавливается по завершении блока ошибок.
6.2. Звук
Аудио-технология MPEG-4 состоит из большого числа средств кодирования.
Верификационные тесты выполнялись в основном для небольшого набора средств
кодирования, которые имеет сходные области использования, чтобы их можно было
сравнивать. Так как сжатие является критическим параметром в MPEG, сравнение
производилось при сходных скоростях обмена.
Работа различных средств кодирования MPEG-4 представлена в таблице ниже. Для лучшей
оценки свойств технологии MPEG-4 в тесты были включены несколько кодировщиков от
MPEG-2 и ITU-T и их оценка также включены в таблицу. Результаты из различных тестов не
следует сравнивать.
AAC 2 96 4.4
AAC 1 24 4.2
Масштабируемый: CELP база и
1 6 base, 18 enh. 3.7
улучшение AAC
AAC 1 18 3.2
BSAC 2 96 4.4
BSAC 2 80 3.7
BSAC 2 64 3.0
AAC - LD (однопроходная
1 64 4.4
задержка 20 мсек)
G.722 1 32 4.2
AAC - LD (однопроходная
1 32 3.4
задержка 30 мсек)
Twin VQ 1 6 1.8
HILN 1 16 2.8
HILN 1 6 1.8
Деятельность M4IF начинается там, где кончается активность MPEG. Сюда входят позиции,
с которыми MPEG не может иметь дело, например, из-за правил ISO, таких как патентная
чистота.
8.1. DMIF
DMIF (Delivery Multimedia Integration Framework) является протоколом сессии для
управления мультимедийными потоками поверх общих средств доставки данных. В
принципе это имеет много общего с FTP. Единственное (существенное) отличие заключается
в том, что FTP предоставляет данные, DMIF предоставляет указатели, где получить данные
(streamed).
Как следствие, уместно заявить, что интегрирующая система DMIF покрывает три главные
технологии, интерактивную сетевую технику, широковещательную технологию и работу с
дисками; это показано на рис. 4 ниже.
DMIF допускает одновременное присутствие одного или более интерфейсов DMIF, каждый
из которых предназначен для определенной технологии доставки данных. Одно приложение
может активировать несколько технологий доставки.
Когда приложению нужен канал, оно использует примитивы канала DAI, DMIF транслирует
эти запросы в запросы соединения, которые являются специфическими для конкретных
запросов сетевых реализаций. В случае сценариев широковещания и локальной памяти,
метод установления соединения и последующего управления находится за пределами
регламентаций MPEG-4. В случае сетевого сценария напротив, DMIF использует свой
сигнальный механизм для формирования и управления соединением. Это соединение
используется приложением для целей доставки данных.
На рис. 6 предоставлена схема активации верхнего уровня и начало обмена данными. Этот
процесс включает в себя четыре этапа:
8.2. Демультиплексирование,
синхронизация и описание потоков данных
Отдельные элементарные потоки должны быть выделены на уровне доставки из входных
данных некоторого сетевого соединения или из локального устройства памяти. Каждое
сетевое соединение или файл в модели системы MPEG-4 рассматривается как канал
TransMux. Демультиплексирование выполняется частично или полностью слоями вне
области ответственности MPEG-4. Единственным демультиплексирующим средством,
определенным MPEG-4, является FlexMux, которое может опционно использоваться для
снижения задержки, получения низкой избыточности мультиплексирования и для экономии
сетевых ресурсов.
MPEG-4 определяет модель системного декодера. Это позволяет точно описать операции
терминала, не делая ненужных предположений о деталях практической реализации. Это
важно для того, чтобы дать свободу разработчикам терминалов MPEG-4 и декодирующих
приборов. Это оборудование включает в себя широкий диапазон аппаратов от
телевизионных приемников, которые не имеют возможности взаимодействовать с
отправителем, до ЭВМ, которые полноценный двунаправленный коммуникационный канал.
Некоторые приборы будут получать потоки MPEG-4 через изохронные сети, в то время как
другие будут использовать для обмена информацией MPEG-4 асинхронные средства
(например, Интернет). Модель системного декодера предоставляет общие принципы, на
которых могут базироваться все реализации терминалов MPEG-4.
8.2.1. Демультиплексирование
Демультиплексирование происходит на уровне доставки, который включает в себя слои
TransMux и DMIF. Извлечение входящих информационных потоков из сетевого соединения
или из памяти включает в себя два этапа. Во-первых, каналы должны быть найдены и
открыты. Это требует наличия некоторого объекта, который осуществляет транспортный
контроль и устанавливает соответствие между транспортными каналами и специальными
элементарными потоками. Таблица карты таких потоков связывает каждый поток с
ChannelAssociationTag (канальной меткой), которая служит указателем для канала, через
который идет поток. Определение ChannelAssociationTags для реального транспортного
канала, а также управление сессией и каналами осуществляется DMIF-частью стандарта
MPEG-4.
Средство FlexMux специфицировано MPEG для того, чтобы опционно предоставить гибкий
метод, имеющий малую избыточность и задержку для переукладки данных в тех случаях,
когда ниже лежащие протоколы не поддерживают это. Средство FlexMux само по себе
недостаточно устойчиво по отношению к ошибкам и может либо использоваться в каналах
TransMux с высоким QoS, либо для объединения элементарных потоков, которые достаточно
устойчивы к ошибкам. FlexMux требует надежного детектирования ошибок. Эти требования
реализованы в информационных примитивах прикладного интерфейса DMIF, который
определяет доступ к данным в индивидуальных транспортных каналах. Демультиплексор
FlexMux выделяет SL-потоки из потоков FlexMux.
Слой sync имеет минимальный набор средств для проверки согласованности, чтобы передать
временную информацию. Каждый пакет состоит из блока доступа или фрагмента блока
доступа. Эти снабженные временными метками блоки образуют единственную
семантическую структуру элементарных потоков, которые видны на этом уровне.
Временные метки используются для передачи номинального времени декодирования.
Уровень sync требует надежного детектирования ошибок и кадрирования каждого
индивидуального пакета нижележащего слоя. Как осуществляется доступ к данным для слоя
сжатия, определяется интерфейсом элементарных потоков, описание которого можно найти
в системной части стандарта MPEG-4. Слой sync извлекает элементарные потоки из потоков
SL.
Для того чтобы понизить чувствительность к задержке времени доставки, модель FlexTime
основывается на так называемой метафоре "пружины", смотри раздел 4.2.3.
Важно заметить, что существует два класса объектов MPEG-4. Синхронизация и рэндеринг
объекта MPEG-4, который использует элементарный поток, такого как видео, не
определяется одним потоком, но также соответствующими узлами BIFS и их
синхронизацией. В то время как синхронизация и рэндеринг объекта MPEG-4, который не
использует поток, такой как текст или прямоугольник, определяется только
соответствующими узлами BIFS и их синхронизацией.
Модель буферов для flextime может быть специфицировано следующим образом: "В любое
время от момента, соответствующего его DTS, вплоть до границы времени, заданной
Flextime, AU немедленно декодируется и удаляется из буфера." Так как точное время
удаления из буфера декодирования AU может варьироваться, нельзя быть уверенным, что
оно будет удалено раньше наихудшего времени (максимальная задержка для медиа-потока).
Используя наихудшее время, а не время, заданное DTS, буфер декодирования может
управляться и не так, как предписывается MPEG-4.
8.4. Описание синтаксиса
MPEG-4 определяет язык синтаксического описания чтобы характеризовать точный
двоичный синтаксис для двоичных потоков, несущих медиа-объекты и для потоков с
информацией описания сцены. Это уход от прошлого подхода MPEG, использовавшего язык
псевдо C. Новый язык является расширением C++, и используется для интегрированного
описания синтаксического представления объектов и классов медиа-объектов и сцен. Это
предоставляет удобный и универсальный способ описания синтаксиса. Программные
средства могут использоваться для обработки синтаксического описания и генерации
необходимого кода для программ, которые выполняют верификацию.
Для того чтобы облегчить авторскую разработку, а также создание средств манипулирования
и взаимодействия, описания сцены кодируются независимо от потоков, имеющих отношение
в примитивным медиа-объектам. Специальные меры предпринимаются для идентификации
параметров, относящихся к описанию сцены. Это делается путем дифференциации
параметров, которые используются для улучшения эффективности кодирования объектов
(например, векторы перемещения в алгоритмах видео-кодирования), а также те, которые
используются в качестве модификаторов объекта (например, положение объекта на сцене).
Так как MPEG-4 должен допускать модификацию последнего набора параметров без
необходимости декодировать самих примитивных медиа-объектов, эти параметры
помещаются в описание сцены, а не в примитивные медиа-объекты. Следующий список
предлагает некоторые примеры информации, представленные в описании сцены.
Мета данные в файле в сочетании с гибкой записью медийных данных в память позволяют
формату MP4 поддерживать редактирование, локальное воспроизведение и обмен, и тем
самым удовлетворять требованиям интермедиа MPEG4.
8.10. MPEG-J
MPEG-J является программной системой a programmatic system (в противоположность
параметрической системе MPEG-4 версия 1), которая специфицирует API для кросс-
операций медиа-проигрывателей MPEG-4 с программами на Java. Комбинируя среду MPEG-
4 и безопасный исполнительный код, разработчики материала могут реализовать
комплексный контроль и механизмы обработки их медиа в рамках аудио-визуальной сессии.
Блок-схема плеера MPEG-J в среде системного плеера MPEG-4 показана на рис. 10. Нижняя
половинка этого рисунка отображает системный параметрический плеер MPEG-4,
называемый также средство презентации (ДП). Субсистема MPEG-J, контролирующая ДП,
называется средством приложения (Application Engine), показана в верхней половине рис. 10.
Приложение Java доставляется в качестве отдельного элементарного потока, поступающего
на терминал MPEG-4. Оно будет передано MPEG-J, откуда программа MPEG-J будет иметь
доступ к различным компонентам и данным плеера MPEG-4. MPEG-J не поддерживает
загружаемых декодеров.
По выше указанной причине, группой был определен набор API с различными областями
применения. Задачей API является обеспечение доступа к графу сцены: рассмотрение графа,
изменение узлов и их полей, и добавление и удаление узлов графа. Менеджер ресурсов API
используется для управления исполнением: он обеспечивает централизованное средство
управления ресурсами. API терминальных возможностей (Terminal Capability) используется,
когда исполнение программы зависит от конфигурации терминала и его возможностей, как
статических (которые не меняются во время исполнения) так и динамических. API медийных
декодеров (Media Decoders) позволяет контролировать декодеры, которые имеются в
терминале. Сетевое API предлагает способ взаимодействия с сетью, являясь прикладным
интерфейсом MPEG-4 DMIF.
Для того чтобы достичь этой широкой цели функции различных приложений объединяются.
Следовательно, визуальная часть стандарта MPEG-4 предоставляет решения в форме средств
и алгоритмов для:
• Параметрические описания
Базовой идеей является то, что форма с серой шкалой не является единственной для
описания прозрачности видео объекта, но может быть определена в более общем виде.
Форма с серой шкалой может, например, представлять:
Форму прозрачности
Форму несоразмерности (Disparity shape) для многовидовых видео объектов
(горизонтальных и вертикальных)
Форму глубины (Depth shape) (получаемую посредством лазерного дальномера или
при анализе различия)
Инфракрасные или другие вторичные текстуры
Все альфа-каналы могут кодироваться с помощью средств кодирования формы, т.е. средства
двоичного кодирования формы и средства кодирования формы с серой шкалой, которые
используют DCT с компенсаций перемещения, и обычно имеют ту же форму и разрешение,
что и текстура видео объекта.
Общим принципом является ограничение числа пикселей, которые следует кодировать при
анализе соответствия между конкретными видами объекта, доступными на стороне
кодировщика. Все области объекта, которые видны со стороны более чем одной камеры,
кодируются только один раз с максимально возможным разрешением. Соотношения
несоразмерности могут быть оценены из исходных видов, чтобы реконструировать все
области, которые были исключены из кодирования путем использования проекции со
скомпенсированной несоразмерностью. Один или два вспомогательных компонентов могут
быть выделены, чтобы кодировать карты несоразмерности, указывающие на соответствие
между пикселями различных видов.
Двоичный формат систем для сцены BIFS (Systems Binary Format for Scenes), предоставляет
возможности поддержки анимации лица, когда нужны обычные модели и интерпретации
FAP:
Моделирование 2-D сетки привлекательно, та как 2-D сетки могут сформированы из одного
вида объекта, сохраняя функциональность, обеспечиваемую моделированием с
привлечением 3-D сеток. Подводя итог можно сказать, что представления с объектно-
ориентированными 2-D сетками могут моделировать форму (многогранная апроксимация
контура объекта) и перемещение VOP в неоднородной структуре, которая является
расширяемой до моделирования 3-D объектов, когда имеются данные для конструирования
таких моделей. В частности, представление видео-объектов с помощью 2-D-сетки допускает
следующие функции:
A. Манипуляция видео-объектами
B. Сжатие видео-объекта
Моделирование 2-D сеток может использоваться для сжатия, если выбирается
передача текстурных карт только определенных ключевых кадров и анимация этих
текстурных карт для промежуточных кадров. Это называется само преображением
выбранных ключевых кадров с использованием информации 2-D сеток.
9.8.4. 3D-сетки
Возможности кодирования 3-D сеток включают в себя:
"Ядро VLBV" (VLBV - Very Low Bit-rate Video) предлагает алгоритмы и средства для
приложений, работающих при скоростях передачи между 5 и 64 кбит/с, поддерживающие
последовательности изображений с низким пространственным разрешение (обычно ниже
разрешения CIF) и с низкими частотами кадров (обычно ниже 15 Гц). К приложениям,
поддерживающим функциональность ядра VLBV относятся:
Субъективные оценочные тесты показывают, что комбинация этих методик может дать
экономию в необходимой полосе канала до 50% по сравнению с версией 1, в зависимости от
типа содержимого и потока данных.
9.14.1. Ресинхронизация
Средства ресинхронизации пытаются восстановить синхронизацию между декодером и
потоком данных нарушенную в результате ошибки. Данные между точкой потери
синхронизации и моментом ее восстановления выбрасываются.
Маркер ресинхронизации используется чтобы выделить новый видео пакет. Этот маркер
отличим от всех возможных VLC-кодовых слов, а также от стартового кода VOP.
Информация заголовка размещается в начале видео пакета. Информация заголовка
необходима для повторного запуска процесса декодирования и включает в себя: номер
макроблока первого макроблока, содержащегося в этом пакете и параметр квантования,
необходимый для декодирования данный макроблок. Номер макроблока осуществляет
необходимую пространственную ресинхронизацию, в то время как параметр квантования
позволяет заново синхронизовать процесс дифференциального декодирования.
В заголовке видео пакета содержится также код расширения заголовка (HEC). HEC
представляет собой один бит, который, если равен 1, указывает на наличие дополнительной
информации ресинхронизации. Сюда входит модульная временная шкала, временное
приращение VOP, тип предсказания VOP и VOP F-код. Эта дополнительная информация
предоставляется в случае, если заголовок VOP поврежден.
Следует заметить, что, когда в рамках MPEG-4 используется средство восстановления при
ошибках, некоторые средства эффективного сжатия модифицируются. Например, вся
кодированная информация предсказаний заключаться в одном видео пакете так чтобы
предотвратить перенос ошибок.
В связи с концепцией ресинхронизацией видео пакетов, в MPEG-4 добавлен еще один метод,
называемый синхронизацией с фиксированным интервалом. Этот метод требует, чтобы
стартовые коды VOP и маркеры ресинхронизации (т.е., начало видео пакета) появлялись
только в легальных фиксированных позициях потока данных. Это помогает избежать
проблем, связанных эмуляциями стартовых кодов. То есть, когда в потоке данных
встречаются ошибки, имеется возможность того, что они эмулируют стартовый код VOP. В
этом случае, при использовании декодера с синхронизацией с фиксированным интервалом,
стартовый код VOP ищется только в начале каждого фиксированного интервала.
9.14.2. Восстановление данных
После того как синхронизация восстановлена, средства восстановления данных пытаются
спасти данные, которые в общем случае могут быть потеряны. Эти средства являются не
просто программами коррекции ошибок, а техникой кодирования данных, которая устойчива
к ошибкам. Например, одно конкретное средство, которое было одобрено видео группой
(Video Group), является обратимыми кодами переменной длины RVLC (Reversible Variable
Length Codes). В этом подходе, кодовые слова переменной длины сконструированы
симметрично, так что они могут читаться как в прямом, так и в обратном направлении.
Средство защиты от ошибок (EP tool) работает со всеми аудио объектами MPEG-4 версии 2,
предоставляя гибкую возможность конфигурирования для широкого диапазона канальных
условий. Главными особенностями средства EP являются следующие:
Верификационные тесты показали, что аспект масштабируемости этого средства ведет себя
достаточно хорошо в широком диапазоне скоростей передачи. При высоких скоростях оно
столь же хорошо, как главный профайл AAC, работающий на той же скорости, в то время
как при нижних скоростях функция масштабируемости требует скромной избыточности по
отношению к основному профайлу AAC, работающий на той же скорости.
Из-за очень низкой скорости передачи могут быть переданы только параметры для
ограниченного числа объектов. Следовательно, модель восприятия устроена так, чтобы
отбирать те объекты, которые наиболее важны для качества приема сигнала.
Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1.2 Кбит/с,
что позволяет использовать при синтезе речи в качестве входных данных текст или текст с
просодическими параметрами (тональная конструкция, длительность фонемы, и т.д.). Такие
декодеры поддерживают генерацию параметров, которые могут быть использованы для
синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы
с международными символами фонем. Дополнительная разметка используется для передачи
в тексте управляющей информации, которая переадресуется другим компонентам для
обеспечения синхронизации с текстом. Заметим, что MPEG-4 обеспечивает стандартный
интерфейс для работы кодировщика TTS (TTSI = Text To Speech Interface), но не для
стандартного TTS-синтезатора.
По инициативе ряда компаний (Philips Business Electronics, Sony и Nokia) была создана
экспертная группа по мультимедиа и гипермедиа MHEG (Multimedia Hypermedia Expert
Group (ISO/IEC DIS 13522-5, 1995г); см. http://www.mheg.org/users/mheg/archives.htm и
http://www.mheg.org/users/mheg/archives/ doc/dsmcc-mheg.zip), которая определила стандарт
для обмена мультимедийными объектами (видео, звук, текст и другие данные) между
приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и
вещания) с использованием объектных классов MHEG. Этот стандарт позволил
программным объектам включать в себя любую систему кодирования, которая определена в
базовом приложении. MHEG, был принят советом по цифровому видео и звуку (DAVIC -
Digital Audio-Visual Council; см. http://www.mheg.org/users/mheg/archives/doc/ 14B94R10.zip).
MHEG-объекты создаются мультимедийными приложениями. MHEG - будущий
международный стандарт интерактивного TV
Перевод http://mpeg.telecomitalialab.com/standards/mpeg-7/
Контекст MPEG-7
Цель MPEG-7
Область действия стандарта
Главные функции MPEG-7
Эталонные программы
Архитектура терминала
Язык описания DDL
Аудио MPEG-7
Видео MPEG-7
Схемы описания мультимедиа
Эталонные программы: экспериментальная модель
MPEG-7 является стандартом ISO/IEC, разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал стандарты MPEG-1, MPEG-2 и MPEG-4. Стандарты MpeG-1
и MPEG-2 сделали возможным интерактивное видео на CD-ROM и цифровое телевидение.
Стандарт MPEG-4 предоставляет стандартизованные технологические элементы,
позволяющие интеграцию парадигм производства, рассылки и доступа к содержимому в
области цифрового телевидения, интерактивной графики и интерактивного мультимедиа.
http://www.cselt.it/mpeg
1. Введение
Огромное количество аудио-визуальной информации стало доступно в цифровой форме, в
виде цифровых архивов, во всемирной паутине, в виде широковещательных потоков, а также
в форме частных или профессиональных баз данных. Значение информации часто зависит
оттого, насколько ее легко найти, извлечь, отфильтровать и управлять.
MPEG-7 является стандартом ISO/IEC, разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал также стандарты MPEG-1 (1992), MPEG-2 (1995), и MPEG-4
(версия 1 в 1998 и версия 2 в 1999). Стандарты MPEG-1 и MPEG-2 позволили производить
широко распространенные коммерческие продукты, такие как интерактивные CD, DVD,
цифровое широковещательное аудио (DAB), цифровое телевидение, и многие другие
коммерческие услуги. MPEG-4 является первым реальным мультимедийным стандартом для
представления данных, позволяющим интерактивно работать с комбинациями натурального
и синтетического материала, закодированного в виде объектов (он моделирует аудио-
визуальные данные, как комбинацию таких объектов). MPEG-4 предоставляет
стандартизованные технологические элементы, допускающие интеграцию производства,
распределения и доступа к мультимедийному материалу. Это относится к интерактивному и
мобильному мультимедиа, интерактивной графике и улучшенному цифровому телевидению.
Аудиовизуальные источники будут играть в перспективе все большую роль в нашей жизни,
и будет расти необходимость обрабатывать такие данные. Это делает необходимым
обработку видов аудиовизуальной информации, имеющей волновую форму,
компрессированный формат (такой как MPEG-1 и MPEG-2) или даже объектно-
ориентированный (такой как MPEG-4) формат. Необходимы формы презентации, которые
позволяют некоторую степень интерпретации смысла информации. Эти формы могут быть
переданы в, или доступны для прибора или программы ЭВМ. В примерах приведенных выше
датчики изображения могут генерировать визуальные данные не в форме PCM (значения
пикселей), а в форме объектов с ассоциированными физическими величинами и временной
информацией. Эти объекты могут быть запомнены и обработаны с целью проверки,
выполняются ли определенные условия. Видео записывающий прибор может получить
описания аудиовизуальной информации, ассоциированной с программой, которая при
выполнении заданных условий выдаст команду на запись, например, только новости за
исключением спорта или запись фильма с автоматическим вырезанием вставок рекламы
(согласитеь, об этом сегодня можно только мечтать).
Так как описательные характеристики должны иметь смысл в контексте приложения, они
будут различными для разных приложений. Это подразумевает, что один и тот же материал
может быть описан различным образом в зависимости от конкретного приложения. Возьмем
в качестве примера визуальный материал: нижним уровнем абстракции будет описание,
например, формы, размера, текстуры, цвета, движения (траектории) и позиции ("где на сцене
может размещаться объект"). А для аудио: ключ, тональность, темп, вариации темпа,
положение в звуковом пространстве. Высшим уровнем представления будет семантическая
информация: "Это сцена с лающей коричневой собакой слева и голубым мячом, падающим
справа, с фоновым звуком проезжающих авто". Могут существовать промежуточные уровни
абстракции.
Все эти описания являются, конечно, эффективно закодированными для поиска, отбора и т.д.
Тип материала и запрос могут не совпадать; например, визуальный материал может быть
запрошен, используя визуальное содержимое, музыка, голос, и т.д. Согласование данных
запроса и описания MPEG-7 выполняется поисковыми системами и агентами фильтрации.
Овалами обозначены средства, которые выполняют операции, такие как кодирование или
декодирование, в то время как прямоугольниками отмечены статические элементы, такие как
описания. Пунктирные прямоугольники на рисунке окружают нормативные элементы
стандарта MPEG-7.
Главной задачей MPEG-7 будет предоставление новых решений для описания аудио-
визуального материала. Таким образом, чисто текстовые документы не являются объектами
MPEG-7. Однако аудио-визуальный материал может содержать и сопряженный с ним текст.
MPEG-7 будет, следовательно, рассматривать и поддерживать существующие решения,
разработанные другими организациями стандартизации для текстовых документов.
Это станет применимо для огромных архивов, которые станут доступны для широкой
публики, это придаст новый стимул для электронной торговли, так как покупатели смогут
искать нужный товар по видеообразцам. Информация, используемая для извлечения
материала, может также применяться агентами для отбора и фильтрации
широковещательного материала или целевой рекламы. Кроме того, описания MPEG-7
позволят быстрые и эффективные с точки зрения затрат полуавтоматические презентации и
редактирование.
Все области применения, базирующиеся на мультимедиа, выиграют от использования
MPEG-7. Ниже предлагается список возможных приложений MPEG-7, которые любой из
читателей без труда сможет дополнить:
“... язык, который позволяет формировать новые схемы описания и, возможно, дескрипторы.
Он также позволяет расширение и модификацию существующих схем описания”.
В качестве основы DDL был выбран язык XML. Как следствие, DDL может быть поделен на
следующие логические нормативные компоненты:
Цвет
Текстура
Форма
Движение
Локализация
Прочие
Помимо этого набора общих средств описания стандартизованы более сложные средства
описания. Они используются, когда нужно описать более одного вида медийного материала
(например, аудио и видео). Эти средства описания могут быть сгруппированы в 5 различных
классов согласно их функциональному предназначению:
Данные MPEG-7 могут быть представлены либо в текстовом, либо в двоичном формате, или
в виде комбинации этих форматов, в зависимости от типа приложения. MPEG-7 определяет
однозначную связь между двоичным и текстовым форматами. Возможно установление
двухсторонней однозначной связи между текстовым и двоичным представлениями. Следует
заметить, что это не всегда доступно: некоторые приложения могут не захотеть передавать
всю информация, содержащуюся в текстовом представлении, а могут предпочесть
использовать более эффективную с точки зрения полосы двоичную кодировку с потерями.
DDL должен удовлетворять требованиям MPEG-7 DDL. Он должен быть способен выражать
пространственные, временные, структурные и концептуальные взаимоотношения между
элементами DS и между DS. Он должен предоставить универсальную модель для связей и
ссылок между одним или более описаниями и данными, которые им описываются. Кроме
того, язык не должен зависеть от платформы и приложения и быть читаемым как машиной,
так и человеком. MPEG-7 должен базироваться на синтаксисе XML. Необходима также
система разборки DDL (парсинга), которая должна быть способна проверять схемы описания
(материал и структуру) и дескрипторы типа данных, как примитивные (целые, текст, дата,
время) так и составные (гистограммы, нумерованные типы).
Аннотации;
Фрагменты (Particles);
Произвольные подстановки (Wildcards).
Новые типы могут быть также определены на основе существующих типов (встроенных или
вторичных) путем расширения базового типа. Детали использования этих компонентов
можно найти в проекте DDL или в схеме XML: Спецификация структур.
Существует два способа описания аудио характеристик нижнего уровня. Один предполагает
стробирование уровня сигнала на регулярной основе, другой может использовать сегменты
(смотри описание MDS) для пометки сходных и отличных областей для заданного звукового
отрывка. Обе эти возможности реализованы в двух типах дескрипторов нижнего уровня
(один для скалярных величин, таких как мощность или частота, и один для векторов, таких
как спектры), которые создают совместимый интерфейс. Любой дескриптор,
воспринимающий эти типы может быть проиллюстрирован примерами, описывающими
сегмент одной результирующей величиной или последовательностью результатов
стробирования, как этого требует приложение.
Аудио дескрипторы нижнего уровня имеют особую важность при описании звука.
Существует семнадцать временных и пространственных дескрипторов, которые могут
использоваться в самых разных приложениях. Они могут быть грубо поделены на
следующие группы:
В то время как аудио дескрипторы нижнего уровня вообще могут служить для многих
возможных приложений, дескриптор однородности спектра поддерживает аппроксимацию
сложных звуковых сигналов. Приложения включают в себя голосовую идентификацию.
В рамках четырех возможных классов звуков музыкальных инструментов, два класса хорошо
детализированы, и являются центральным объектом экспериментального исследования. В
FCD представляются гармонические, когерентные непрерывные звуки и прерывистые,
ударные звуки. Дескриптор тембра для непрерывных гармонических звуков объединяет
спектральные дескрипторы тембра с временным дескриптором log attack. Дескриптор
ударных инструментов комбинирует временные дескрипторы тембра с дескриптором
спектрального центроида. Сравнение описаний, использующих один из наборов
дескрипторов выполняется с привлечением метрики масштабируемого расстояния.
Средства описания Spoken Content поделены на два широких функциональных блока: сетка,
которая представляет декодирование, выполненное системой ASR, и заголовок, который
содержит информацию об узнанных собеседниках и о самой системе распознавания. Сетка
состоит из комбинаций слов голосовых записей для каждого собеседника в аудио потоке.
Комбинируя эти сетки, можно облегчить проблему со словами, отсутствующими в словаре, и
поиск может быть успешным, даже когда распознавание исходного слова невозможно.
Цвет
Текстура
Форма
Движение
Локализация
Прочее
R,G,B
Y,Cr,Cb
H,S,V
HMMD
Матрица линейного преобразования с учетом R, G, B
Монохромное
На рис. 9 (g), (h) и (i) показаны очень схожие изображения чашки. Различия имеются только
в форме ручки. Форма (g) имеет трещину на нижней части ручки, в то время как в (i) ручка
не имеет отверстия. Дескриптор формы, базирующейся на областях, рассматривает (g) и (h)
подобными, но отличными от (i), так как там ручка не имеет отверстия. Аналогично, на рис.
9(j-l) показана часть видео последовательности, где два диска постепенно разделяются. С
точки зрения дескриптора формы, базирующейся на областях, эти картинки схожи.
3.4.4.3. 3D-форма
Рассматривая непрерывное развитие мультимедийных технологий, виртуальных миров, 3D-
материал становится обычным для современных информационных систем. В большинстве
случаев, 3D-информация представляется в виде сетки многоугольников. Группа MPEG-4, в
рамках подгруппы SNHC, разрабатывала технологии для эффективного кодирования модели
3D-сеток. В стандарте MPEG-7 необходимы средства для интеллектуального доступа к 3D-
информации. Главные приложения MPEG-7 имеют целью поиск, получение и просмотр баз
3D-данных.
3.4.7. Прочие
3.4.7.1. Распознавание лица
Дескриптор FaceRecognition может использоваться для получения изображения лиц, которые
соответствуют запросу. Дескриптор представляет проекцию вектора лица на набор базовых
векторов, которые охватывают пространство возможных векторов лица. Набор параметров
FaceRecognition получается из нормализованного изображения лица. Это нормализованное
изображения лица содержит 56 строк с 46 значениями уровня в каждой строке. Центры двух
глаз на каждом изображении лица размещаются на 24-ом ряду и 16-ой и 31-ой колонке для
правого и левого глаз соответственно. Это нормализованное изображение затем
используется для получения одномерного вектора лица, который состоит из значений
яркости пикселей нормализованного изображения лица, которое получается в результате
растрового сканирования, начинающегося в верхнем левом углу и завершающегося в
нижнем правом углу изображения. Набор параметров FaceRecogniton вычисляется путем
проектирования одномерного вектора лица на пространство, определяемое набором
базисных векторов.
Единственной частью описания, которая зависит от среды записи или формата кодирования
является MediaInformation, описанная в этом разделе. Остальная часть описания MPEG-7 не
зависит от профайлов или копий и, как следствие, может использоваться, чтобы описать все
возможные копии материала.