Академический Документы
Профессиональный Документы
Культура Документы
A=kp(1-p)k-1
A достигает максимума при p=1/e. A -> 1/e при k ->∞. Среднее число доменов
на один доступ равно 1/А. Так как каждый домен имеет протяженность RTT, то
средняя длительность времени доступа составит RTT/A. Если среднее время
передачи кадра составляет P секунд, то при большом числе станций, готовых к
передаче эффективность канала составит P/(P+RTT/A).
Создатель снабдил людей неплохими системами коммуникаций. Это, прежде всего органы
зрения, слуха и голосовой аппарат. Наиболее важные из них задублированы - мы имеем два
уха и два глаза, что создает предпосылки стерео восприятия и пространственной локации
источника звука или оптического объекта. Определенную информацию об окружающей
среде мы получаем от органов вкуса, обоняния и осязания. Эти информационные каналы
весьма важны для сохранения жизни, но с точки зрения потоков данных они достаточно
узкополосны. Самым широкополосным нашим каналом является визуальный. В оптической
области люди могут воспринимать волны с длиной волны от 380 до 740нм, что в принципе
может обеспечить потоки данных масштаба ~60Тбит/c. Проблема в том, что человек
способен воспринимать <<10Мбит/с, обрабатывая эти данные лишь частично (речь идет о
восприятии движущегося изображения). В акустическом диапазоне наши уши
чувствительны для частот от 20 Гц до 20 кГц. Наш акустический канал принципиально
асимметричен. Передачу данных мы осуществляем голосом (полоса 600 Гц - 6кГц), а
восприятие слухом, который имеет более чем в два раза большую полосу пропускания.
Уместен вопрос, зачем Природа или Создатель сформировали столь асимметричный канал?
Отказать в рациональности такого решения нельзя. Ведь в реальной жизни хотя бы с точки
зрения безопасности через уши мы получаем данные о шорохе листвы, по которой
подползает к вам змея или о подлетающем комаре. Частотные диапазоны этих шумов
находятся вне области воспроизведения нашим голосом. Это же касается раскатов грома или
звука выстрела. Отсюда следует, что мудр тот, кто больше слушает, чем говорит, так он
способствует накоплению информации в своей памяти.
Наконец был создан символьный язык для описания не только объектов реального мира, но и
абстрактных понятий. Достаточно вспомнить скрижали, которые Бог передал Моисею. Об
этом говорится в Ветхом завете, и было это задолго до рождества Христова. Но сами эти
камни с письменами предполагали, что народ или хотя бы священнослужители были
способны прочесть то, что на них написано. Письменность предполагает соглашение между
пишущим и будущими читателями относительно значения графических символов.
Изустные знания ненадежны, легко искажаются. Впрочем, это было свойственно и первым
письменным источникам, ведь первые книги просто переписывались вручную. В качестве
носителя использовались специально обработанные шкуры животных - пергамент, или
прототип бумаги - папирусы (древнейшие египетские папирусы относятся к 25-му веку до
нашей эры) и, наконец, во втором веке нашей эры бумага (Китай). В начале 11-го века в
Китае начали печатать книги с использованием подвижных литер, выполненных из глины
или дерева. В 14-ом веке в Корее стали применяться для печати подвижные металлические
литеры (чем не прототип пишущей машинки?). Практически с самого начала в рукописях и
“полиграфии” использовалось несколько цветов.
Сначала записанная информация имела вид свитков. Позднее они стали объединяться, такие
блоки листов стали называться кодексами. Известные древнейшие библиотеки относятся ко
2-3 тысячелетиям до нашей эры, создавались они героическими усилиями переписчиков.
Переписчик часто заботливо “исправлял” непонятные ему места, внося неизбежные
субъективные искажения. Иногда такие искажения вводились сознательно в угоду
политическим, идеологическим или религиозным воззрениям.
Наш голосовой канал, прежде всего, предназначен для общения с себе подобными. Часть
предыдущей фразы до запятой содержит 19 букв (в кодовом представлении 19 байт). В
норме она произносится примерно за одну секунду, что создает поток данных в 152 бит/сек.
Хорошо тренированный оператор за полторы-две секунды может напечатать эту часть
фразы.
Так говорящий произносит "да", но то, как он это говорит, может означать - нет. Сюда
можно отнести эмоциональную окраску, выбор слов, интонацию, логические ударения,
акцент, по которому можно иногда определить даже место рождения человека. При
разговоре согласно некоторым оценкам мы передаем 5-60 бит в секунду. Но это оценка лишь
смысловой информации, извлекаемой из записи сказанных слов. При беседе мы можем
передавать важные данные мимикой, жестами и другими средствами, причем эти данные
могут иной раз противоречить информации, содержащихся в произносимых словах. Грубые
оценки указывают, что устная речь с точки зрения энтропии имеет 50 процентную
избыточность.
Нашу нервную систему вполне можно рассматривать, как локальную сеть, внешние же
коммуникации человека могут служить аналогом Интернет. По внутренним нервным
магистралям распространяются сигналы от различных рецепторов, сообщая данные о
состоянии окружающей среды и самого организма, аналогично, но в противоположном
направлении передаются управляющие сигналы. Обратные связи являются основой жизни и
способом адаптации к окружающей среде. Я не являюсь тонким знатоком физиологии
человека, но, тем не менее, позволю предположить, что в нашей нервной системе
используется, как “проводные” соединения, так и адресная система доставки сообщений.
Мне могут возразить, что, смотря телевизор, мы обрабатываем большие потоки. Возможно
это так. Но в любом случае это не больше 200кбайт/сек (вспомним предельную скорость
передачи данных в каналах цифрового ТВ).
Можно с уверенностью сказать, что наши болезни - это сбои системы управления
организмом.
Трудно представить, чтобы ЭВМ Центра управления полетом, прежде чем передать
управляющую информацию бортовой машине, перешлет ей сначала анекдот, найденный
только что в Интернет. Впрочем, это относится скорее к области информатики, чем
телекоммуникаций. Хотя от умения компактно передавать наиболее существенные данные
зависит эффективная работа информационных систем будущего.
где pi – вероятность появления i-го символа (или сообщения). Log2(1/pi) определяет число
бит, характеризующих данную информацию (сколько бит мы должны послать, чтобы
передать эту информацию). Отсюда следует, что сообщение, которые имеют большую
вероятность, несут в себе меньше информации.
Энтропия является мерой неопределенности реализации того или иного случайного события.
Классическое определение информационной энтропии (H) выглядит как:
Обычный способ определения энтропии текста базируется на модели Маркова для текста.
При этом вероятность появления очередного символа предполагается независимой от
предыдущего символа (что, разумеется, не всегда верно).
Если энтропию отдельных букв и даже слов достаточно легко оценить по частоте их
использования, то расчет энтропии сообщения представляет определенную проблему (из-за
огромного их многообразия), а оценку накопленных знаний человечества можно
рассматривать как серьезную проблему на будущее. Куда проще оценивать объем
информации в гигабайтах или петабайтах, как это делается сегодня, в частности, если
оперировать архивированными файлами. Следует только помнить, что такая оценка с
реальным объемом информации практически имеет мало общего.
Если бы глаза размещались, например, на запястьях (иногда неплохо было бы иметь там и
уши), мы могли бы, разведя руки, с высокой точностью определять расстояние до любого
объекта (разрешающая способность возросла бы более чем в 20 раз; кстати, эта идея
реализована мадагаскарскими тараканами, у которых уши размещены в области локтевых
суставов). Но время доступа к данным при этом неизбежно увеличилось бы, возросло бы и
время отклика на сигналы опасности, что создало серьезные угрозы безопасности из-за
замедления реакции. Следует иметь в виду, что скорость распространения сигнала по
синапсам и аксонам нейронов составляет около 120 метров в сек. Кроме того, для кистей рук
велика вероятность повреждений, ведь они у нас являются одним из главных
исследовательских инструментов. Да и размеры человеческого тела с учетом того, что
главным его инструментом выживания является мозг, полагаю, определяются, среди
прочего, скоростью распространения сигналов возбуждения по нервным волокнам.
Возможно, из-за больших задержек в цепях обратных связей вымерли все гигантские
животные.
Такая техника позволяла передать 1 бит информации (логический нуль или логическая
единица) на расстояние до 100 км менее чем за один час (время сильно варьировалось в
зависимости от рельефа местности и погоды). Скорость такого метода передачи данных в
дневное время можно было удвоить, используя черный или белый дым. Костры часто
размещались на специально построенных вышках для увеличения расстояния между ними.
Здесь нечего говорить о надежности, проливной дождь (или вьюга) мог помешать разжечь
костер, да и видимость при этом могла оказаться весьма ограниченной. Здесь надо заметить,
что строго говоря, в вышепредставленном примере передавался не один бит. Ведь только
сигнал с определенного направления имел определенный смысл, а дым или огонь,
появивишийся в другом месте, ничего не значил. Фактически это был код с одной единицей
и определенным количеством нулей. Вопрос о том, сколько здесь должно быть нулей, совсем
не прост. Дым или огонь в точке, близкой к одной из сигнальных вышек, может создать
ложную тревогу, и такие сигналы можно рассматривать в качестве шума.
Техника телекоммуникаций с временем RTT (Round Trip Time), равным 2-6 месяцам,
просуществовала без существенных изменений более 1500 лет.
Ответ только на первый взгляд может показаться очевидным. Например, если весь миллион
бит составляют одни логические единицы, будет ли такое послание сильно отличаться от
одной единицы?
Таким образом, ясно, что бит не является мерой реального объема информации. Очевидность
этого факта подтолкнула математиков к формулировкам принципов измерения объемов
информации, базирующимся на понятии информационной энтропии, смотри "Базовые
определения теории информации".
Рассматривая таблицу кодов Морзе, следует обратить внимание на то, что наиболее часто
используемые буквы имеют более короткие коды (это, прежде всего е, т, а, и, н и м). Это
очень важный принцип, позволяющий увеличить среднюю скорость передачи данных. Он
используется достаточно широко, можно, например, вспомнить принцип распределения
символов на клавиатуре ЭВМ, в центре размещаются наиболее часто используемые буквы.
Посмотрите на клавиатуру вашей ЭВМ, в центре и ближе к клавише пробела размещаются
именно указанные в начале абзаца буквы. Используется эта техника и при архивировании
данных (алгоритм Хафмана). Кроме того, весьма важными являются паузы между буквами.
Если пауза окажется малой, то трудно будет отличить НН от Ц, АА от Я и т.д. Распределение
частот (вероятностей P) использования букв русского алфавита представлено в таблице 1.2.
Буква P Буква P
пробел 0.175 я 0.018
о 0.09 ы 0.016
е,ё 0.072 з 0.016
а 0.062 ь,ъ 0.014
и 0.062 б 0.014
т 0.053 г 0.013
н 0.053 ч 0.012
с 0.045 й 0.01
р 0.04 х 0.009
в 0.038 ж 0.007
л 0.035 ю 0.006
к 0.028 ш 0.006
м 0.026 ц 0.004
д 0.025 щ 0.003
п 0.023 э 0.003
у 0.021 ф 0.002
Аналогичные принципы лежат в основе морских флажковых семафоров, где каждой букве
соответствует определенное положение рук сигнальщика. Здесь можно также вспомнить
французский семафор, изобретенный в 1830 году. Но это также как и сигнальные костры
можно считать первыми приложениями, использующими передачу данных по оптическим
каналам связи.
Позднее было создано много других типов кодов (например, код Бодо для буквопечатающих
аппаратов, ASCII или КОИ-8), в них, как правило, каждому символу или сигналу
соответствует 5-8 бит (в действительности это 5-битовые коды, использующие два регистра).
Сигналами отмечается, например, начало/конец передачи или исправление ошибки.
Характерной особенностью ранних систем было отсутствие кодов для строчных букв. В
мире много национальных алфавитов. Многие из них содержат специфические символы,
достаточно вспомнить символьные набор китайского языка (в детстве меня занимал вопрос -
как устроена китайская пишущая машинка?). Чтобы решить проблемы кодирования
национальных алфавитов был придуман уникод, где каждому символу ставится в
соответствие два октета (байта). Это позволяет расширить многообразие символов с 256 до
65536.
Тенденции в ИТ
Ряд тенденций в сфере ИТ уже сформировались. Это, прежде всего интеграция услуг:
Интернет, цифровое телевидение, телефония, электронная торговля, информационные
услуги и т.д. Развитие мобильных технологий обмена, где мобильная телефония
объединяется с Интернет и услугами абсолютного позиционирования. К этому классу можно
отнести и переход хакерства от любительства к профессионализму и сращение с
криминалитетом, разработка ведущими странами мира кибероружия (см. Eddy Schwartz,
Computer Fraud & Security. September 2010, Winning the Cyberwar of 2010, а также
http://www.caci.com/Contracts/ITES/ArcSightWhitepaperCyberWar.pdf - Cyberwar: Sabotaging
the System. Managing Network-Centric Risks and Regulations (ArcSight)). Надеюсь, что
разрабатывая кибероружие, страны позаботятся и о средствах защиты. Одним из видов
кибервойн является кибершпионаж, как экономический, так и политический. Появление
киберсредств войны отражает общую тенденцию к дистанционному нанесению ущерба
безлюдными средствами (беспилотные самолеты, ракеты и пр.)
Для целей идентификации и для платежных систем внедряется технология NFC (Near Front
Communication). Появились первые коммерческие квантовые компьютеры. Продолжаются
попытки создания искусственного интеллекта (семантические сети и машина Watson).
Мобильные устройства приближаются по вычислительной мощности и функциональности к
персональным машинам.
Начаты работы в сфере когнетивных вычислений (ЭВМ Watson, IBM). Огромные объемы
информации, накопленные в разных областях науки, могут позволить при аналитическом
сопоставлении получить знания нового уровня.
Кремниевые монокристаллы уже сегодня могут иметь диаметр 25см. можно делать чипы с
размером в несколько см (сейчас их размер ~5мм). Это может дать прирост числа элементов
на кристалле в 100 раз. Серьезных проблем с отводом тепла при этом не возникнет. В
области систем памяти пора переходить с числа бит на квадратный дюйм к числу бит в
кубическом дюйме. Но на этом пути следует ожидать больших трудностей с отводом тепла.
Рост тактовых частот процессоров замедлился и уже в 2004 году производители перешли на
многоядерную схему процессоров. Компания Tilera объявила о выпуске 100-ядерного
процессора в середине 2011 года (при тактовой частоте 1,5ГГц он сможет обеспечить
быстродействие 750×109 операций в сек, процессор не совместим с х86 и предназначен для
облачных вычислений и задач сетевой безопасности). При обмене между ядрами
обеспечивается скорость передачи 200 Тбит/с, а при обмене с памятью более 500 Гбит/c). Но
и здесь ресурсы не беспредельны – уже сегодня на кристалле около 70% поверхности
занимают проводные соединения между активными элементами, да и делать кристаллы
размером с книгу вряд ли можно считать целесообразным. Кроме того, производительность
вычислений растет в среднем пропорционально логарифму числа процессоров. Ярким
примером сложившейся ситуации может служить супер-ЭВМ рекордсмен (Япония; 10
петафлоп/c или "Титан" более 17 петафлоп/c США; энергопотребление более 8МВт; ноябрь
2012), которая занимает 800 стоек и требует для своего питания и охлаждения отдельной
электростанции (5 МВт = мощности первой АЭС в Обнинске; см. рис. 2). А это одна из
самых энергоэффективных машин на сегодняшний день (2,2 Гфлопс/Вт). Что ждать от супер-
ЭВМ следующего поколения – машина размером с небольшой город?
Быстро растет объем информации. Журнал Economist оценивает, что объем данных каждый
год увеличивается на 60%. Эта точка зрения подтверждается аналитиком компании IDC,
который предсказывает, что ‘цифровая вселенная’ достигнет 1.8 зеттабайт (1021байт) в 2011
г, на 47% по отношению к 2010 г, и превысит 7 ZB к 2015 г. 1 зеттабайт эквивалентен
содержимому 50 библиотек конгресса США. На рис. 3 показан рост информационных
объемов и доступной памяти. Зазор между потребностями и возможностями со временем
только увеличивается (200 петабайт в год). Причин здесь много. Это оцифровка библиотек и
архивов, создание разнообразных баз данных, видеозапись мониторинга (банкоматы,
эскалаторы метро, банки), частные аудио и видеотеки и т.д.
Марк Либерман оценил объем памяти, которая нужна, чтобы записать все, что было когда-
либо сказано людьми. Для этого нужно 42 зеттабайт, если оцифровка выполняется с
частотой 16 кГц с разрешением 16-бит.
Только в одном Twitter формируется почти 100 млн. коротких сообщений в сутки.
Специалисты из исследовательской компании IDC полагают, что до 2020, объемы
информации цифровой вселенной увеличится на 35 триллионов гигабайт. В 2011 объем
цифровых данных генерируемых и копируемых превысит 1.8 триллиона гигабайт – темп
роста 9 раз за пять лет. Компания Google обрабатывает более одного петабайта в час.
Современные сети Интернет объединяют в единое целое многие десятки (а может быть уже
и сотни) тысяч локальных сетей по всему миру, построенных на базе самых разных
физических и логических протоколов (Ethernet, Token Ring, ISDN, X.25, Frame Relay, ATM и
т.д.). Эти сети объединяются друг с другом с помощью последовательных каналов
(протоколы SLIP, PPP), сетей ATM, SDH (Sonet), Fibre Channel и многих других. В самих
сетях используются протоколы TCP/IP (Интернет), IPX/SPX (Novell), Appletalk, Netbios и
бесконечное множество других, признанных международными, являющихся фирменными и
т.д. Картина будет неполной, если не отметить многообразие сетевых программных
продуктов. На следующем уровне представлены разнообразные внутренние (RIP, IGRP,
OSPF) и внешние (BGP и т.д.) протоколы маршрутизации и маршрутной политики,
конфигурация сети и задание огромного числа параметров, проблемы диагностики и сетевой
безопасности. Немалую трудность может вызвать и выбор прикладных программных средств
(Netscape, MS Internet Explorer и пр.). В последнее время сети внедряются в управление
(CAN), сферу развлечений, торговлю, происходит соединение сетей Интернет и кабельного
телевидения.
Что явилось причиной стремительного роста сети Интернет? Создатели базовых протоколов
(TCP/IP) заложили в них несколько простых и эффективных принципов: инкапсуляцию
пакетов, фрагментацию/дефрагментацию сообщений и динамическую маршрутизацию
путей доставки. Именно эти идеи позволили объединить сети, базирующиеся на самых
разных операционных системах (Windows, Unix, Sunos/Solaris и пр.), использующих
различное оборудование (Ethernet, Token Ring, FDDI, ISDN, ATM, SDH и т.д.) и сделать сеть
нечувствительной к локальным отказам аппаратуры. Огромный размер современной сети
порождает ряд серьезных проблем. Любое усовершенствование протоколов должно
проводиться так, чтобы это не приводило к замене оборудования или программ во всей или
даже части сети. Достигается это за счет того, что при установлении связи стороны
автоматически выясняют сначала, какие протоколы они поддерживают, и связь реализуется
на общем для обеих сторон наиболее современном протоколе (примером может служить
использование расширения протокола SMTP - MIME). В кабельном сегменте современной
локальной сети можно обнаружить пакеты TCP/IP, IPX/SPX (Novell), Appletalk, которые
успешно сосуществуют.
Тот факт, что полтора миллиарда людей могут использовать одни и те же прикладные
программы и услуги (вспомним cloud computing), делает Интернет самым большим,
уникальным рынком товаров и услуг. В 21-ом веке информация становится одним из
основных и самых высокотехнологичных товаров (книги, фильмы, программы, музыкальные
произведения, описания технологий, сетевые развлечения и другие сервисы). Интернет
создает и новые проблемы. Так если вы покупаете коробку с ОС Windows-7, за этот товар
заплачен таможенный сбор. А если вы с помощью кредитной карты оплатите этот продукт в
США? и вам его пришлют через Интернет? Где здесь место для таможни? А если человек
написал программу и продал ее через Интернет, а ему провели оплату на его счет в Женеве,
где здесь место налоговой службы? Я не говорю об эмиссии денег через кредиты в Интернет,
ограничивающей функцию центробанка. Понятно, что без международного сотрудничества
эти проблемы решить нельзя.
Если вас интересуют оригинальные тексты протоколов Интернет, вы можете получить их,
например, по адресу http://www.rfc-editor.org/rfc-index2.html. Эти документы можно найти и в
других депозитариях.
Из этого распределения видно, что к 1979 году окончательно сформировался стек базовых
протоколов и начался экстенсивный рост сети Интернет. По мере выявления недостатков
протоколов и новых потребностей после 1989 года началась активная разработка новых
направлений и приложений в Интернет. В журнале The Internet Protocol Journal, v18, N4, p. 25
опубликована статья редактора Heather Flanagan "The RFC Series – Beyond ASCII", где
обсуждается проблема форматов для документов RFC. В начале все они были текстовыми в
формате ASCII. Потом появились версии HTML и PDF. Сейчас обсуждается возможность
использования кодировок UTF-8 и форматов на основе XML. Окончательное решение по
этому вопросу ожидается в 2016-17 годах.
Но все по порядку. Начнем с того, как устроен Интернет. На рис. 1.3 показана общая схема,
которая облегчит дальнейшее обсуждение данной проблематики (буквами R отмечены
маршрутизаторы-порты локальных сетей).
Хотя Интернет был создан как альтернатива телефонной сети (из-за ее уязвимости), нельзя
утверждать, что архитектуры типа телефонной сети в Интернет невозможны. Здесь следует
вспомнить об технике IP-туннелей, которая все чаще используется в сетях Интернет
(например, в семействе протоколов MOLS).
Широкому распространению Интернет способствует возможность интегрировать самые
разные сети, при построении которых использованы разные аппаратные и программные
принципы. Достигается это за счет того, что для подключения к Интернет не требуется
какого-либо специального оборудования (маршрутизаторы не в счет, ведь это ЭВМ, где
программа маршрутизации реализована аппаратно). Некоторые протоколы из набора TCP/IP
(ARP, SNMP) стали универсальными и используются в сетях, построенных по совершенно
иным принципам. Впрочем в последние годы стали появляться все чаще устройства, где
программные средства TCP/IP реализуются аппаратным образом.
В некотором смысле Интернет возник эволюционно - в начале был Bitnet, fidonet, usenet и
т.д. Со временем стало ясно, что конкуренция сетей должна быть заменена их объединением,
так как от этого выигрывают все и пользователи и сервис-провайдеры. Ведь объединенная
сеть имеет большие информационные ресурсы, может предложить более широкий список
услуг и становится по этой причине привлекательной для еще большего числа клиентов.
В сентябре 2014 число WEB-сайтов в мире достигло 1,022,954,603, впервые число WEB-
сайтов в мире превысило миллиард! (в ноябре 2014 заргистрировано 947,029,805 WEB-
сайтов, в декабре - 915,780,262, в феврале 2015г - 883,419,935, а в марте - 878,346,052 -
падение на 5 млн. WEB-сайтов за месяц). Если раньше наблюдался стабильный рост этого
числа, то в последние месяцы бывают и спады, что свидетельствует о наступлении периода
стабилизации. В мае 2015 получены отклики от 857,927,160 сайтов и 5,281,889 компьютеров.
Впервые на рисунке шкала имеет 10 миллиардов узлов.
В перспективе Интернет может стать и всемирной ярмаркой товаров и услуг. Ведь клиент
может не только увидеть изображение товара и ознакомиться с условиями поставки, но и в
диалоговом режиме получить ответы на интересующие его вопросы, а затем одним нажатием
на клавишу мышки сделать заказ на понравившийся ему товар или услугу. В принципе для
этого не нужен даже номер кредитной карточки, его заменит зашифрованный
соответствующим образом идентификатор пользователя (сертификат) или его IP-адрес (если
он работает на своей домашней машине, а машина имеет GPS-привязку). Таким образом,
можно будет заказывать билеты на самолет или в театр, планировать программу своего
телевизора на неделю вперед и т. д.
Теперь рассмотрим, как строятся каналы связи (стрелки на рис. 1.5). В простейшем случае
связь можно организовать через городскую коммутируемую телефонную сеть, для этого
нужны модемы - по одному на каждой из сторон канала (Рис. 1.5a). Традиционные модемы
могут обеспечить при хорошем качестве коммутируемой аналоговой телефонной сети
пропускную способность до 56 Кбит/с (кабельные широкополосные модемы при длине
соединения порядка 2км могут обеспечить 2 Мбит/с). Привлекательность такого решения
заключается в возможности подключения к любому узлу, имеющему модемный вход.
Наиболее широко указанный метод связи используется для подключения к узлам Интернет
домашних ЭВМ. Недостатком такого решения является низкая надежность канала (особенно
в России), малая пропускная способность и необходимость большого числа входных
телефонных каналов и модемов.
N=4/3×S2
где S – число строк, а 4/3 – отношение ширины кадра к его высоте (для широкоформатного
варианта отношение будет иным). Отсюда следует, что верхняя частота видеосигнала.
F=(N×K}/2=(2×S2×K)/3=6,5МГц
где K – число кадров в сек. Здесь следует немного добавить полосы для звукового
сопровождения, передачи цвета и различных служебных целей, например, для
синхронизации передатчика и приемника. Именно это определяет необходимую полосу для
каждого из телевизионных каналов, число которых может достигать уже сегодня 20-60, что
требует полосу при традиционной схеме более 130-390 мегагерц.
Частота строчной развертки при этом составляет 625×25=15,625 КГц. Несущая частота
должна быть в раз 8-10 больше 6,5 МГц, то есть превышать 48 МГц. Реально большинство
каналов работают на частотах от 100 до 900 МГц. Радиоволны в этом диапазоне не способны
огибать препятствия и по этой причине гарантируют надежный прием лишь при
непосредственной видимости между антеннами передатчика и приемника. Кривизна земли
является естественным ограничителем максимального радиуса надежного приема
телевизионного сигнала. Телевидение высокого разрешения, идущее на смену
традиционному, требует еще большей полосы и частот. На подходе также и стерео
телевидение. Телевидения стало основой и видео-телефонии. В городах телевизионный
сигнал чаще передается по оптоволоконным кабелям.
Уже более десятилетия существует система стерео телевидения с проектированием
изображения непосредственно на глазное дно человека. Эта система используется в шлемах
устройств виртуальной реальности.
Рис. 1.6. Требования к пропускной способности канала для различных видов сервиса.
Для целей идентификации и для платежных систем внедряется технология NFC (Near Front
Communication). Появились первые коммерческие квантовые компьютеры. Продолжаются
попытки создания искусственного интеллекта (семантические сети и машина Watson).
Мобильные устройства приближаются по мощности и функциональности к персональным
машинам.
Может возникнуть вопрос, зачем так много сетевых технологий? Почему не выбрать
наилучшую сетевую технологию, наилучшую ОС и не использовать их повсеместно? Ведь
такая унификация может дать существенный экономический выигрыш.
Киберугрозы и кибервойны
Компьютерные программы стали не только средством, облегчающим жизнь, но и средством
войны. Кибероружие разрабатывается во многих странах. К информационным войнам,
которым уже более 100 лет, добавились кибервойны. В 2007 году состоялась массированная
сетевая атака на Государственный департамент США, министерство экономики, обороны,
энергетики, NASA и некоторые другие правительственные структуры США. Это событие
некоторые американцы называют информационным Пирл-Харбором. По оценкам экспертов
украденный объем данных составил терабайты (сравнимо с суммарным объемом
информации в библиотеке Конгресса США). В 2010 году президент Б.Обама объявил защиту
от кибероружия приоритетной государственной задачей.
“It is now clear this cyber threat is one [of] the most serious economic and national security
challenges we face as a nation,” (Сейчас ясно, что киберугроза является одной из наиболее
серьезных экономических и национальных вызовов, с которым столкнулись мы, как нация.)
Б.Обама. См. Cyberwar: Sabotaging the System Managing Network-Centric Risks and Regulations
Представители разведки США считают, что основной угрозой для США сегодня являются
кибер атаки (James Clapper, руководитель национальной безопасности администрации
Обамы и Robert Mueller, директор ФБР).
Так как все большие сферы жизни человека и государства зависят от эффективной работы
компьютерных сетей, именно такие объекты могут стать объектами атаки террористов.
Такие атаки могут дезорганизовать работу транспорта, энергетических сетей, банковскую
систему и пр. (атаки против банков в связи со скандалом с WikiLeaks на практике показали
эффективность таких атак).
Начало января 2012 ознаменовалось серией атак хакеров на ближнем востоке. Сначала хакер
0xOmar из ОАЭ опубликовал данные более 20000 кредитных карт израильтян. 9-го января
хакеры взломали сайт зам. министра иностранных дел Израиля, обещавшего найти и
наказать 0xOmar. Затем была предпринята атака на сайты авиакомпании El Al и финансовой
биржи Тель-Авива. Кроме того была предпринята попытка проникнуть в базу данных одного
из крупных банков Израиля. Арабские сетевые партизаны получили поддержку
мусульманского проповедника Тарика Ас-Сувейдана, призвавшего начать кибер джихад
против Израиля. 10-го января последовал ответ израильских хакеров. Сначала хакер под
именем 0xOmer опубликовал данные сотен клиентов интернет-магазинов в Саудовской
Аравии. Затем хакер с именем Ганнибал 17-го января опубликовал данные 30000 (или даже
100000) арабских пользователей социальной сети Facebook. Тогда же хакеры заявили, что им
удалось нарушить работу саудовской фондовой биржи и биржи ценных бумаг Абу Даби. В
армии Израиля сформирована группа в 300 хакеров. Но осознание губительности эскалации
взаимных атак привело к тому, что в настоящее время они прекращены.
В условиях войны важно уметь надежно и быстро распознавать своего врага. Именно это
стимулирует разработчиков кибероружия сделать его невидимым (атаки нулевого дня). В
таких условиях враг становится невидимкой и по этой причине особенно опасным.
Из практики известно, что примерно 20-100 строк кода содержат по крайней мере одну
ошибку (по завершении отладки). В ядре любой операционной системы содержится 5-100
миллионов строк кода. А еще имеется оболочка и прикладные программы. Таким образом,
на любой машине работает 10-200 миллионов строк кода (дистрибутив Debian содержит
даже 350 миллионов строк кода). Это означает, что в программах, работающих на вашей
машине, присутствует до 100000 ошибочных строк кода. Вы можете сказать, моя машина
работает. Но разве вы не сталкивались с ситуациями зависания программ, из которых вы
выходили перезапустив программу или перезагрузив компьютер? Большинство таких
ошибок находятся на редко посещаемых ветвях программ или, например, в комментариях.
Основные ошибки удалены из программ при отладке. Другие - при доводке (вспомним
альфа, бета-версии программ). Число ошибок может быть минимизировано, если
разработчики следуют жестким правилам, например, Правилам Хольцмана.
Но даже при самых жестких критериях число ошибок на 1000 строк кода не равно нулю.
Именно по этой причине все шире используются codechecker'ы, которые ищут ошибки не
синтаксиса, как это делают традиционные отладчики, а алгоритма. Но даже они не
гарантируют отсутствия ошибок. Разработка программ, которые даже при наличии
ошибок, гарантируют устойчивую работу или хотя бы достаточно надежный результат -
дело будущего. А программные ошибки, например, в коде управления пассажирским
лайнером могут иметь печальные последствия. Следует также иметь в виду, что хакеры для
вторжения используют именно ошибки в кодах. Получение надежной программы сегодня
результат компромиса между трудоемкостью и безопасностью.
Что может стать следующим этапом развития ИТ? Сказать это достаточно сложно. Возможно
будут разработаны инженерные методы имплантирования знаний в мозг человека. Впрочем
нужда в этом может отпасть, если людям удастся разработать компактные средства
искусственного интеллекта высокой мощности.
Интернет вещей
Интернет вещей – глобально связанная система приборов, объектов и предметов,
базирующаяся на технологии RFID.
Термин Интернет вещей был предложен Кевином Эштоном (Kevin Ashton) в 2009 году.
Интернет вещей предполагает формирование среды, где все объекта окружающего мира - от
транспортных самолетов до авторучек имели выход в Интернет. Появляется возможность
взаимодействия людей с этими предметами, а также общения этих предметов между собой.
Согласно прогнозам компании ABI Research более 30 млрд. устройств будут беспроводным
способом подключены к Интернету вещей к 2020 году.
В сетевом журнале InfoWorld появилась заметка, где утверждается, что Интернет вещей еще
не будет масштабно работать в 2014 году (см. "The Internet of things will not arrive in 2014",
Bill Snyder, InfoWorld, December 12, 2013). Это объясняется нерешенностью проблем
безопасности, питания и управления сетью. Предполагается, что Интернет вещей будет
способствовать росту энергопотребления в мире. В этой среде каждый пользователь станет
администратором, что не будет способствовать ее безопасности.
Окружающий мир быстро изменяется, он стал тотально связанным, см. "Realising the
benefits of a totally connected world", Cliff Saran. Появляется Интернет вещей, который еще
более изменит среду жизни. Контроллеры управления отоплением жилых помещений (200
фунтов стерлингов) уже поступили в продажу. Компания Ксерокс разработала систему
автоматизации управления городским трафиком в Лос Анжелесе (7000 датчиков). Эта
система контролирует даже занятость парковочных мест и динамически меняет расценки за
парковку. Революционные преобразования ждут систему управления аэропортами и доками
(Лондон). Компания Coca-Cola надеется с помощью этой технологии лучше учитывать вкусы
потребителей для своих питейных автоматов.
Передача данных уже на самых ранних этапах использовала цифровые подходы (например,
коды Бодо). Понятно, что, когда информация предназначена непосредственно для человека,
она должна быть соответствующим образом преобразована. Это, прежде всего, относится к
передаче голоса. По каналам связи передаются, как правило, модулированные сигналы.
Несущая частота передачи, например, при трансляции по радиоканалу на порядки
превосходит частоты голосового сигнала. Модуляция позволяет решить проблему
согласования частот. Но следует иметь в виду, что модуляция используется не только в
радиоканалах. Современные цифровые методы передачи также немыслимы без применения
модуляции.
Преобразование частот
Для преобразования частот используется перемножение сигналов. Пусть мы имеем два
синусоидальных сигнала:
Это означает, что в результате перемножения вместо двух частот f1= и f2= мы
имеем две новые частоты ( и ( с амплитудой 1/2*A1*A2. Если входной
сигнал имеет полосу 0 - fм, то после перемножения с сигналом, имеющим частоту fн (несущая
частота), получим сигнал с полосой в интервале от (fн - fм) до (fн+fм). Это преобразование
проиллюстрировано на рис. 2.1. (по вертикальной оси отложена спектральная плотность
сигнала f(j )). На практике это преобразование выполняется с помощью смесителей или
гетеродинов, частота fн называется сигналом гетеродина или несущей.
Если имеется N субъектов, которые хотят осуществлять обмен информацией в одном и том
же частотном диапазоне, они должны осуществлять обмен по очереди (метод
мультиплексирования по времени - TDM) или передаваемые ими сигналы должны
отличаться каким-то еще параметром помимо частоты (например, амплитудой или
направлением излучения). Если это условие не выполнено, весьма вероятно искажение
данных при доставке. Вы наверняка сталкивались с этим, когда за столом пытаются говорить
сразу несколько человек.
[2.1]
где F - полоса пропускания канала в Гц, а V - число дискретных уровней сигнала на выходе
цифрового преобразователя. Суть теоремы Найквиста-Котельникова заключается в том, что
при полосе сигнала F частота стробирования должна быть больше 2F, чтобы принимающая
сторона могла корректно восстановить форму исходного сигнала. По этой причине для
стандартного телефонного канала с полосой F=3кГц, при отсутствии шумов и при V=2
нельзя получить скорость передачи более 6кбит/с. Здесь нет противоречия с теоремой
Шеннона. Ведь в отсутствие шумов значение V не будет иметь ограничения сверху! Здесь не
имеется в виду, что максимальная амплитуда сигнала может достигнуть киловольтов.
Согласитесь, телефонных абонентов такая перспектива вряд ли бы порадовала. Но в
отсутствии шумов можно и в пределах одного вольта представить себе любое число уровней
сигнала. Фактически теорема Шеннона проясняет то, как уровень шумов ограничивает
предельное значение V при заданной максимальной амплитуде сигнала.
По этой причине еще висящие кое-где телеграфные провода обречены. Надо заметить, что и
медные телефонные провода, закопанные в земле, ждет та же участь. Предстоит выкопать
миллионы тонн медных кабелей (похоже, российские бомжи уже начали эту работу).
Медные провода будут заменены оптоволоконными волноводами.
История теоремы Найквиста поучительна. В России считается, что эту теорему на несколько
лет раньше доказал Котельников, но из соображений секретности ему ее не разрешили
опубликовать. В СССР этим преимуществом никто не воспользовался, но приоритет был для
нашей страны утрачен и во всем остальном мире эта теорема заслуженно носит имя
Найквиста. Это хороший пример вреда, наносимого системой секретности в науке.
Следует иметь в виду, что реальная пропускная способность для конкретного пользователя
определяется не только полосой пропускания канала, но и загруженностью его трафиком
других клиентов. Ведь и пропускная способность автомобильной магистрали зависит не
только от числа полос, но и загруженности автомобилями.
Стандартные проводные линии связи имеют ослабление 6 дБ/км на частоте 800 Гц, или 10
дБ/км на частоте 1600 Гц. С самого начала развития телефонии проводная система и
оборудование проектировалось исходя из возможностей человеческого уха и голосового
аппарата. По этой причине все традиционные системы телефонии имели полосу пропускания
3-3,5КГц. На рис. 2.1.1 показана зависимость ослабления от частоты передаваемого сигнала
для медной линии с сечением 0,5 мм.
Рис. 2.1.1. Зависимость ослабления сигнала в медной линии сечением 0,5мм от частоты
Из формулы [2.1] видно, что расширять пропускную способность канала можно за счет
широкополосности и высокого отношения сигнал-шум. Существует много источников шума,
один из главных тепловые шумы (N = kTB, где T – температура в градусах Кельвина, B –
полоса пропускания приемника, а k – постоянная Больцмана). На практике существенно
большее влияние оказывают различного рода наводки. Увеличeние пропускной способности
сети достигается путем сокращения длины кабеля (уменьшение расстояния между узлами
сети), заменой типа кабеля, например, на провод с большим сечением, или применив
оптоволоконный кабель. Определенный эффект может быть получен и с помощью
усовершенствованной системы шумоподавления (новый, более эффективный модем).
Рис. 2.1.2. Зависимость волнового импеданса скрученной пары и фазы (сечение 0,5мм) от
частоты
Источник сигнала и приемник находятся по одну сторону кабеля (NEXT - near end
crosstalk);
Приемник и источник находятся на разных концах кабеля (FEXT - far end crosstalk).
NEXT-наводки при большом числе пар проводов в кабеле подчиняются закону f1.5 , а их
уровень составляет около 55 дБ при частоте 100 кГц. FEXT-наводки сильно зависят от схемы
коммутации и разводки проводов и обычно менее опасны, чем NEXT. Еще одним
источников наводок является импульсный шум внешних электромагнитных переходных
процессов. Этот вид наводок обычно характеризуется процентом времени, в течении
которого его уровень превышает порог чувствительности, и варьируется в зависимости от
обстоятельств в очень широких пределах.
При передаче по линии сигналы модулируются, при этом важно обеспечить сохранение
среднего уровня сигнала (постоянной составляющей). Определенные искажения сигнала
вносит сам кабель. Заметное влияние на характер искажений оказывает межсимвольная
интерференция (ISI - Intersymbol Interference). Эта интерференция возникает из-за
расплывания импульсов в процессе их передачи по линии и наезжания их друг на друга.
Проблема усложняется тем, что характеристики передающей линии могут меняться со
временем (коммутаторы и маршрутизаторы). По этой причине очень важно обеспечить
идентичность условий передачи различных частот при наличии таких вариаций. Для
решения этой задачи используются линейные эквилайзеры (рис. 2.1.3 и 2.1.4), которые
выполняют эту операцию во всем спектре частот, или после стробирования для реального
спектра сигнала. Этот метод чувствителен к шумам в системе. Эквилайзеры с решающей
обратной связью (DFE - Decision Feedback Equalizer) не чувствительны к шумам, они
управляются принятой информацией. Но влияние ошибок при приеме информации в этом
случае может быть усилено.
Обычно двухпроводная линия (тем более 4-х проводная) используется для одновременного
двухстороннего обмена (full duplex). Эта задача может быть решена схемотехнически
мультиплексированием по времени (TDD - Time Division Duplex) или частоте (FDD -
Frequency Division Duplex). TDD довольно легко реализовать, этот метод не требует сложных
фильтров и эквилайзеров. Метод TDD привлекателен при малых длинах кабеля для
коммутируемых телефонных сетей.
Эхоподавление
Рис. 2.1.5. Схема эхо-компенсации
Более широко для реализации двухстороннего обмена по одной паре проводов используется
метод эхо-компенсации. Этот метод предполагает вычитание передаваемого сигнала из
принимаемого, определяя тем самым истинную форму входного сигнала. Если на
приведенном рисунке 2.1.5 Zвх равно волновому сопротивлению линии, то выходной сигнал
передатчика не будет влиять на работу приемника. Здесь предполагается, что выходное
сопротивление передатчика много меньше z= zлинии. Учитывая вариации ослабления сигнала,
схема эхо-компенсации должна уметь работать в очень широком динамическом диапазоне
амплитуд, сохраняя удовлетворительную линейность. Это обстоятельство, а также
зависимость zлинии от частоты, приводит к заметному усложнению схем эхо-компенсации
(Рис. 2.1.6). Системы эхо-компенсации весьма чувствительны к временному разбросу
срабатывания пороговых схем, так как это приводит к фазовому сдвигу вычитаемых друг из
друга сигналов.
Любой транзистор или тем более полупроводниковый ключ имеет сравнимую с этим
временем задержку передачи сигнала. Как же тогда достигается такое быстродействие?
Во весь рост эта проблема встала уже перед разработчиками магистральных многоканальных
(до 1000 и более) переключателей сетей АТМ. Там, хотя тактовая скорость всего 150 Мбит/c,
система должна принимать решение за время меньше одной наносекунды, так как ячейки
могут приходить через все входы одновременно, поднимая загрузку центрального
коммутатора в 1000 и более раз. Можете себе представить масштаб проблемы для 1000-
канальных ATM-коммутаторов, работающих при рабочих частотах 622 Мбит/с?
Весьма важной темой при построении сетей является оптимизация их топологии. Эта
проблема решается марштутизацией пакетов или потоков. В одних сетях выбор маршрута
обмена определяется на фазе формирования виртуального соединения (X.25, ISDN, ATM,
Frame Relay и т.д.), в других, например в Интернет (TCP/IP), маршрут выбирается
динамически и может быть изменен в ходе сессии, если текущий путь окажется недоступен
или, если откроется возможность движения по более короткому пути.
UP: 2 Преобразование, кодировка и передача информации
Игорь Губерман
Шумы определяют емкость канала и задают частоту ошибок при передаче цифровых
данных. Шум по своей природе нестабилен и можно говорить лишь о том, что его величина с
некоторой вероятностью лежит в определенном интервале значений. Плотность вероятности
p(x) определяет вероятность того, что случайный сигнал X имеет значение амплитуды в
интервале между x и x+x. При этом вероятность того, что значение х лежит в интервале
между x1 и x2 определяется равенством:
меньше некоторой величины y равна , откуда следует, что P{x1 <="" x2} = P(x2) – P{x1}, а
Так называемый белый шум подчиняется непрерывному нормальному (Гауссову) распределению , где а – среднее
значение x, а σ – среднеквадратичное отклонение х от a. В случае шумов среднее значение х с учетом полярности часто принимает нулевое значение (а=0).
В этом случае, если мы хотим знать вероятность того, что амплитуда шумового сигнала лежит в пределах v, то можно воспользоваться выражением
Для вычисления P{x1<x<-x1} обычно используются равенства
Распределение P(x) обычно называется функцией ошибок (erf(x) = -erf(-x)). Полезной с практической точки зрения является вероятность
P{-k σs}=Pk(kσ) = , которая позволяет оценить возможность того, что шумовой сигнал превысит некоторый порог, заданный значением k.
Как уже говорилось, во многих случаях шум имеет гауссово распределение с нулевым средним значением амплитуды. В этих случаях среднее значение
мощности шумового сигнала равно вариации функции плотности вероятности. В этом случае отношение сигнал-шум будет равно:
2
. Если шум носит чисто тепловой характер, то σ =kTB, где k - постоянная Больцмана, Т - абсолютная
2
температура, а B - полоса сигнала на входе приемника. В общем случае σ = EnB [Вт], где полоса B измеряется в Гц, En - энергия шума.
Если сигнал стационарный, можно принудительно понижать B, путем усреднения или фильтрации. Самый доступный метод уменьшения уровня шумов -
снижение температуры T. В каждом конкретном случае нужно учитывать, что помимо тепловых существуют и другие виды шумов (фликкер, межгалактический
и пр.). Но тепловой шум обычно превалирует.
Шум определяет вероятность ошибки при передаче сообщения по каналу связи и, в конечном итоге, пропускную способность канала (см. теорему Шеннона;
раздел 2.1 Передача сигналов по линиям связи ).
Высокую надежность. Если шум ниже входного порога, его влияние не ощущается,
возможна повторная посылка кода.
Отсутствие зависимости от источника информации (звук, изображение или
цифровые данные).
Возможность шифрования, что повышает безопасность передачи.
Независимость от времени. Можно передавать не тогда, когда информация
возникла, а когда готов канал.
На практике число нулей или единиц следующих подряд не лимитировано. По этой причине
на принимающей стороне при этом рано или поздно возникает проблема синхронизации
временных шкал передатчика и приемника. Для решения этой проблемы существует два
метода передачи данных: синхронный и асинхронный. Асинхронный метод используется
для относительно низкоскоростных каналов передачи и автономного оборудования.
Синхронный метод применяется в скоростных каналах и базируется на пересылке
синхронизующего тактового сигнала по отдельному каналу или путем совмещения его с
передаваемыми данными. При наличии синхронизации приемника и передатчика можно
допустить более длинные последовательности нулей или единиц, что способствует
повышению пропускной способности. На рис. 2.2.2 показана схема канала, использующая
технику импульсно-кодовой модуляции. Импульсно-кодовая модуляция (ИКМ) была
предложена в 30-ые годы 20-го века, но реализована лишь в 1962 году.
Шаг квантования в АЦП должен быть много меньше диапазона вариации входного сигнала.
Число уровней квантования n выбирается из соображений минимизации искажений сигнала
и повышения уровня s/n. При разумных предположениях (биполярность сигнала (+V -V),
однородность распределения уровня сигнала в рабочем диапазоне, ошибка квантования не
более S/2, где S шаг квантования, и т.д.) [S/N]db = 10 log10(22n) = 6n (N - шум квантования при
этом равен S2/12). Это означает, что при 2n уровнях квантования и при условии, что входной
сигнал может варьироваться во всем рабочем диапазоне АЦП, отношение сигнал-шум (S/N),
связанное с самим процессом квантования, будет равно 6n при n=8 это составит 48 дБ).
Отсюда следует известное значение относительного расстояния между уровнями
квантования, равное 6 дБ. Звуковой сигнал может иметь динамический диапазон 40 дБ, что
создает определенные проблемы, которые преодолеваются путем прямого и обратного
логарифмического преобразования (см. рис. 2.4.1).
Асинхронный режим
Типичный кадр данных в асинхронном канале начинается со стартового бита, за которым
следует 8 битов данных. Завершается такой кадр одним или двумя стоп-битами. Стартовый
бит имеет полярность противоположную пассивному состоянию линии и переводит
приемник в активное состояние. Пример передачи такого кадра показан на рис. 2.2.3.
Манчестерский код
Рис. 2.2.6. Кодирование сигнала с использованием манчестерского кода.
По этой причине система кодирования AMI была модифицирована в HDB3 (High Density
Bipolar 3). Цифра 3 указывает на максимально возможное число последовательных нулей в
кодовой последовательности. AMI требует, чтобы <1> передавались попеременно сигналами
противоположной полярности, так последовательность 11011 должна быть передана как +-
0+-. HDB3 заменяет любую группу из 4 нулей последовательностью из 3 нулей, за которой
следует нарушение последовательности отображения единиц. Таким образом,
последовательность 11000001 будет отображена как +-000-0+ (возможен инверсный вариант,
когда символы + заменяются на - и наоборот). Дальнейшего улучшения балансировки
сигнала можно достичь, если заменить код, содержащий 4 нуля подряд,
последовательностью b00v (b - обычный биполярный сигнал, v - нарушение
последовательности). В США используют схему кодировки B8ZS (Bipolar with 8 Zeros
Substitution), где 8 нулей кодируются как 00b0vb0v. В 1986 году ansi принял решение о
введение схемы кодирования 2B1Q (2 Binary into 1 Quaternary). При этой схеме каждая пара
бит преобразуется в четверичные элементы +3 +1 -1 -3. Код синхронизации (SW -
Synchronization Word) при этом содержит 9 четверичных элементов, повторяющихся каждые
1.5 мс:
Таблица 2.2.1.
Название
Расшифровка Описание
метода
Один бит исходной последовательности кодируется
1B2B
комбинацией из 2 бит половинной длительности
B3ZS bipolar with
Биполярный код с заменой 000/000000/00000000 на
B6ZS 3/6/8 zero
последовательности 00v/0vb0vb/000vb0vb (или b0v для B3ZS)
B8ZS substitution
HDB2 (/3) High density Биполярный код высокой плотности второго (третьего) порядка.
bipolar code of Эквивалентен коду с возвратом к нулю (RZ) и с инверсией для
order 2 (/3) логических 1. Последовательность 000 (соответственно 0000)
заменяется на 00v или b0v (соответственно 000v или b00v).
Число b сигналов между v-сигналами всегда нечетно. В
результате возникает трехуровневый код.
Двухуровневый двоичный код (класса 1B2B) без возвращения к
нулю. Используется инверсия полярности для каждой
coded mark
CMI логической 1 (единице ставится в соответствие 11 или 00), а для
inversion
каждого логического нуля вводится смена полярности в
середине интервала.
Кадр содержит 120 пар бит (quats), что соответствует 240 бит, 8 кадров образуют
мультифрэйм. Первый кадр мультифрэйма выделяется путем посылки Inverted
Synchronization Word (ISW). В конце каждого кадра всегда присутствуют специальные биты,
которые служат для целей управления (бит активации, бит холодного старта, биты состояния
питания, биты управления синхронизацией и т.д.). Структура кадра выглядит следующим
образом:
Такая схема при числе входных и выходных каналов равном N=1000 требует миллиона
элементарных переключателей. Можно рассмотреть вариант, когда используются
коммутаторы с n входами и k выходами. Схема коммутатора с N=16, n=4 и k=2 показана на
рис. 2.2.9. Число элементарных переключателей в таком коммутаторе М равно:
M = 2kN + k(N/n)2
Рис. 2.3.1. Структура кадров для американского (вверху) и европейского (внизу) стандартов
передачи данных
Скорости передачи 1,544 (кодирование B8ZS) и 2,048 Мбит/с (HDB3) называются
первичными скоростями. Кадры структурированы так, что временные домены (таймдомен на
рис. 2.3.1) для передачи данных по каналам B1 и B2 чередуются. В Европе используется
2048Мбит/с интерфейс. Каждый 6-ой кадр используется для сигнальных целей. Количество
временных доменов в кадре определяет число телефонных разговоров, которые могут
осуществляться одновременно. Для американского стандарта это число равно 24, а для
европейского 30 (в последнем случае учтено то, что часть доменов используется в
служебных целях).
А- и мю-преобразования
Адаптивные преобразователи голоса в код
Стандарт MUSICAM
Телефонные сети
А- и мю-преобразования
y ~ log(1 +x) (так называемая -зависимость [-law])
В Европе используется функция преобразования вида:
y ~ ax в области значений x вблизи нуля и
y ~ 1 + log(Ax) при “больших” значениях x (A-зависимость [a-law], см. рис. 2.4.1)
Для компактных музыкальных дисков (CD) характерна полоса 50Гц - 20 кГц, обычная же
речь соответствует полосе 50 Гц - 7 кГц. Только звуки типа Ф или С имеют заметные
составляющие в высокочастотной части звукового спектра. Для высококачественной
передачи речи используется субдиапазонный ADPCM-преобразователь (Adaptive Differential
Pulse Code Modulation). В нем звук сначала стробируется с частотой 16 кГц, производится
преобразование в цифровой код с разрешением не менее 14 бит, а затем подается на
квадратурный зеркальный фильтр (qmf), который разделяет сигнал на два субдиапазона
(50Гц-4кГц и 4кГц-7кГц). Диапазоны этих фильтров перекрываются в области 4кГц.
Нижнему диапазону ставится в соответствие 6 бит (48кбит/с), а верхнему 2 бита (16 Кбит/с).
Выходы этих фильтров мультиплексируются, формируя 64 кбит/с -поток.
Стандарт MUSICAM
На CD используется 16-битное кодирование с частотой стробирования 44,1 кГц, что создает
информационный поток 705 Кбит/c. Для стерео сигнала этот поток может удвоиться.
Практически это не так - сигналы в стереоканалах сильно коррелированы, и можно
кодировать и передавать лишь их разницу, на практике высокочастотные сигналы каналов
суммируются, для различия каналов передается код их относительной интенсивности.
Исследования показывают, что для акустического восприятия тонкие спектральные детали
важны лишь в окрестности 2 кГц. Для передачи звуковой информации с учетом этих
факторов был разработан стандарт MUSICAM (Masking pattern Universal Sub-band Integrated
Coding and Multiplexing), который согласуется с ISO MPEG (Moving Picture Expert Group;
стандарт ISO 11172). При кодировании музыкальных произведений не всякие комбинации
звуков возможны (они воспринимались бы как неблагозвучные). Это является базой для
дополнительного сжатия музыкальных данных. C точки зрения энтропии одной ноте
соответствует <3 бита. Анологичное утверждение справедливо и для передачи человеческого
голоса, только здесь вместо нот следует рассматривать фонемы. При разговоре за счет
вариации скорости произношения информационный поток может варьироваться до 5 раз.
MUSICAM развивает идеологию деления звукового диапазона на субдиапазоны, здесь 20кГц
делится на 32 равных интервалов. Логарифмическая чувствительность человеческого уха и
эффект маскирования позволяет уменьшить число разрядов кодирования. Эффект
маскирования связан с тем, что в присутствии больших звуковых амплитуд человеческое ухо
нечувствительно к малым амплитудам близких частот. Причем чем ближе частота к частоте
маскирующего сигнала, тем сильнее этот эффект (см. рис. 2.4.4). Сплошной линией на
рисунке показана нормальная зависимость порога чувствительности уха, а пунктиром -
зависимость порога чувствительности в присутствии 500-герцного тона с амплитудой в 110
дБ.
Рис. 2.4.4. Изменение порога чувствительности человеческого уха под влиянием эффекта
маскирования.
Телефонные сети
Люди, работающие на ЭВМ дома, часто подсоединяются к Интернету посредством модема
через коммутируемую телефонную сеть с привлечением протоколов SLIP или PPP. Схема
подключения показана на рис. 2.17.
Быстродействие
Линия OC-x Число аудио каналов STM-x
Мбит/с
1 51,84 672 -
3 155,52 2016 1
9 466,56 6048 3
12 622.08 8064 4
24 1244,16 16128 8
48 2488,32 32256 6
6 976,64 4512 2
92 953,28 29024 4
2.4.1 Дельта-модуляция
Семенов Ю.А. (ИТЭФ-МФТИ)
Yu. Semenov (ITEP-MIPT)
Если скорость нарастания входного сигнала велика, то уровень на выходе ЦАП будет
отставать и сможет нагнать In(t) только, когда входной сигнал начнет уменьшаться. Данный
метод не является разумной альтернативой PCM. Для улучшения характеристик дельта-
преобразователя реверсивный счетчик можно заменить цифровым процессором, при этом
шаг S становится переменным, но кратным некоторому базовому значению.
Существуют много других способов кодирования человеческого голоса, среди них наиболее
эффективный реализован в приборах, носящих название - вокодер (VOCODER).
Несколько лет назад появился новый вид услуг в Интернет - голосовая связь (IP-phone,
Vocaltec, Skype). Сегодня имеется 30 миллионов абонентов, регулярно пользующихся IP-
phone и его аналогами, ожидается до 200 миллионов до конца текущего десятилетия,
качество передачи постепенно приближается к уровню цифровой телефонии.
Среди пользователей есть те, для кого это лишь возможность общения, как для
радиолюбителей; но все больше людей использует IP-phone для деловых контактов или даже
как объект бизнеса.
Таблица 2.4.3.1.
ftp://cs.ucl.ac.uk/mice/videoconference
http://www.pulver.com/netwatch
http://www.planeteers.com
http://www.newparadigm.com
http://www.vocaltec.com
http://www.itelco.com
http://www.quarterdeck.com
Е(фонемы) =Е(буквы) × n
где n - среднее число букв, приходящихся на одну фонему (средняя длина фонемы в буквах).
Для английского языка n≈1,2.
Связь может осуществляться как с традиционной старой аналоговой телефонной сетью, так и
с ISDN. Телефонные аппараты могут подключаться непосредственно к интерфейсу
маршрутизатора, к сетевой рабочей станции или к специальному сетевому адаптеру.
Стек протоколов Н.323 представлен в таблице ниже (Э.Танненбаум, Компьютерные сети, 4-е
издание, стр. 776).
Речь Управление
G.7xx Q.931 H.245
H.225
RTCP (Сигналы при (Управление
RTP (RAS)
вызове) вызовами)
UDP TCP
Протокол передачи данных
Протокол физического уровня
JPEG
MPEG-1 и -2
Интерактивное телевидение
MPEG-4
MPEG-7
MPEG-21
Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на
каждую из трех цветовых компонент). Самое интересное, что человеческий глаз не способен
различить такое число оттенков! Таким образом, для описания картинки на экране,
содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой
информации по B-каналу ISDN, если не используется сжатие данных, потребуется около 2,5
минут. Эта цифра помогает понять актуальность проблемы сжатия графической
информации. XGA-стандарт дисплея (1024×768 × 24 бита на пиксел при 24 кадрах/сек)
требует потока цифровых данных 453 Мбит/с.
При передаче чисто текстовой информации электронная почта имеет по этой причине
абсолютное преимущество перед факсом, ведь в случае факса передается отсканированное
черно-белое изображение. В перспективе можно ожидать внедрения обязательного сжатия
информации при передаче почтовых сообщений с последующей дешифровкой данных
принимающей стороной. Первым шагом на этом пути является внедрение системы MIME.
Такое усовершенствование электронной почты сделает ее еще более грозным конкурентом
факс-машин. Ведь передача графических образов уже не является монополией
факсимильных систем, а возможность шифрования почтовых сообщений (например, в PGP)
и электронные подписи делает электронную почту более устойчивой в отношении перехвата.
Стандарт JPEG (Joint Photographic Expert Group) имеет четыре режима и много опций. Схема
работы алгоритма JPEG с частичной потерей данных показана на рис. 2.5.3. Коэффициент
сжатия данных составляет 20:1 или даже больше.
В 1970 году в Бритиш Телеком были разработаны основные принципы еще одного вида
передачи графической информации - телетекста, первые опыты по его внедрению относятся
к 1979 году. Стандарт на мозаичное представление символов был принят CEPT в 1983 году.
Каждому символу ставится в соответствие код длиной в 7-8 бит. На экране такой символ
отображается с помощью специального знакового генератора, использующего таблицу.
Известно, что для корректной передачи цвета требуется 16 миллионов оттенков (8 бит на
каждую из трех цветовых компонент). Таким образом, для описания картинки на экране,
содержащей 575 линий по 720 пикселей, требуется 1,240 Мбайта. Для передачи такой
информации по B-каналу ISDN, если не используется сжатие, потребуется около 2,5 минут.
Эта цифра помогает понять актуальность проблемы сжатия графической информации. Таким
образом, чтобы выдержать конкуренцию со стороны электронной почты разработчикам
факс-систем нужно упорно работать.
[2.5.1]
где v - горизонтальная координата графического блока, u - вертикальная, x - вертикальная
координата внутри блока, а y - горизонтальная координата внутри блока, C(u), C(v) = 1/
для u,v = 0 и С(u), С(v) = 1 в противном случае. Два члена в квадратных скобках являются
ядрами преобразования, показанными ниже на рис. 2.5.4, а p(x,y) представляет собой
пиксельные данные блока реального рисунка. Начало координат в обоих случаях в верхнем
левом углу. Процесс кодирования сводится к разбиению изображения на блоки 8*8 пикселей
и выполнению процедуры двухмерного DCT для каждого из этих блоков. Полученные
коэффициенты преобразования дискретизируются. 64 числа, характеризующие уровень
сигнала, превращаются в 64 коэффициента преобразования (амплитуды пространственных
частот), которые хорошо поддаются процедуре сжатия. Дискретизатор округляет
коэффициенты, эта процедура вносит некоторые ошибки, но обратное преобразование на
принимающей стороне за счет усреднения частично устраняет вносимые искажения. На
практике дискретизатор реализует несколько более сложный алгоритм.
DCT обеспечивает сжатие на уровне 0.5-1.0 бит/пиксель при хорошем качестве изображения.
Сжатие требует времени, а максимально приемлемым временем задержки при пересылке
изображения является 5 секунд. На рис. 2.5.5 приведена качественная оценка четкости и
соответствия оригиналу изображения в зависимости от величины сжатия (DCT). Если
использовать скорость обмена 64 кбит/с, то степени сжатия 0,01 бита на пиксель будет
соответствовать время передачи изображения 0,04 секунды, а сжатию 10 - время передачи
40сек.
Рис. 2.5.5. Качество DCT-изображения для различных значений сжатия информации
(картинка имеет разрешение 512*512 пикселей; заполненные квадратики соответствуют
цветному изображению, а незаполненные - черно-белому)
Все системы сжатия требуют наличия двух алгоритмов: один для сжатия данных
отправителем, другой для восстановления получателем. Эти алгоритмы принципиально
асимметричны. Во-первых, для многих приложений мультимедийный документ, например,
фильм может быть сжат один раз (при записи на сервер или DVD-диск), а декодироваться
тысячи раз на стороне клиентов. По этой причине процедура сжатия может быть достаточно
сложной, дорогой и долгой. Алгоритм же декодирования должен быть достаточно простым и
дешевым. Впрочем, в случае видеоконференций медленное кодирование (сжатие)
совершенно неприемлемо. По этой причине алгоритмы сжатия данных в реальном масштабе
времени принципиально отличаются от алгоритмов кодирования данных при записи на
видео или DVD.
314159260000000000000271828182811111111110707193800000002001
31415926R0132718281828R11007071938R072001
a. снижение числа строк до 288 (формат 625 строк) для отображения яркости;
b. использование максимально возможного сжатия графических данных;
c. повышение пропускной способности канала. Для разрешение по горизонтали вполне
достаточно 3 Мгц. Рекомендация 601 требует 720 пикселей для яркости и 360 для
каждой из составляющих цветов. В настоящее время используется стандарт CIF
(Common Intermediate Format). Для некоторых приложений рекомендовано вдвое
более низкое разрешение по каждой из осей (quarter CIF). PCM-кодирование CIF с 8
битами на пиксель требует 352х288х(1+1/4+1/4)х29.97х8 = 36.5 Мбит/с.
Проблема сжатия информации была, есть и всегда будет актуальной. При известных
современных методах, чем больше эффективность сжатия - больше задержка (наилучший
результат можно получить, используя сжатие всего фильма, чем кадра или тем более
строки). В каждом конкретном случае выбирается то или иное компромиссное решение. При
работе в реальном масштабе времени, где в процессе обмена участвует человек, задержки
более секунды вызывают раздражение, и приходится ограничиваться сравнительно
скромными коэффициентами сжатия.
Ядро всей структуры составляет процедура передачи кадра (внутренний слой, существуют
еще слои GoB, MB и блока, см. рис. 2.5.7, 2.5.8, 2.5.9)
GBSC - (Group of Blocks Start Code) представляет собой 16-разрядное слово, за которым
следует 4 бита номера GoB (GN - GoB number). GN указывает, какой части изображения
соответствует данный GoB. Поле gquant имеет 5 бит и указывает на номер преобразователя
(одного из 31 дискретизаторов), который используется данным GoB. Смысл GEI идентичен
PEI. GEI и GSpare позволяют сформировать структуру данных, идентичную той, что
используется на уровне кадра.
Формат пересылки mb сложнее (см. [17]). Каждый GoB делится на 33 макроблока (MB),
каждый из которых соответствует 16 строкам по 16 пикселей Y (четыре блока 8*8) и CB и CR.
Каждый макроблок начинается с его адреса MBA (MacroBlock Address), имеющего
переменную длину и определяющего положение макроблока в GoB.
Рис. 2.5.8. Блок-схема кодирования и передачи изображения
Сама природа алгоритма кодирования и передачи графических данных такова, что число бит
передаваемых в единицу времени зависит от характера изображения. Чем динамичнее
изменяется картинка, тем больше поток данных. Для выравнивания потока данных широко
используется буферизация. Буферизация в свою очередь порождает дополнительные
задержки, которые в случае видео-конференций или видео-телефонии не должны превышать
нескольких сотен миллисекунд.
Так как при передаче изображения широко используются коды переменной длины, она
крайне уязвима для любых искажений. В случае ошибки будет испорчена вся информация
вплоть до следующего стартового кода GoB. Из-за рекурсивности алгоритма формирования
картинки, искажения будут оставаться на экране довольно долго. Использование векторов
перемещения может привести к дрейфу искажений по экрану и расширению их области. Для
того чтобы уменьшить последствия искажений, в передаваемый информационный поток
включаются коды коррекции ошибок BCH (511,493; Forward Error Correction Code), которые
позволяют исправить любые две ошибки или кластер, содержащий до 6 ошибок в блоке из
511 бит (см. рис. 2.5.10). Алгоритм работает в широком диапазоне скоростей передачи
информации. Для реализации коррекции ошибок в поток двоичных данных включается 8
пакетов, каждый из которых включает в себя 1 кадровый бит, 1 бит индикатор заполнения,
492 бита кодированных данных и 18 бит четности. Поле Fi (индикатор заполнения) может
равняться нулю, тогда последующие 492 бита не являются графической информацией и
могут игнорироваться. Алгоритм предназначен для работы в динамическом диапазоне частот
40:1.
Рис. 2.5.10. Схема передачи данных с коррекцией ошибок
При работе с каналами на 384, 1536 и 1920 Кбит/с сервисный канал использует тайм-слот 1.
Следующие 8 бит имеют название BAS (Bit Allocation Signal) и выполняют следующие
функции:
Очевидно, что BAS-коды (H.242) должны быть надежно защищены от ошибок. Для этой
цели они пересылаются с использованием кодов, допускающих коррекцию ошибок. При
работе оба приемника непрерывно ищут разделительный код кадров. Когда он обнаружен,
бит А для выходного канала делается равным нулю. Только после получения А=0 терминал
может быть уверен в том, что удаленный терминал правильно воспринял код BAS. Работа с
кодами BAS описана в документе H.242. При установлении режима обмена терминалы
обмениваются командами BAS. Команда действительна для последующих двух кадров,
следовательно, при частоте кадров 100 Гц, изменения режима могут производиться каждые
20 мс.
Рисунок известного французского художника Клода Серрэ из книги “Черный юмор и люди в
белом” (см. начало раздела) может служить иллюстрацией того, к чему может привести
использование протокола TCP при передаче изображения в реальном масштабе времени.
Предположим, что в процессе передачи изображения носа пакеты были повреждены, тогда
спустя некоторое время, определяемое размером окна (TCP), будет проведена повторная их
передача. Тем временем переданные ранее пакеты будут использованы для построения
изображения, а часть картинки, содержавшаяся в пакетах, посланных вместо поврежденных,
будет отображена совсем не там, где это следует. Реально из-за повреждения пакетов
возможны в этой версии и более тяжелые искажения изображения. Именно это является
причиной использования UDP для передачи видео и аудио информации при видео и аудио
конференциях (еще лучшего результата можно достичь, использую протокол RTP).
Протокол UDP не требует подтверждения и повторной передачи при ошибке доставки.
Поврежденные пакеты вызовут искажения изображения (или звука) лишь локально.
Стандарт MPEG-1 и -2
Стандарт MPEG 1 (ISO 11172; см. http://www.chiariglione.org/mpeg/standards /mpeg-1/mpeg-
1.htm) определяет методы сжатия данных, позволяющие довести скорости передачи видео- и
аудио информации до 1,5 Мбит/с, что соответствует скоростям обмена обычных CD-ROM.
Стандарт MPEG-2 содержит в себе 9 частей. Первые три стали международными
стандартами MPEG-2. (см. http://www.chiariglione.org/mpeg/ standards/ mpeg-2/mpeg-2.htm;
ISO/IEC JTC1/SC29/WG11).
Часть 1 MPEG-2 относится к объединению одного или более элементарных аудио или видео
потоков, а также прочих данных в один или несколько потоков, удобных для записи или
передачи.
Транспортный поток объединяет один или более потоков PES с общей или разными
временными шкалами. Элементарные потоки с общей временной шкалой образуют
программу. Транспортный поток формируется для использования в относительно
ненадежной среде, где вероятны ошибки, например память или транспортная среда с
высоким уровнем наводок или шума. Пакеты транспортного потока имеют длину 188 байт.
<tdx< td=""></tdx<>
SNR Пространственно
Уровень Простой Основной Высокий Multiview 4:2:2
масштаб масштабируемый
Высокий X X
Высокий-
X X X
1440
Основной X X X X X
Низкий X X
С момента окончательного одобрения MPEG-2 Видео в ноябре 1994, был разработан еще
один профайл. Он использует существующие средства кодирования MPEG-2 Видео, но
способен работать с изображениями, имеющими разрешение 4:2:2 и более высокую скорость
передачи. Несмотря на то, что MPEG-2 Видео не разрабатывался для студийных целей, серия
выполненных тестов показала, что MPEG-2 достаточно хорош, а во многих случаях даже
лучше, чем предлагается спецификациями, разработанными для более высоких скоростей
передачи или студийных приложений.
Профайл 4:2:2 был окончательно одобрен в январе 1996 и сейчас является неотъемлемой
частью стандарта MPEG-2 Видео.
Работа над форматом MPEG-2 была завершена в 1997 г. Стандарт MPEG-2 является
усовершенствованием MPEG-1 и базируется на схеме шифрования с потерями и передачи
без потерь. Кодирование в MPEG-2 идентично используемому в MPEG-1 (I- P- и B-кадры; D-
кадры не используются). I-кадр (Intracoded) представляет собой изображение,
закодированное согласно стандарту JPEG при полном разрешении по яркости и половинном
разрешении по цвету. Такие кадры должны появляться периодически, чтобы исключить
накопления ошибок (включаются в выходной поток 1-2 раза в сек). Эти кадры обеспечивают
совместимость с MPEG-1. P-кадры (Predictive) содержат отличие блоков в последнем кадре
изображения по отношению к предыдущему кадру. P-кадры базируются на идее
макроблоков, которые содержат 16*16 пикселей яркости и 8*8 пикселей цветности. Для
декодирования P-кадра необходимо иметь исчерпывающие данные о предыдущем кадре. B-
кадры (Bi-directional) характеризуют отличие двух последовательных изображений. B-кадры
сходны с P-кадрами, но позволяют устанавливать связь макроблоков не только с
предшествующим, но и с последующим кадром. Кадры следуют в последовательности: I B B
P B B P B B I. Здесь применено двойное косинусное преобразование с числом
коэффициентов 10*10 (против 8*8 в MPEG-1). D-кадры (DC-Coded) используются, для
получения изображения низкого разрешения при быстрой перемотке вперед или назад.
Из этих данных можно получить оценку сверху для пропускной способности визуального
канала человека. Из-за инерциальности человек не различает более 25 кадров в секунду. Один
кадр содержит 1920*1080*24=49766400 бит (здесь предполагается, что человек может
различать 224 оттенков цветов (в реальности возможности много ниже). Угол нашего зрения
много шире телесного угла, перекрываемого телевизионным экраном, но относительно
высокое разрешение мы имеем лишь в близи той точки, на которую мы сфокусировались.
Таким образом, мы можем воспринимать <<1244 Мбит/сек. Практически, эта оценка на
несколько порядков выше реального значения. Понятно, что мозг может обработать на много
порядков меньший объем информации. Оценку возможностей нашей обработки можно
получить из скорости быстрого чтения, когда человек воспринимает содержимое страницы за
время порядка 15 сек. Страница содержит примерно 3 кбайта, что дает скорость
приблизительно 200 байт в сек. Эту цифру можно считать оценкой снизу (ведь буква это
графический образ, а не байт).
Тип кадра
i p b Средний
mpeg-1 (1,15 Мбит/с) 150,000 50,000 20,000 38,000
mpeg-2 (4 Мбит/c) 400,000 200,000 80,000 130,000
Интерактивное телевидение
В последнее время благодаря широкому внедрению цифрового телевидения и новых
стандартов передачи изображения (MPEG-2) открылись возможности для "телевидения по
требованию" (интерактивного телевидения) - системы, где клиент может самостоятельно и
индивидуально формировать ТВ-программу. Первые опыты такого рода относятся к 1995
году. Такие системы базируются на существующих сетях кабельного телевидения. Но
развитие оптоволоконных технологий позволяют ожидать полной интеграции кабельного
цифрового телевидения и информационных сетей Интернет. Следует, впрочем, заметить, что
оптоволокно в каждом жилище является пока непозволительной роскошью. Общая схема
такой системы показана на рис. 2.5.15.
Цены на цветные принтеры в настоящее время спустились ниже 100 долларов, таким
образом нужная копия уже сейчас дешевле стоимости газеты. Экономия на бумаге и
средствах доставки очевидны, да и необходимость в типографиях отпадет, ведь даже книги
можно будет получить непосредственно дома (хотя привлекательность данной услуги и не
вполне очевидна - хорошо сброшированная и переплетенная книга будет привлекательным
объектом еще долго (прогноз относительно будущих книг сотри в разделе "Заключение").
Массовое внедрение таких технологий будет стимулировать падение цен на
соответствующие процессоры и принтеры. Интерактивная схема подключения телевизора-
терминала сделает возможным многие новые виды развлечений, а также выполнение многих
покупок, не выходя из дома. Традиционной почте подписала отсроченный приговор почта
электронная, но появление интерактивных широкополосных средств завершит
многовековую историю почты (да и телеграфа). Ей будет оставлена доставка товаров,
билетов и документов. Побочным продуктом прогресса в данной области станет
общедоступный видеотелефон. Схема видео-сервера представлена на рис. 2.5.16.
Принципиально новым шагом в обработке мультимедиа стал стандарт MPEG-4, где впервые
был введен объектный подход к анализу изображений и звука. Здесь же введено понятие
сцены и базовые принципы ее описания, заложены основы интерактивного взаимодействия
слушателя/зрителя со сценой, впервые рассматриваются в практической плоскости вопросы
интеллектуальной собственности.
MPEG-4 является стандартом ISO/IEC разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал такие известные стандарты как MPEG-1 и MPEG-2. Эти
стандарты сделали возможным интерактивное видео на CD-ROM и цифровое телевидение.
MPEG-4 является результатом работы сотен исследователей и разработчиков всего мира.
Разработка MPEG-4 (в ISO/IEC нотации имеет название ISO/IEC 14496) завершена в октябре
1998. Международным стандартом он стал в начале 1999. Полностью совместимый
расширенный вариант MPEG-4 версия 2 был разработан к концу 1999 и стал международным
стандартом в начале 2000. Работы над этим документом продолжаются (см.
http://sound.media.mit.edu/mpeg4/SA-FDIS.pdf). MPEG-4 предназначен для решения трех
проблем:
Цифровое телевидение;
Интерактивные графические приложения (synthetic content);
Интерактивное мультимедиа World Wide Web.
текст и графика;
говорящие синтезированные головы и ассоциированный текст, использованный для
синтеза речи и анимации головы;
синтезированный звук
2.2. Системы
Как объяснено выше, MPEG-4 определяет набор алгоритмов улучшенного сжатия для аудио
и видео данных. Потоки данных (Elementary Streams, ES), которые являются результатом
процесса кодирования, могут быть переданы или запомнены независимо. Они должны быть
объединены так, чтобы на принимающей стороне возникла реальная мультимедийная
презентация.
Двоичный формат для сцен BIFS (Binary Format for Scenes) описывает
пространственно-временные отношения объектов на сцене. Зрители могут иметь
возможность взаимодействия с объектами, например, перемещая их на сцене или
изменяя свое положение точки наблюдения в 3D виртуальной среде. Описание сцены
предоставляет широкий набор узлов для композиционных 2-D и 3-D операторов и
графических примитивов.
На нижнем уровне, Дескрипторы объектов OD (Object Descriptors) определяют
отношения между элементарными потоками, имеющими отношение к конкретному
объекту (например, аудио- и видео-потоки участников видеоконференции). OD
предоставляют также дополнительную информацию, такую как URL, необходимые
для доступа к элементарным потокам, характеристики декодеров, нужных для их
обработки, идентификация владельца авторских прав и пр.
2.3. Аудио-система
MPEG-4 аудио предлагает широкий перечень приложений, которые покрывают область от
понятной речи до высококачественного многоканального аудио, и от естественных до
синтетических звуков. В частности, он поддерживает высокоэффективную презентацию
аудио объектов, состоящих из:
2.4. Видео-система
Стандарт MPEG-4 Видео допускает гибридное кодирование естественных (пиксельных)
изображений и видео вместе с синтезированными сценами (генерированными на ЭВМ). Это,
например, допускает виртуальное присутствие участников видеоконференций. Видео
стандарт содержит в себе средства и алгоритмы, поддерживающие кодирование
естественных (пиксельных) статических изображений и видео последовательностей, а также
средства поддержки сжатия искусственных 2-D и 3-D графических геометрических
параметров.
3.1. Системы
Версия 2 систем MPEG-4 расширяет версию 1, с тем, чтобы перекрыть такие области, как
BIFS-функциональность и поддержка Java (MPEG-J). Версия 2 также специфицирует
формат файлов для записи содержимого MPEG-4.
3.2. Видео-системы
3.2.1. Натуральное видео
Видео MPEG-4 версия 2 добавляет новые возможности в следующих областях:
3.3. Звук
MPEG-4 Аудио версия 2 является расширением MPEG-4 Аудио версия 1. В новой версии
добавлены новые средства и функции, все прежние возможности и функции сохранены.
Версия 2 MPEG-4 Аудио предоставляет следующие возможности:
3.4. DMIF
Основные средства, вводимые DMIF версия 2 предоставляют поддержку (ограниченную)
мобильных сетей и мониторирования QoS.
4.2. Системы
4.2.1. Advanced BIFS
Продвинутый BIFS предоставляет дополнительные узлы, которые могут быть использованы
в графе сцены для мониторирования доступности и управляемости среды, такие как посылка
команд серверу, продвинутый контроль воспроизведения, и так называемый
EXTERNPROTO, узел, который обеспечивает дальнейшую совместимость с VRML, и
который позволяет написание макросов, определяющих поведение объектов. Предусмотрено
улучшенное сжатие данных BIFS, и в частности оптимальное сжатие для сеток и для
массивов данных.
Формат XMT может быть изменен участниками SMIL, VRML, и MPEG-4. Формат может
быть разобран и воспроизведен непосредственно участником W3C SMIL, преобразован в
Web3D X3D и заново воспроизведен участником VRML, или компилирован в презентацию
MPEG-4, такую как mp4, которая может быть затем воспроизведена участником MPEG-4.
Ниже описано взаимодействие с XMT. Это описание содержит в себе MPEG-4, большую
часть SMIL, масштабируемую векторную графику (Scalable Vector Graphics), X3D, а также
текстуальное представление описания MPEG-7 (смотри http://www.cselt.it/mpeg, где имеется
документация на стандартe MPEG-7).
XMT содержит два уровня текстуального синтаксиса и семантики: формат XMT-A и формат
XMT-Ù.
Модель FlexTime базируется на так называемой метафоре "пружины". Пружина имеет три
ограничения: минимальная длина, менее которой она не сжимается, максимальная длина,
при которой она может оборваться, и оптимальная длина, при которой она остается ни
сжатой, ни растянутой. Следуя модели пружины, временные воспроизводимые медиа-
объекты могут рассматриваться как пружины, с набором длительностей воспроизведения,
соответствующих этим трем ограничениям пружины. Оптимальная длительность
воспроизведения (оптимальная длина пружины) может рассматриваться как
предпочтительный выбор автора для длительности воспроизведения медиа-объекта.
Участник, где возможно, поддерживает длительность воспроизведения настолько близко к
оптимальному значению, насколько позволяет презентация, но может выбрать любую
длительность между минимальной и максимальной, как это специфицировал автор. Заметим,
что поскольку растяжение или сжатие длительности в непрерывных средах, например, для
видео, подразумевает соответствующее замедление или ускорение воспроизведения, для
дискретных сред, таких как статическое изображение, сжатие или растяжение сопряжено в
основном с модификацией периода рэндеринга.
5. Профайлы в MPEG-4
MPEG-4 предоставляет большой и богатый набор средств для кодирования аудио-
визуальных объектов. Для того чтобы позволить эффективную реализацию стандарта,
специфицированы субнаборы систем MPEG-4, средств видео и аудио, которые могут
использоваться для специфических приложений. Эти субнаборы, называемые ‘профайлами’,
ограничивают набор средств, которые может применить декодер. Для каждого из этих
профайлов, устанавливается один или более уровней, ограничивающих вычислительную
сложность. Подход сходен с MPEG-2, где большинство общеизвестных комбинаций
профайл/уровень имеют вид ‘главный_профайл @главный_уровень’. Комбинация
профайл@уровень позволяет:
Существуют профайлы для различных типов медиа содержимого (аудио, видео, и графика) и
для описания сцен. MPEG не предписывает или рекомендует комбинации этих профайлов,
но заботится о том, чтобы обеспечить хорошее согласование между различными областями.
16. Продвинутый простой профайл выглядит как простой, здесь он содержит только
прямоугольные объекты, но он имеет несколько дополнительных средств, которые
делают его более эффективным: B-кадры, компенсация перемещения ¼ пикселя и
компенсация общего перемещения.
17. Масштабируемый профайл тонкой гранулярности допускает большое число
масштабных уровней - до 8 - так что качество доставки можно легко адаптировать к
условиям передачи и декодирования. Он может использоваться с простым или
продвинутым простым в качестве базового уровня.
18. Простой студийный профайл является профайлом с очень высоким качеством для
применения в приложениях студийного редактирования. Он работает только с I-
кадрами, но он действительно поддерживает произвольные формы и большое число
alpha-каналов. Возможная скорость передачи достигает 2 Гбит/c.
19. Центральный студийный профайл добавляет P-кадры к простому студийному
варианту (Simple Studio), делая его более эффективным, но требующим более сложной
реализации.
a) Сеть
b) Сцена
c) Ресурс
В настоящее время определен только один профайл, который включает все эти средства. В
контексте слоев для этого профайла могут быть определены некоторые ограничения,
например, допуск только одной временной шкалы.
6. Верификационное тестирование:
проверка работы MPEG
MPEG выполняет верификационные тесты для проверки того, предоставляет ли стандарт то,
что должно быть. Результаты испытаний можно найти на базовой странице MPEG:
http://www.cselt.it/mpeg/quality_tests.htm
6.1. Видео
6.1.1. Тесты эффективности кодирования
6.1.1.1. Низкие и средние скорости передачи бит (версия 1)
При испытаниях для низкой и средней скорости передачи, рассматривались
последовательности кадров, которые следуют стандарту MPEG-1. (MPEG-2 будет
идентичным для прогрессивных последовательностей за исключением того, что MPEG-1
немного более эффективен, так как имеет несколько меньшую избыточность заголовков).
Тест использует типовую тестовую последовательность для разрешений CIF и QCIF,
закодированный с идентичными условиями по скорости передачи для MPEG-1 и MPEG-4.
Тест был выполнен для низких скоростей от 40 кбит/с до 768 кбит/с.
При интерпретации этих результатов, нужно заметить, что главный профайл MPEG-4 более
эффективен, чем MPEG-1 и MPEG-2.
Результаты показывают, что в среднем качество видео, полученное для мобильного канала,
является высоким, что воздействие ошибок в видео MPEG-4 остается локальным, и что
качество быстро восстанавливается по завершении блока ошибок.
6.2. Звук
Аудио-технология MPEG-4 состоит из большого числа средств кодирования.
Верификационные тесты выполнялись в основном для небольшого набора средств
кодирования, которые имеет сходные области использования, чтобы их можно было
сравнивать. Так как сжатие является критическим параметром в MPEG, сравнение
производилось при сходных скоростях обмена.
Работа различных средств кодирования MPEG-4 представлена в таблице ниже. Для лучшей
оценки свойств технологии MPEG-4 в тесты были включены несколько кодировщиков от
MPEG-2 и ITU-T и их оценка также включены в таблицу. Результаты из различных тестов не
следует сравнивать.
AAC 2 96 4.4
AAC 1 24 4.2
Масштабируемый: CELP база и
1 6 base, 18 enh. 3.7
улучшение AAC
AAC 1 18 3.2
BSAC 2 96 4.4
BSAC 2 80 3.7
BSAC 2 64 3.0
AAC - LD (однопроходная
1 64 4.4
задержка 20 мсек)
G.722 1 32 4.2
AAC - LD (однопроходная
1 32 3.4
задержка 30 мсек)
Twin VQ 1 6 1.8
HILN 1 16 2.8
HILN 1 6 1.8
Деятельность M4IF начинается там, где кончается активность MPEG. Сюда входят позиции,
с которыми MPEG не может иметь дело, например, из-за правил ISO, таких как патентная
чистота.
8.1. DMIF
DMIF (Delivery Multimedia Integration Framework) является протоколом сессии для
управления мультимедийными потоками поверх общих средств доставки данных. В
принципе это имеет много общего с FTP. Единственное (существенное) отличие заключается
в том, что FTP предоставляет данные, DMIF предоставляет указатели, где получить данные
(streamed).
Как следствие, уместно заявить, что интегрирующая система DMIF покрывает три главные
технологии, интерактивную сетевую технику, широковещательную технологию и работу с
дисками; это показано на рис. 4 ниже.
DMIF допускает одновременное присутствие одного или более интерфейсов DMIF, каждый
из которых предназначен для определенной технологии доставки данных. Одно приложение
может активировать несколько технологий доставки.
Когда приложению нужен канал, оно использует примитивы канала DAI, DMIF транслирует
эти запросы в запросы соединения, которые являются специфическими для конкретных
запросов сетевых реализаций. В случае сценариев широковещания и локальной памяти,
метод установления соединения и последующего управления находится за пределами
регламентаций MPEG-4. В случае сетевого сценария напротив, DMIF использует свой
сигнальный механизм для формирования и управления соединением. Это соединение
используется приложением для целей доставки данных.
На рис. 6 предоставлена схема активации верхнего уровня и начало обмена данными. Этот
процесс включает в себя четыре этапа:
8.2. Демультиплексирование,
синхронизация и описание потоков данных
Отдельные элементарные потоки должны быть выделены на уровне доставки из входных
данных некоторого сетевого соединения или из локального устройства памяти. Каждое
сетевое соединение или файл в модели системы MPEG-4 рассматривается как канал
TransMux. Демультиплексирование выполняется частично или полностью слоями вне
области ответственности MPEG-4. Единственным демультиплексирующим средством,
определенным MPEG-4, является FlexMux, которое может опционно использоваться для
снижения задержки, получения низкой избыточности мультиплексирования и для экономии
сетевых ресурсов.
MPEG-4 определяет модель системного декодера. Это позволяет точно описать операции
терминала, не делая ненужных предположений о деталях практической реализации. Это
важно для того, чтобы дать свободу разработчикам терминалов MPEG-4 и декодирующих
приборов. Это оборудование включает в себя широкий диапазон аппаратов от
телевизионных приемников, которые не имеют возможности взаимодействовать с
отправителем, до ЭВМ, которые полноценный двунаправленный коммуникационный канал.
Некоторые приборы будут получать потоки MPEG-4 через изохронные сети, в то время как
другие будут использовать для обмена информацией MPEG-4 асинхронные средства
(например, Интернет). Модель системного декодера предоставляет общие принципы, на
которых могут базироваться все реализации терминалов MPEG-4.
8.2.1. Демультиплексирование
Демультиплексирование происходит на уровне доставки, который включает в себя слои
TransMux и DMIF. Извлечение входящих информационных потоков из сетевого соединения
или из памяти включает в себя два этапа. Во-первых, каналы должны быть найдены и
открыты. Это требует наличия некоторого объекта, который осуществляет транспортный
контроль и устанавливает соответствие между транспортными каналами и специальными
элементарными потоками. Таблица карты таких потоков связывает каждый поток с
ChannelAssociationTag (канальной меткой), которая служит указателем для канала, через
который идет поток. Определение ChannelAssociationTags для реального транспортного
канала, а также управление сессией и каналами осуществляется DMIF-частью стандарта
MPEG-4.
Средство FlexMux специфицировано MPEG для того, чтобы опционно предоставить гибкий
метод, имеющий малую избыточность и задержку для переукладки данных в тех случаях,
когда ниже лежащие протоколы не поддерживают это. Средство FlexMux само по себе
недостаточно устойчиво по отношению к ошибкам и может либо использоваться в каналах
TransMux с высоким QoS, либо для объединения элементарных потоков, которые достаточно
устойчивы к ошибкам. FlexMux требует надежного детектирования ошибок. Эти требования
реализованы в информационных примитивах прикладного интерфейса DMIF, который
определяет доступ к данным в индивидуальных транспортных каналах. Демультиплексор
FlexMux выделяет SL-потоки из потоков FlexMux.
Слой sync имеет минимальный набор средств для проверки согласованности, чтобы передать
временную информацию. Каждый пакет состоит из блока доступа или фрагмента блока
доступа. Эти снабженные временными метками блоки образуют единственную
семантическую структуру элементарных потоков, которые видны на этом уровне.
Временные метки используются для передачи номинального времени декодирования.
Уровень sync требует надежного детектирования ошибок и кадрирования каждого
индивидуального пакета нижележащего слоя. Как осуществляется доступ к данным для слоя
сжатия, определяется интерфейсом элементарных потоков, описание которого можно найти
в системной части стандарта MPEG-4. Слой sync извлекает элементарные потоки из потоков
SL.
Для того чтобы понизить чувствительность к задержке времени доставки, модель FlexTime
основывается на так называемой метафоре "пружины", смотри раздел 4.2.3.
Важно заметить, что существует два класса объектов MPEG-4. Синхронизация и рэндеринг
объекта MPEG-4, который использует элементарный поток, такого как видео, не
определяется одним потоком, но также соответствующими узлами BIFS и их
синхронизацией. В то время как синхронизация и рэндеринг объекта MPEG-4, который не
использует поток, такой как текст или прямоугольник, определяется только
соответствующими узлами BIFS и их синхронизацией.
Модель буферов для flextime может быть специфицировано следующим образом: "В любое
время от момента, соответствующего его DTS, вплоть до границы времени, заданной
Flextime, AU немедленно декодируется и удаляется из буфера." Так как точное время
удаления из буфера декодирования AU может варьироваться, нельзя быть уверенным, что
оно будет удалено раньше наихудшего времени (максимальная задержка для медиа-потока).
Используя наихудшее время, а не время, заданное DTS, буфер декодирования может
управляться и не так, как предписывается MPEG-4.
8.4. Описание синтаксиса
MPEG-4 определяет язык синтаксического описания чтобы характеризовать точный
двоичный синтаксис для двоичных потоков, несущих медиа-объекты и для потоков с
информацией описания сцены. Это уход от прошлого подхода MPEG, использовавшего язык
псевдо C. Новый язык является расширением C++, и используется для интегрированного
описания синтаксического представления объектов и классов медиа-объектов и сцен. Это
предоставляет удобный и универсальный способ описания синтаксиса. Программные
средства могут использоваться для обработки синтаксического описания и генерации
необходимого кода для программ, которые выполняют верификацию.
Для того чтобы облегчить авторскую разработку, а также создание средств манипулирования
и взаимодействия, описания сцены кодируются независимо от потоков, имеющих отношение
в примитивным медиа-объектам. Специальные меры предпринимаются для идентификации
параметров, относящихся к описанию сцены. Это делается путем дифференциации
параметров, которые используются для улучшения эффективности кодирования объектов
(например, векторы перемещения в алгоритмах видео-кодирования), а также те, которые
используются в качестве модификаторов объекта (например, положение объекта на сцене).
Так как MPEG-4 должен допускать модификацию последнего набора параметров без
необходимости декодировать самих примитивных медиа-объектов, эти параметры
помещаются в описание сцены, а не в примитивные медиа-объекты. Следующий список
предлагает некоторые примеры информации, представленные в описании сцены.
Мета данные в файле в сочетании с гибкой записью медийных данных в память позволяют
формату MP4 поддерживать редактирование, локальное воспроизведение и обмен, и тем
самым удовлетворять требованиям интермедиа MPEG4.
8.10. MPEG-J
MPEG-J является программной системой a programmatic system (в противоположность
параметрической системе MPEG-4 версия 1), которая специфицирует API для кросс-
операций медиа-проигрывателей MPEG-4 с программами на Java. Комбинируя среду MPEG-
4 и безопасный исполнительный код, разработчики материала могут реализовать
комплексный контроль и механизмы обработки их медиа в рамках аудио-визуальной сессии.
Блок-схема плеера MPEG-J в среде системного плеера MPEG-4 показана на рис. 10. Нижняя
половинка этого рисунка отображает системный параметрический плеер MPEG-4,
называемый также средство презентации (ДП). Субсистема MPEG-J, контролирующая ДП,
называется средством приложения (Application Engine), показана в верхней половине рис. 10.
Приложение Java доставляется в качестве отдельного элементарного потока, поступающего
на терминал MPEG-4. Оно будет передано MPEG-J, откуда программа MPEG-J будет иметь
доступ к различным компонентам и данным плеера MPEG-4. MPEG-J не поддерживает
загружаемых декодеров.
По выше указанной причине, группой был определен набор API с различными областями
применения. Задачей API является обеспечение доступа к графу сцены: рассмотрение графа,
изменение узлов и их полей, и добавление и удаление узлов графа. Менеджер ресурсов API
используется для управления исполнением: он обеспечивает централизованное средство
управления ресурсами. API терминальных возможностей (Terminal Capability) используется,
когда исполнение программы зависит от конфигурации терминала и его возможностей, как
статических (которые не меняются во время исполнения) так и динамических. API медийных
декодеров (Media Decoders) позволяет контролировать декодеры, которые имеются в
терминале. Сетевое API предлагает способ взаимодействия с сетью, являясь прикладным
интерфейсом MPEG-4 DMIF.
Для того чтобы достичь этой широкой цели функции различных приложений объединяются.
Следовательно, визуальная часть стандарта MPEG-4 предоставляет решения в форме средств
и алгоритмов для:
• Параметрические описания
Базовой идеей является то, что форма с серой шкалой не является единственной для
описания прозрачности видео объекта, но может быть определена в более общем виде.
Форма с серой шкалой может, например, представлять:
Форму прозрачности
Форму несоразмерности (Disparity shape) для многовидовых видео объектов
(горизонтальных и вертикальных)
Форму глубины (Depth shape) (получаемую посредством лазерного дальномера или
при анализе различия)
Инфракрасные или другие вторичные текстуры
Все альфа-каналы могут кодироваться с помощью средств кодирования формы, т.е. средства
двоичного кодирования формы и средства кодирования формы с серой шкалой, которые
используют DCT с компенсаций перемещения, и обычно имеют ту же форму и разрешение,
что и текстура видео объекта.
Общим принципом является ограничение числа пикселей, которые следует кодировать при
анализе соответствия между конкретными видами объекта, доступными на стороне
кодировщика. Все области объекта, которые видны со стороны более чем одной камеры,
кодируются только один раз с максимально возможным разрешением. Соотношения
несоразмерности могут быть оценены из исходных видов, чтобы реконструировать все
области, которые были исключены из кодирования путем использования проекции со
скомпенсированной несоразмерностью. Один или два вспомогательных компонентов могут
быть выделены, чтобы кодировать карты несоразмерности, указывающие на соответствие
между пикселями различных видов.
Двоичный формат систем для сцены BIFS (Systems Binary Format for Scenes), предоставляет
возможности поддержки анимации лица, когда нужны обычные модели и интерпретации
FAP:
Моделирование 2-D сетки привлекательно, та как 2-D сетки могут сформированы из одного
вида объекта, сохраняя функциональность, обеспечиваемую моделированием с
привлечением 3-D сеток. Подводя итог можно сказать, что представления с объектно-
ориентированными 2-D сетками могут моделировать форму (многогранная апроксимация
контура объекта) и перемещение VOP в неоднородной структуре, которая является
расширяемой до моделирования 3-D объектов, когда имеются данные для конструирования
таких моделей. В частности, представление видео-объектов с помощью 2-D-сетки допускает
следующие функции:
A. Манипуляция видео-объектами
B. Сжатие видео-объекта
Моделирование 2-D сеток может использоваться для сжатия, если выбирается
передача текстурных карт только определенных ключевых кадров и анимация этих
текстурных карт для промежуточных кадров. Это называется само преображением
выбранных ключевых кадров с использованием информации 2-D сеток.
9.8.4. 3D-сетки
Возможности кодирования 3-D сеток включают в себя:
"Ядро VLBV" (VLBV - Very Low Bit-rate Video) предлагает алгоритмы и средства для
приложений, работающих при скоростях передачи между 5 и 64 кбит/с, поддерживающие
последовательности изображений с низким пространственным разрешение (обычно ниже
разрешения CIF) и с низкими частотами кадров (обычно ниже 15 Гц). К приложениям,
поддерживающим функциональность ядра VLBV относятся:
Субъективные оценочные тесты показывают, что комбинация этих методик может дать
экономию в необходимой полосе канала до 50% по сравнению с версией 1, в зависимости от
типа содержимого и потока данных.
9.14.1. Ресинхронизация
Средства ресинхронизации пытаются восстановить синхронизацию между декодером и
потоком данных нарушенную в результате ошибки. Данные между точкой потери
синхронизации и моментом ее восстановления выбрасываются.
Маркер ресинхронизации используется чтобы выделить новый видео пакет. Этот маркер
отличим от всех возможных VLC-кодовых слов, а также от стартового кода VOP.
Информация заголовка размещается в начале видео пакета. Информация заголовка
необходима для повторного запуска процесса декодирования и включает в себя: номер
макроблока первого макроблока, содержащегося в этом пакете и параметр квантования,
необходимый для декодирования данный макроблок. Номер макроблока осуществляет
необходимую пространственную ресинхронизацию, в то время как параметр квантования
позволяет заново синхронизовать процесс дифференциального декодирования.
В заголовке видео пакета содержится также код расширения заголовка (HEC). HEC
представляет собой один бит, который, если равен 1, указывает на наличие дополнительной
информации ресинхронизации. Сюда входит модульная временная шкала, временное
приращение VOP, тип предсказания VOP и VOP F-код. Эта дополнительная информация
предоставляется в случае, если заголовок VOP поврежден.
Следует заметить, что, когда в рамках MPEG-4 используется средство восстановления при
ошибках, некоторые средства эффективного сжатия модифицируются. Например, вся
кодированная информация предсказаний заключаться в одном видео пакете так чтобы
предотвратить перенос ошибок.
В связи с концепцией ресинхронизацией видео пакетов, в MPEG-4 добавлен еще один метод,
называемый синхронизацией с фиксированным интервалом. Этот метод требует, чтобы
стартовые коды VOP и маркеры ресинхронизации (т.е., начало видео пакета) появлялись
только в легальных фиксированных позициях потока данных. Это помогает избежать
проблем, связанных эмуляциями стартовых кодов. То есть, когда в потоке данных
встречаются ошибки, имеется возможность того, что они эмулируют стартовый код VOP. В
этом случае, при использовании декодера с синхронизацией с фиксированным интервалом,
стартовый код VOP ищется только в начале каждого фиксированного интервала.
9.14.2. Восстановление данных
После того как синхронизация восстановлена, средства восстановления данных пытаются
спасти данные, которые в общем случае могут быть потеряны. Эти средства являются не
просто программами коррекции ошибок, а техникой кодирования данных, которая устойчива
к ошибкам. Например, одно конкретное средство, которое было одобрено видео группой
(Video Group), является обратимыми кодами переменной длины RVLC (Reversible Variable
Length Codes). В этом подходе, кодовые слова переменной длины сконструированы
симметрично, так что они могут читаться как в прямом, так и в обратном направлении.
Средство защиты от ошибок (EP tool) работает со всеми аудио объектами MPEG-4 версии 2,
предоставляя гибкую возможность конфигурирования для широкого диапазона канальных
условий. Главными особенностями средства EP являются следующие:
Верификационные тесты показали, что аспект масштабируемости этого средства ведет себя
достаточно хорошо в широком диапазоне скоростей передачи. При высоких скоростях оно
столь же хорошо, как главный профайл AAC, работающий на той же скорости, в то время
как при нижних скоростях функция масштабируемости требует скромной избыточности по
отношению к основному профайлу AAC, работающий на той же скорости.
Из-за очень низкой скорости передачи могут быть переданы только параметры для
ограниченного числа объектов. Следовательно, модель восприятия устроена так, чтобы
отбирать те объекты, которые наиболее важны для качества приема сигнала.
Декодеры TTS (Text To Speech) работают при скоростях передачи от 200 бит/с до 1.2 Кбит/с,
что позволяет использовать при синтезе речи в качестве входных данных текст или текст с
просодическими параметрами (тональная конструкция, длительность фонемы, и т.д.). Такие
декодеры поддерживают генерацию параметров, которые могут быть использованы для
синхронизации с анимацией лица, при осуществлении перевода с другого языка и для работы
с международными символами фонем. Дополнительная разметка используется для передачи
в тексте управляющей информации, которая переадресуется другим компонентам для
обеспечения синхронизации с текстом. Заметим, что MPEG-4 обеспечивает стандартный
интерфейс для работы кодировщика TTS (TTSI = Text To Speech Interface), но не для
стандартного TTS-синтезатора.
По инициативе ряда компаний (Philips Business Electronics, Sony и Nokia) была создана
экспертная группа по мультимедиа и гипермедиа MHEG (Multimedia Hypermedia Expert
Group (ISO/IEC DIS 13522-5, 1995г); см. http://www.mheg.org/users/mheg/archives.htm и
http://www.mheg.org/users/mheg/archives/ doc/dsmcc-mheg.zip), которая определила стандарт
для обмена мультимедийными объектами (видео, звук, текст и другие данные) между
приложениями и передачи их разными способами (локальная сеть, сети телекоммуникаций и
вещания) с использованием объектных классов MHEG. Этот стандарт позволил
программным объектам включать в себя любую систему кодирования, которая определена в
базовом приложении. MHEG, был принят советом по цифровому видео и звуку (DAVIC -
Digital Audio-Visual Council; см. http://www.mheg.org/users/mheg/archives/doc/ 14B94R10.zip).
MHEG-объекты создаются мультимедийными приложениями. MHEG - будущий
международный стандарт интерактивного TV
Перевод http://mpeg.telecomitalialab.com/standards/mpeg-7/
Контекст MPEG-7
Цель MPEG-7
Область действия стандарта
Главные функции MPEG-7
Эталонные программы
Архитектура терминала
Язык описания DDL
Аудио MPEG-7
Видео MPEG-7
Схемы описания мультимедиа
Эталонные программы: экспериментальная модель
MPEG-7 является стандартом ISO/IEC, разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал стандарты MPEG-1, MPEG-2 и MPEG-4. Стандарты MpeG-1
и MPEG-2 сделали возможным интерактивное видео на CD-ROM и цифровое телевидение.
Стандарт MPEG-4 предоставляет стандартизованные технологические элементы,
позволяющие интеграцию парадигм производства, рассылки и доступа к содержимому в
области цифрового телевидения, интерактивной графики и интерактивного мультимедиа.
http://www.cselt.it/mpeg
1. Введение
Огромное количество аудио-визуальной информации стало доступно в цифровой форме, в
виде цифровых архивов, во всемирной паутине, в виде широковещательных потоков, а также
в форме частных или профессиональных баз данных. Значение информации часто зависит
оттого, насколько ее легко найти, извлечь, отфильтровать и управлять.
MPEG-7 является стандартом ISO/IEC, разработанным MPEG (Moving Picture Experts Group),
комитетом, который разработал также стандарты MPEG-1 (1992), MPEG-2 (1995), и MPEG-4
(версия 1 в 1998 и версия 2 в 1999). Стандарты MPEG-1 и MPEG-2 позволили производить
широко распространенные коммерческие продукты, такие как интерактивные CD, DVD,
цифровое широковещательное аудио (DAB), цифровое телевидение, и многие другие
коммерческие услуги. MPEG-4 является первым реальным мультимедийным стандартом для
представления данных, позволяющим интерактивно работать с комбинациями натурального
и синтетического материала, закодированного в виде объектов (он моделирует аудио-
визуальные данные, как комбинацию таких объектов). MPEG-4 предоставляет
стандартизованные технологические элементы, допускающие интеграцию производства,
распределения и доступа к мультимедийному материалу. Это относится к интерактивному и
мобильному мультимедиа, интерактивной графике и улучшенному цифровому телевидению.
Аудиовизуальные источники будут играть в перспективе все большую роль в нашей жизни,
и будет расти необходимость обрабатывать такие данные. Это делает необходимым
обработку видов аудиовизуальной информации, имеющей волновую форму,
компрессированный формат (такой как MPEG-1 и MPEG-2) или даже объектно-
ориентированный (такой как MPEG-4) формат. Необходимы формы презентации, которые
позволяют некоторую степень интерпретации смысла информации. Эти формы могут быть
переданы в, или доступны для прибора или программы ЭВМ. В примерах приведенных выше
датчики изображения могут генерировать визуальные данные не в форме PCM (значения
пикселей), а в форме объектов с ассоциированными физическими величинами и временной
информацией. Эти объекты могут быть запомнены и обработаны с целью проверки,
выполняются ли определенные условия. Видео записывающий прибор может получить
описания аудиовизуальной информации, ассоциированной с программой, которая при
выполнении заданных условий выдаст команду на запись, например, только новости за
исключением спорта или запись фильма с автоматическим вырезанием вставок рекламы
(согласитеь, об этом сегодня можно только мечтать).
Так как описательные характеристики должны иметь смысл в контексте приложения, они
будут различными для разных приложений. Это подразумевает, что один и тот же материал
может быть описан различным образом в зависимости от конкретного приложения. Возьмем
в качестве примера визуальный материал: нижним уровнем абстракции будет описание,
например, формы, размера, текстуры, цвета, движения (траектории) и позиции ("где на сцене
может размещаться объект"). А для аудио: ключ, тональность, темп, вариации темпа,
положение в звуковом пространстве. Высшим уровнем представления будет семантическая
информация: "Это сцена с лающей коричневой собакой слева и голубым мячом, падающим
справа, с фоновым звуком проезжающих авто". Могут существовать промежуточные уровни
абстракции.
Все эти описания являются, конечно, эффективно закодированными для поиска, отбора и т.д.
Тип материала и запрос могут не совпадать; например, визуальный материал может быть
запрошен, используя визуальное содержимое, музыка, голос, и т.д. Согласование данных
запроса и описания MPEG-7 выполняется поисковыми системами и агентами фильтрации.
Овалами обозначены средства, которые выполняют операции, такие как кодирование или
декодирование, в то время как прямоугольниками отмечены статические элементы, такие как
описания. Пунктирные прямоугольники на рисунке окружают нормативные элементы
стандарта MPEG-7.
Главной задачей MPEG-7 будет предоставление новых решений для описания аудио-
визуального материала. Таким образом, чисто текстовые документы не являются объектами
MPEG-7. Однако аудио-визуальный материал может содержать и сопряженный с ним текст.
MPEG-7 будет, следовательно, рассматривать и поддерживать существующие решения,
разработанные другими организациями стандартизации для текстовых документов.
Это станет применимо для огромных архивов, которые станут доступны для широкой
публики, это придаст новый стимул для электронной торговли, так как покупатели смогут
искать нужный товар по видеообразцам. Информация, используемая для извлечения
материала, может также применяться агентами для отбора и фильтрации
широковещательного материала или целевой рекламы. Кроме того, описания MPEG-7
позволят быстрые и эффективные с точки зрения затрат полуавтоматические презентации и
редактирование.
Все области применения, базирующиеся на мультимедиа, выиграют от использования
MPEG-7. Ниже предлагается список возможных приложений MPEG-7, которые любой из
читателей без труда сможет дополнить:
“... язык, который позволяет формировать новые схемы описания и, возможно, дескрипторы.
Он также позволяет расширение и модификацию существующих схем описания”.
В качестве основы DDL был выбран язык XML. Как следствие, DDL может быть поделен на
следующие логические нормативные компоненты:
Цвет
Текстура
Форма
Движение
Локализация
Прочие
Помимо этого набора общих средств описания стандартизованы более сложные средства
описания. Они используются, когда нужно описать более одного вида медийного материала
(например, аудио и видео). Эти средства описания могут быть сгруппированы в 5 различных
классов согласно их функциональному предназначению:
Данные MPEG-7 могут быть представлены либо в текстовом, либо в двоичном формате, или
в виде комбинации этих форматов, в зависимости от типа приложения. MPEG-7 определяет
однозначную связь между двоичным и текстовым форматами. Возможно установление
двухсторонней однозначной связи между текстовым и двоичным представлениями. Следует
заметить, что это не всегда доступно: некоторые приложения могут не захотеть передавать
всю информация, содержащуюся в текстовом представлении, а могут предпочесть
использовать более эффективную с точки зрения полосы двоичную кодировку с потерями.
DDL должен удовлетворять требованиям MPEG-7 DDL. Он должен быть способен выражать
пространственные, временные, структурные и концептуальные взаимоотношения между
элементами DS и между DS. Он должен предоставить универсальную модель для связей и
ссылок между одним или более описаниями и данными, которые им описываются. Кроме
того, язык не должен зависеть от платформы и приложения и быть читаемым как машиной,
так и человеком. MPEG-7 должен базироваться на синтаксисе XML. Необходима также
система разборки DDL (парсинга), которая должна быть способна проверять схемы описания
(материал и структуру) и дескрипторы типа данных, как примитивные (целые, текст, дата,
время) так и составные (гистограммы, нумерованные типы).
Аннотации;
Фрагменты (Particles);
Произвольные подстановки (Wildcards).
Новые типы могут быть также определены на основе существующих типов (встроенных или
вторичных) путем расширения базового типа. Детали использования этих компонентов
можно найти в проекте DDL или в схеме XML: Спецификация структур.
Существует два способа описания аудио характеристик нижнего уровня. Один предполагает
стробирование уровня сигнала на регулярной основе, другой может использовать сегменты
(смотри описание MDS) для пометки сходных и отличных областей для заданного звукового
отрывка. Обе эти возможности реализованы в двух типах дескрипторов нижнего уровня
(один для скалярных величин, таких как мощность или частота, и один для векторов, таких
как спектры), которые создают совместимый интерфейс. Любой дескриптор,
воспринимающий эти типы может быть проиллюстрирован примерами, описывающими
сегмент одной результирующей величиной или последовательностью результатов
стробирования, как этого требует приложение.
Аудио дескрипторы нижнего уровня имеют особую важность при описании звука.
Существует семнадцать временных и пространственных дескрипторов, которые могут
использоваться в самых разных приложениях. Они могут быть грубо поделены на
следующие группы:
В то время как аудио дескрипторы нижнего уровня вообще могут служить для многих
возможных приложений, дескриптор однородности спектра поддерживает аппроксимацию
сложных звуковых сигналов. Приложения включают в себя голосовую идентификацию.
В рамках четырех возможных классов звуков музыкальных инструментов, два класса хорошо
детализированы, и являются центральным объектом экспериментального исследования. В
FCD представляются гармонические, когерентные непрерывные звуки и прерывистые,
ударные звуки. Дескриптор тембра для непрерывных гармонических звуков объединяет
спектральные дескрипторы тембра с временным дескриптором log attack. Дескриптор
ударных инструментов комбинирует временные дескрипторы тембра с дескриптором
спектрального центроида. Сравнение описаний, использующих один из наборов
дескрипторов выполняется с привлечением метрики масштабируемого расстояния.
Средства описания Spoken Content поделены на два широких функциональных блока: сетка,
которая представляет декодирование, выполненное системой ASR, и заголовок, который
содержит информацию об узнанных собеседниках и о самой системе распознавания. Сетка
состоит из комбинаций слов голосовых записей для каждого собеседника в аудио потоке.
Комбинируя эти сетки, можно облегчить проблему со словами, отсутствующими в словаре, и
поиск может быть успешным, даже когда распознавание исходного слова невозможно.
Цвет
Текстура
Форма
Движение
Локализация
Прочее
R,G,B
Y,Cr,Cb
H,S,V
HMMD
Матрица линейного преобразования с учетом R, G, B
Монохромное
На рис. 9 (g), (h) и (i) показаны очень схожие изображения чашки. Различия имеются только
в форме ручки. Форма (g) имеет трещину на нижней части ручки, в то время как в (i) ручка
не имеет отверстия. Дескриптор формы, базирующейся на областях, рассматривает (g) и (h)
подобными, но отличными от (i), так как там ручка не имеет отверстия. Аналогично, на рис.
9(j-l) показана часть видео последовательности, где два диска постепенно разделяются. С
точки зрения дескриптора формы, базирующейся на областях, эти картинки схожи.
3.4.4.3. 3D-форма
Рассматривая непрерывное развитие мультимедийных технологий, виртуальных миров, 3D-
материал становится обычным для современных информационных систем. В большинстве
случаев, 3D-информация представляется в виде сетки многоугольников. Группа MPEG-4, в
рамках подгруппы SNHC, разрабатывала технологии для эффективного кодирования модели
3D-сеток. В стандарте MPEG-7 необходимы средства для интеллектуального доступа к 3D-
информации. Главные приложения MPEG-7 имеют целью поиск, получение и просмотр баз
3D-данных.
3.4.7. Прочие
3.4.7.1. Распознавание лица
Дескриптор FaceRecognition может использоваться для получения изображения лиц, которые
соответствуют запросу. Дескриптор представляет проекцию вектора лица на набор базовых
векторов, которые охватывают пространство возможных векторов лица. Набор параметров
FaceRecognition получается из нормализованного изображения лица. Это нормализованное
изображения лица содержит 56 строк с 46 значениями уровня в каждой строке. Центры двух
глаз на каждом изображении лица размещаются на 24-ом ряду и 16-ой и 31-ой колонке для
правого и левого глаз соответственно. Это нормализованное изображение затем
используется для получения одномерного вектора лица, который состоит из значений
яркости пикселей нормализованного изображения лица, которое получается в результате
растрового сканирования, начинающегося в верхнем левом углу и завершающегося в
нижнем правом углу изображения. Набор параметров FaceRecogniton вычисляется путем
проектирования одномерного вектора лица на пространство, определяемое набором
базисных векторов.
Единственной частью описания, которая зависит от среды записи или формата кодирования
является MediaInformation, описанная в этом разделе. Остальная часть описания MPEG-7 не
зависит от профайлов или копий и, как следствие, может использоваться, чтобы описать все
возможные копии материала.
Как упомянуто выше, любой сегмент может быть описан с помощью данных формирования,
информации об использовании, медиа-данных и текстовой аннотации. Однако
специфические характеристики, зависящие от типа сегмента, также допускаются. Примеры
специфических характеристик представлены в таблице 1. Большинство дескрипторов (D),
соответствующих этим характеристикам может быть получено автоматически из исходного
материала. Для этой цели в литературе описано большое число различных средств.
Пример описания изображения представлен на рис. 17. Исходные изображения описаны как
стационарные области, SR1, которые описаны с помощью данных формирования
(заголовок, создатель), информации использования (авторские права), медийной
информации (формат файла), а также текстовой аннотации (обобщающей свойства
изображения), гистограмм цвета и дескриптора текстуры. Исходная область может быть в
дальнейшем разложена на составные области. Для каждого шага декомпозиции, мы
указываем, допустимы или нет зазоры и перекрытия. Дерево сегмента состоит из 8
стационарных областей (заметим, что SR8 является одиночным сегментом, составленным из
двух связанных сегментов). Для каждой области, на рис. 17 показан тип характеристики,
которая реализована. Заметим, что в иерархическом дереве не нужно дублировать
информацию формирования, использования и пр., так как предполагается, что дочерние
сегменты наследуют эти характеристики.
Как и в случае DS сегмента, концепция описания может быть представлена в виде дерева или
графа. Структура графа определена набором узлов, представляющих семантические понятия,
и набора ребер, специфицирующих отношения между узлами. Ребра описываются DS
семантических отношений.
Простой пример описания концептуальных аспектов показан на рис. 21. Описываемый мир
включает в себя в данном случае Ваню Иванова играющего на фортепиано со своим
учителем. Событие характеризуется семантическим описанием времени: "19:00 24-го апреля
2002", и семантикой места: "Консерватория". Описание включает одно событие: игра и
четыре объекта: фортепьяно, Ваня Иванов, его учитель и абстрактное понятие музыканта.
Последние три объекта принадлежат к классу агент.
3.5.4.1. Резюме
Аудио-визуальные резюме предоставляют компактные аннотации аудио-визуального
материала для облегчения обнаружения, просмотра, навигации, визуализации и озвучивания
этого материала. DS резюме позволяет осуществлять навигацию в рамках аудио-визуального
материала иерархическим или последовательным образом. Иерархическая декомпозиция
резюме организует материал послойно, так что он на различных уровнях выдает различную
детализацию (от грубой до подробной). Последовательные резюме предоставляет
последовательности изображений или видео кадров, возможно синхронизованные с аудио и
текстом, которые формируют слайд-демонстрации или аудио-визуальные наброски.
Рис. 22. Пример иерархического резюме видео записи футбольного матча, имеющего
многоуровневую иерархию. Иерархическое резюме предполагает достоверность (то есть, f0,
f1, …) ключевых кадров с точки зрения видео сегмента следующего более низкого уровня.
На рис. 22 показан пример иерархического резюме видео записи футбольного матча.
Описание иерархического резюме предоставляет три уровня детализации. Видео запись
матча суммирована на одном корневом кадре. На следующем уровне иерархии предлагается
три кадра, которые суммируют различные сегменты видеозаписи. Наконец, внизу рисунка
показаны кадры нижнего уровня иерархии, отображающие детали, различных сцен
сегментов предыдущего уровня.
3.5.5.2. Модели
DS моделей предоставляют средства для моделирования атрибутов и характеристик аудио-
визуального материала. DS модели вероятности предоставляет собой фундаментальную DS
для спецификации различных статистических функций и вероятностных структур. DS
модели вероятности могут использоваться для представления образцов аудио-визуальных
данных и классов дескрипторов, использующих статистические аппроксимации.
Дескрипторы (D),
Схемы описания (DS),
Схемы кодирования (Cs),
Язык описания определений DDL (description definition language)
Компоненты систем BiM.
Для этих целей класс MediaIO использует набор внешних библиотек, которые не
принадлежат во всех случаях дереву исходных кодов программ XM. Сюда входят
следующие библиотеки:
Так как класс MediaIO является интерфейсом для этих библиотек, использование внешних
библиотек не нужно и не разрешено для любого другого класса программ XM, например,
разрешающих аудио-экспертам использовать программы XM без специфичной для видео
библиотеки ImageMagick.
Помимо интерфейсов, классы выборки имеют процедурный код. В случае средства выборки
изображения или видео, программы XM используют AddressLib, которая является общей
библиотекой видео обработки для выполнения задач анализа изображения на нижнем
уровне.
Рис. 25. Выборка для приложения медийного типа. Описание извлекается из входных
медийных данных
Рис. 26. Поиск и выборка прикладного типа. Сортированная информация из медиа базы
данных получается из описаний и запроса
Рис. 29. Интерфейсная модель ключевых приложений XM. Эта модель показывает
супернабор возможных входов и выходов ключевого приложения XM.
Помимо уже используемых выходов, предполагается, что будет также тип выхода,
соответствующий входному запросу. На рис. 29 этот выход имеет название прочий выход.
Возможными приложениями для этого могут быть уточняющие запросы, например, для
просматривающих приложений. Однако использование этого выхода все еще не ясно и
нуждается в дальнейших исследованиях.
Далее мы используем интерфейсную модель ключевых приложений для двух целей,
создание новых ключевых приложений и описание отношений ключевых приложений с
приложениями реального мира.
Рис. 30. Пример приложения реального мира, извлекающего два разных описания (XM-
Appl1, XM-Appl2). Основываясь на первом описании выбран адекватный набор материала
(XM-Appl3), который затем транскодирован с использованием второго описания (XM-
Appl4). (MDB = медийная база данных, DDB = база данных описаний).
В 21-ом веке все большая часть продукции будет составлять интеллектуальные объекты.
Сюда относятся фильмы, программы, электронные книги, музыкальные произведения,
телевизионные программы, банки данных, компьютерные игры и т.д. Если же принять во
внимание, что большую часть стоимости ЭВМ, мобильного телефона, модема, приборов
позиционирования и пр. составляют программы, то уже сейчас они составляют заметную
часть национального продукта промышленно развитых стран.
Введение в MPEG-7
Требования MPEG-7
Приложения MPEG-7
Концепция MPEG-7
Документы MPEG-7 CD, WD и XM: системы, DDL, видео, аудио и MMDS.
Пример:
Контейнер
Контейнер является структурой, которая позволяет группировать объекты и/или
контейнеры. Эти группы объектов и/или контейнеров могут использоваться для
формирования логических пакетов (для транспортировки или обмена) или логические
архивы (для организаций). Дескрипторы позволяют “помечать” контейнеры данными,
которые пригодны для целей группирования (например, инструкции по доставке пакета, или
информация о категории для архивов (shelf)).
Объект
Объект представляет собой группировку субобъектов и/или компонентов, которые
сопряжены с соответствующими дескрипторами. Дескрипторы содержат информацию об
объекте, как представление о действии (work). Объекты могут содержать выбор, который
позволяет им быть адаптированными к требованиям заказчика или сконфигурированными.
Объекты могут быть условными (на базе осуществленного выбора). Объекты, которые не
содержат субобъектов, могут рассматриваться как сущность - логически неделимое
действие. Объект, который не содержит в себе субобъектов, может рассматриваться как
компиляция - действие состоит из потенциально независимых частей.
Отношение между объектом и цифровым объектом (как это определено в ISO/IEC 21000-
1:2001, MPEG-21 Vision, Technologies and Strategy) может быть определено следующим
образом: объекты являются декларативными репрезентациями цифровых объектов.
Компонент
Компонент соединяет ресурс со всеми его дескрипторами. Эти дескрипторы представляют
собой данные, относящиеся ко всем или части специфических вариантов ресурса. Такие
дескрипторы обычно содержат управляющую или структурную информацию о ресурсе
(такую как полоса пропускания, набор символов, входные точки или тип шифрования), но не
данные, описывающие содержимое ресурса.
Условие (condition) описывает опционный элемент, и его связи с условиями отбора, которые
определяют условия его включения. Могут использоваться несколько предикатов, которые
объединяются, например, посредством операции AND. Любой предикат может входить в
условие со знаком отрицания. Могут использоваться несколько условий, сопряженных с
данным элементом, которые объединяются с помощью, например, операции OR (когда
определяют условия включения элемента).
Вариант (selection) описывает специфические решения, которые вводят одно или более
условий где-то внутри объекта. Если вариант выбран, его предикат становятся истинными
(true); если он не выбран, его предикат имеет значение false; если выбор не сделан, предикат
является неопределенным.
Несколько элементов в декларации цифрового объекта могут содержать нуль один или более
дескрипторов. Каждый Descriptor может содержать одно заявление, которое может
содержать один идентификатор, относящийся к составляющему элементу заявления. На рис.
2 для идентификации компонента и объект используются два заявления (левая часть
диаграммы) и (правая часть диаграммы).
Требование того, чтобы идентификатор цифрового объекта являлся URI, согласуется с тем,
что идентификатор может быть URL (Uniform Resource Locator). Термин URL относится к
специфическому субнабору URI, который используется сегодня в качестве указателя
информации в Internet.
DII предоставляет механизм, позволяющий терминалу MPEG-21 разделять эти разные типы
цифровых объектов путем размещения URI внутри маркера типа заявления, которые будут
появляться в качестве дочернего элемента дескриптора, который будет появляться, как
дочерний элемент объекта. Если маркер типа отсутствует, цифровой объект считается
цифровым объектом содержимого (Content).
Модель данных MPEG REL для описания прав состоит из четырех базовых сущностей и
отношений между этими сущностями. Эти базовые отношения определяют предоставление
гранта. Структурно, грант MPEG REL состоит из следующих частей:
Право
Право определяет действие или класс операций, которые принципалу будет разрешено
осуществить над некоторым ресурсом при определенных условиях.
MPEG REL предоставляет правовой элемент, куда следует записать информацию о правах и
предоставляет набор обычно используемых, специфических или исключительных прав в
отношении таких операций, как возможность выдать, аннулировать и получить что-то.
Расширения MPEG REL могут определять права использования специфических типов
ресурсов. Например, расширение MPEG REL определяет права использования цифровых
операций (например, воспроизведения и печати).
Ресурс
Ресурс является "объектом", к которому принципал может получить доступ (grant). Ресурс
может быть цифровым объектом (таким как электронная книга, аудио или видео-файл или
изображение), сервисом (таким как email, или транзакция B2B), или даже блоком данных,
который может принадлежать принципалу (таким как имя или email адрес).
Условие
Условие специфицирует срок условия и обязательства, при которых могут реализовываться
права. Простым условием является временной интервал, в течение которого может быть
реализовано право. Несколько более сложное условие требует, существования права,
предварительно предоставленного некоторому принципалу. Используя механизм реализации
предоставленного права, одно право может стать зависимым от наличия других прав.
Информационный правовой словарь RDD (Rights Data Dictionary) включает в себя набор
ясных, непротиворечивых, структурированных и однозначно идентифицированных терминов
для поддержки языка описания прав MPEG-21 (Rights Expression Language).
Полагаю, что все читатели знакомы с архиваторами файлов, вероятно, многие из вас
неоднократно ими пользовались. Целью архивации файлов является экономия места на
жестком или гибком магнитном диске. Кому не приходилось время от времени задумываться
над тем, войдет ли данный файл на дискету? Существует большое число программ-
архиваторов, имеются и специальные системные программные средства типа Stacker или
Doublespace и т.д., решающие эту проблему.
Сегодня, когда дискеты в прошлом, их место заняли флэш-карты с объемом жестких дисков
десятилетие тому назад, архивация начала менять свое назначение. Архивация все чаще
используется при передаче данных для целей экономии полосы пропускания.
В этом разделе пойдет речь о методах сжатия без потери информации. К таким методам
относятся:
Алгоритм Хафмана
Арифметическое кодирование
Контекстное кодирование (PPM - Prediction by Partial Matching)
Алгоритм Зива-Лемпеля(-Welch)
Алгоритм Барроуза-Веллера
Полное число алгоритмов сжатия данных без потерь информации существенно более десяти.
В 1977 году Абрахам Лемпель и Якоб Зив предложили алгоритм сжатия данных, названный
позднее LZ77. Этот алгоритм используется в программах архивирования текстов compress,
lha, pkzip и arj. Модификация алгоритма LZ78 применяется для сжатия двоичных данных.
Эти модификации алгоритма защищены патентами США. Алгоритм предполагает
кодирование последовательности бит путем разбивки ее на фразы с последующим
кодированием этих фраз. Суть алгоритма заключается в следующем.
Пакетный режим сжатия также использует поток символов для создания и поддержания
словаря, но поток здесь ограничен одним пакетом и по этой причине синхронизация
словарей ограничена границами кадра. Для пакетного режима достаточно иметь словарь
объемом, порядка 4 Кбайт. Непрерывный режим обеспечивает лучшие коэффициенты
сжатия, но задержка получения информации (сумма времен сжатия и декомпрессии) при
этом больше, чем в пакетном режиме.
При передаче пакетов иногда применяется сжатие заголовков, например, алгоритм Ван
Якобсона (RFC-1144). Этот алгоритм используется при скоростях передачи менее 64 Kбит/с.
При этом достижимо повышение пропускной способности на 50% для скорости передачи
4800 бит/с. Сжатие заголовков зависит от типа протокола. При передаче больших пакетов на
сверх высоких скоростях по региональным сетям используются специальные канальные
алгоритмы, независящие от рабочих протоколов. Канальные методы сжатия информации не
могут использоваться для сетей, базирующихся на пакетной технологии, SMDS (Switched
Multi-megabit Data Service), ATM, X.25 и Frame Relay. Канальные методы сжатия дают
хорошие результаты при соединении по схеме точка-точка, а при использовании
маршрутизаторов возникают проблемы - ведь нужно выполнять процедуры
сжатия/декомпрессии в каждом маршрутизаторе, что заметно увеличивает суммарное время
доставки информации. Возникает и проблема совместимости маршрутизаторов, которая
может быть устранена процедурой идентификации при у становлении виртуального канала.
Иногда для сжатия информации используют аппаратные средства. Такие устройства должны
располагаться как со стороны передатчика, так и со стороны приемника. Как правило, они
дают хорошие коэффициенты сжатия и приемлемые задержки, но они применимы лишь при
соединениях точка-точка. Такие устройства могут быть внешними или встроенными,
появились и специальные интегральные схемы, решающие задачи сжатия/декомпрессии. На
практике задача может решаться как аппаратно, так и программно, возможны и
комбинированные решения.
Этой проблеме посвящено много книг, например, David Salomon, Giovanni Motta, "Handbook
of Data Compression", Springer, или Khalid Sayood, "Introduction to data compression". Обе
книги можно, по крайней мере частично, просмотреть через Интернет. За последние 15 лет
эти технологии достаточно мало изменились.
Если вам предложат архиватор, который, как утверждает продавец, сожмет любой файл, не
верьте. Если бы это было возможно, то любой файл можно было бы путем
последовательности операций архивации довести до нулевого размера. Самое забавное, что в
США был выдан патент (5.533.051) на такой алгоритм сжатия данных.
Сжатие информации является актуальной задачей, как при ее хранении, так и при пересылке.
Сначала рассмотрим вариант алгоритма Зива-Лемпеля.
Смотри также Introduction to Data Compression. Guy E. Blelloch, Computer Science Department.
Carnegie Mellon University. (55 стр.)
Этот алгоритм используется для кодирования (L,I), где L строка длиной N, а I - индекс. Это
кодирование содержит в себе несколько этапов.
Для того чтобы сжать строку S, сначала сформируем строку S’, которая является
объединением S c EOF, новым символом, который не встречается в S. После этого
используется стандартный алгоритм к строке S’. Так как EOF отличается от прочих символов
в S, суффиксы S’ сортируются в том же порядке, как и вращения S’. Это может быть сделано
путем построения дерева суффиксов, которое может быть затем обойдено в
лексикографическом порядке для сортировки суффиксов. Для этой цели может быть
использован алгоритм формирования дерева суффиксов Мак-Крейгта. Его быстродействие
составляет 40% от наиболее быстрой методики в случае работы с текстами. Алгоритм работы
с деревом суффиксов требует более четырех слов на каждый исходный символ. Манбер и
Майерс предложили простой алгоритм сортировки суффиксов строки. Этот алгоритм
требует только двух слов на каждый входной символ. Алгоритм работает сначала с первыми
i символами суффикса а за тем, используя положения суффиксов в сортируемом массиве,
производит сортировку для первых 2i символов. К сожалению этот алгоритм работает
заметно медленнее.
Майкл Барроуз и Давид Вилер (Burrows-Wheeler) в 1994 году предложили свой алгоритм
преобразования (BWT). Этот алгоритм работает с блоками данных и обеспечивает
эффективное сжатие без потери информации. В результате преобразования блок данных
имеет ту же длину, но другой порядок расположения символов. Алгоритм тем эффективнее,
чем больший блок данных преобразуется (например, 256-512 Кбайт).
Номер строки
0 aabrac
1 abraca
2 acaabr
3 bracaa
4 caabra
5 racaab
1. Сначала вычисляем первую колонку матрицы M (F). Это делается путем сортировки
символов строки L. Каждая колонка исходной матрицы M представляет собой перестановки
исходной последовательности S. Таким образом, первая колонка F и L являются
перестановками S. Так как строки в M упорядочены, размещение символов в F также
упорядочено. F=’aaabcr’.
Строка M M’
0 aabrac caabra
1 abraca aabraс
2 acaabr racaab
3 bracaa abraca
4 caabra acaabr
5 racaab bracaa
Если L[j] является к-ым появлением ch в L, тогда T[j]=1, где F[i] является к-ым появлением
ch в F. Заметьте, что Т представляет соответствие один в один между элементами F и
элементами L, а F[T[j]] = L[j]. В нашем примере T равно: (4 0 5 1 2 3).
3. Теперь для каждого i = 0,…, N-1 символы L[i] и F[i] являются соответственно последними
и первыми символами строки i матрицы M. Так как каждая строка является вращением S,
символ L[i] является циклическим предшественником символа F[i] в S. Из Т мы имеем
F[T[j]] = L[j]. Подставляя i =T[j], мы получаем символ L[T(j)], который циклически
предшествует символу L[j] в S.
Индекс I указывает на строку М, где записана строка S. Таким образом, последний символ S
равен L[I]. Мы используем вектор T для получения предшественников каждого символа: для
каждого i = 0,…,N-1 S[N-1-i] = L[Ti[I]], где T0[x] =x, а Ti+1[x] = T[Ti[x]. Эта процедура
позволяет восстановить первоначальную последовательность символов S (‘abraca’).
Возьмем в качестве примера букву “t” в слове ‘the’ и предположим, что исходная
последовательность содержит много таких слов. Когда список вращений упорядочен, все
вращения, начинающиеся с ‘he’, будут взаимно упорядочены. Один отрезок строки L будет
содержать непропорционально большое число ‘t’, перемешанных с другими символами,
которые могут предшествовать ‘he’, такими как пробел, ‘s’, ‘T’ и ‘S’.
Аналогичные аргументы могут быть использованы для всех символов всех слов, таким
образом, любая область строки L будет содержать большое число некоторых символов. В
результате вероятность того, что символ ‘ch’ встретится в данной точке L, весьма велика,
если ch встречается вблизи этой точки L, и мала в противоположном случае. Это свойство
способствует эффективной работе локально адаптивных алгоритмов сжатия, где кодируется
относительное положение идентичных символов. В случае применения к строке L, такой
кодировщик будет выдавать малые числа, которые могут способствовать эффективной
работе последующего кодирования, например, посредством алгоритма Хафмана.
Ссылки
1. J.Ziv and A.Lempel. A universal algorithm for sequential data compression. IEEE
Transactions on Information Theory. Vol. IT-23, N.3, May 1977, pp. 337-343.
2. J.Ziv and A.Lempel. Compression of individual sequences via variable rate coding. IEEE
Transactions on Information Theory. Vol. IT-24. N.5, September 1978, pp. 530-535.
3. M.Burrows and D.J.Wheeler. A block-sorting Lossless Data Compression Algorithm.
Digital Systems Research Center. SRC report 124. May 10, 1994.
4. J.L.Bently, D.D.Sleator, R.E.Tarjan, and V.K.Wei. A locally adaptive data compression
algorithm. Communications of the ACM, Vol. 29, No. 4, April 1986, pp. 320-330
5. http://www.ics.uci.edu/~dan/pubs/DataCompression.html (Saleem Bhatti)
6. http://www.speednet/~spenser/ted/DataCompression.html
7. http://www.iicm.edu/jucs_1_8/differencial_ziv_lempel_text/html/paper.html
Смотри http://web2.airmail/markn/articles/bwt/bwt.htm
Статический алгоритм Хафмана можно считать классическим (см. также Р. Галлагер. Теория
информации и надежная связь. “Советское радио”, Москва, 1974.) Определение статический
в данном случае относится к используемым словарям. Смотри также
www.ics.ics.uci.edu/~dan/pubs/DataCompression.html (Debra A. Lelewer и Daniel S. Hirschberg).
Но при использовании кодов разной длины могут возникнуть проблема разделение кодовых
слов при последовательной пересылке. Например [6], пусть <(a,1); (b,01); (c,101); (d,011)>,
тогда битовая последовательность 1011 может быть интерпретирована как aba, ca или ada.
Чтобы избежать этой неопределенности можно посылать код длины перед каждым
символом, что связано с пересылкой дополнительных данных. Более эффективным
решением является конструирование кодов, в которых мы можем всегда однозначно
преобразовать битовую последовательность в кодовое слово. Кодом такого типа является
префиксный код, в котором никакая битовая строка не является префиксом другого кода.
Например, <(a,1); (b.01);(c,000);(d,001)>. Префиксные коды имеют то преимущество перед
другими кодами, что мы можем дешифровать любое сообщение без необходимости
выявления начала следующего. Префиксный код может быть представлен в виде двоичного
дерева:
Такое дерево называется деревом префиксных кодов. Это дерево может использоваться и
при декодировании префиксных кодов. При поступлении битов декодер может следовать
вдоль дерева, пока не достигнет листа, формируя таким способом сообщение. После этого
при поступлении очередного бита осуществляется возврат к корню дерева и процедура
повторяется. При декодировании могут использоваться несколько префиксных деревьев.
Ниже представлена аналогичная таблица для русского алфавита [Яглом А.М., Яглом И.М.
"Вероятность и информация". 3-е изд. - Наука, 1973]. В этой таблице коды букв Е и Ё
идентичны, аналогичная сутуация с кодами Ь и Ъ. Следует также иметь в виду, что помимо
букв определенные коды должны быть присвоены символам пунктуации, числам и
некоторым специальным символам (1 2 3 4 5 6 7 8 9 0 . , : ; ! ? ... ' " ~ % # * + - = \ ( ) [ ] { } _).
Относит.
Буква Код Хафмана
частота
–
0,175 111
пробел
O 0,090 110
Е,Ё 0,072 1001
А 0,062 1010
И 0,062 1001
T 0,053 1000
Н 0,053 0111
C 0,045 0110
Р 0,040 01011
В 0,038 01010
Л 0,035 01001
К 0,028 01000
М 0,026 00111
Д 0,025 001101
П 0,023 001100
У 0,021 00101
Я 0,018 001001
Ы 0,016 001000
З 0,016 000111
Ь,Ъ 0,014 000110
Б 0,014 000101
Г 0,013 000100
Ч 0,012 000011
Й 0,010 0000101
Х 0,009 0000100
Ж 0,007 0000011
Ш 0,006 00000101
Ю 0,006 00000100
Ц 0,004 00000010
Щ 0,003 00000001
Э 0,003 000000001
Ф 0,002 000000000
Среднее число элементарных сигналов для передачи буквы при данном методе кодирования
равно 4,4.
Следует заметить, что часто встречающиеся символы (последовательности бит) несут меньше
информации, чем редко встречающиеся, не случайно для них применено большее число бит.
Также как поезд, сходящий с рельс, имеет большую информационную емкость, чем поезд
прибывающий по расписанию. Не случайно люди интуитивно воспринимают сообщения о
несчастьях с большим интересом.
При передаче информации она кодируется таким образом, чтобы с одной стороны
характеризовать ее минимальным числом символов, а с другой – минимизировать
вероятность ошибки при декодировании получателем. Для выбора типа кодирования важную
роль играет так называемое расстояние Хэмминга.
Можно показать, что для детектирования ошибок в n битах, схема кодирования требует
применения кодовых слов с расстоянием Хэмминга не менее N+1. Можно также показать,
что для исправления ошибок в N битах необходима схема кодирования с расстоянием
Хэмминга между кодами не менее 2N+1. Таким образом, конструируя код, мы пытаемся
обеспечить расстояние Хэмминга между возможными кодовыми последовательностями
больше, чем оно может возникнуть из-за ошибок.
Широко распространены коды с одиночным битом четности. В этих кодах к каждым М бит
добавляется 1 бит, значение которого определяется четностью (или нечетностью) суммы
этих М бит. Так, например, для двухбитовых кодов 00, 01, 10, 11 кодами с контролем
четности будут 000, 011, 101 и 110. Если в процессе передачи один бит будет передан
неверно, четность кода из М+1 бита изменится.
Предположим, что частота ошибок (BER) равна р=10-4. В этом случае вероятность передачи
8 бит с ошибкой составит 1-(1-p)8=7,9х10-4. Добавление бита четности позволяет
детектировать любую ошибку в одном из переданных битах. Здесь вероятность ошибки в
одном из 9 бит равна 9p(1-p)8. Вероятность же реализации необнаруженной ошибки составит
1-(1-p)9 – 9p(1-p)8 = 3,6x10-7. Таким образом, добавление бита четности уменьшает
вероятность необнаруженной ошибки почти в 1000 раз. Использование одного бита четности
типично для асинхронного метода передачи. В синхронных каналах чаще используется
вычисление и передача битов четности как для строк, так и для столбцов передаваемого
массива данных. Такая схема позволяет не только регистрировать но и исправлять ошибки в
одном из битов переданного блока.
В Ethernet вычисление CRC производится аппаратно (см. также ethernet). На рис. 2.7.1.
показан пример реализации аппаратного расчета CRC для образующего полинома B(x)= 1 +
x2 + x3 +x5 + x7. В этой схеме входной код приходит слева.
Эффективность CRC для обнаружения ошибок на многие порядки выше простого контроля
четности. В настоящее время стандартизовано несколько типов образующих полиномов. Для
оценочных целей можно считать, что вероятность невыявления ошибки в случае
использования CRC, если ошибка на самом деле имеет место, равна (1/2)r, где r - степень
образующего полинома.
Алгоритм Хэмминга
Циклические коды
Линейные блочные коды
Метод коррекции ошибок FEC (Forward Error Correction)
Ссылки
Введение в коды Рида-Соломона: принципы, архитектура и реализация
Свойства кодов Рида-Соломона
Ошибки в символах
Декодирование
Архитектура кодирования и декодирования кодов Рида-Соломона
Образующий полином
Архитектура кодировщика
Архитектура декодера
Вычисление синдрома
Ссылки
Этот метод может быть развит путем формирования блока данных с N строками, M
столбцами и K слоями. Здесь биты четности формируются для всех строк и столбцов
каждого из слоев, а также битов, имеющих одинаковые номера строк и столбцов i,j. Полное
число битов четности в этом случае равно (N+M+1)×K +(N+1)×(M+1). Если M=N=K=8,
число бит данных составит 512, а число бит четности - 217. Нетрудно видеть, что в этом
случае число исправляемых ошибок будет больше 1. Смотри рис. 1.
Рис. 1. Метод коррекции более одной ошибки в блоке данных (битам данных соответствуют
окрашенные квадраты)
Алгоритм Хэмминга
Код Хэмминга представляет собой блочный код, который позволяет выявить и исправить
ошибочно переданный бит в пределах переданного блока. Обычно код Хэмминга
характеризуется двумя целыми числами, например, (11,7) используемый при передаче 7-
битных ASCII-кодов. Такая запись говорит, что при передаче 7-битного кода используется 4
контрольных бита (7+4=11). При этом предполагается, что имела место ошибка в одном бите
и что ошибка в двух или более битах существенно менее вероятна. С учетом этого
исправление ошибки осуществляется с определенной вероятностью. Например, пусть
возможны следующие правильные коды (все они, кроме первого и последнего, отстоят друг
от друга на расстояние 4):
00000000
11110000
00001111
11111111
Позиция бита: 11 10 9 8 7 6 5 4 3 2 1
Значение бита: 1 1 1 * 0 0 1 * 1 * *
Символами * помечены четыре позиции, где должны размещаться контрольные биты. Эти
позиции определяются целой степенью 2 (1, 2, 4, 8 и т.д.). Контрольная сумма формируется
путем выполнения операции XOR (исключающее ИЛИ) над кодами позиций ненулевых
битов. В данном случае это 11, 10, 9, 5 и 3. Вычислим контрольную сумму:
11 = 1011
10 = 1010
09 = 1001
05 = 0101
03 = 0011
1110
Позиция бита: 11 10 9 8 7 6 5 4 3 2 1
Значение бита: 1 1 1 1 0 0 1 1 1 1 0
11 = 1011
10 = 1010
09 = 1001
08 = 1000
05 = 0101
04 = 0100
03 = 0011
02 = 0010
0000
Ну а теперь рассмотрим два случая ошибок в одном из битов посылки, например, в бите 7 (1
вместо 0) и в бите 5 (0 вместо 1). Просуммируем коды позиций ненулевых бит еще раз.
11 = 1011
10 = 1010 11 = 1011
09 = 1001 10 = 1010
08 = 1000 09 = 1001
07 = 0111 08 = 1000
05 = 0101 04 = 0100
04 = 0100 03 = 0011
03 = 0011 02 = 0010
02 = 0010 = 0101
0111
В обоих случаях контрольная сумма равна позиции бита, переданного с ошибкой. Теперь для
исправления ошибки достаточно инвертировать бит, номер которого указан в контрольной
сумме. Понятно, что если ошибка произойдет при передаче более чем одного бита, код
Хэмминга при данной избыточности окажется бесполезен.
В общем случае код имеет N=M+C бит и предполагается, что не более чем один бит в коде
может иметь ошибку. Тогда возможно N+1 состояние кода (правильное состояние и n
ошибочных). Пусть М=4, а N=7, тогда слово-сообщение будет иметь вид: M4, M3, M2, C3,
M1, C2, C1. Теперь попытаемся вычислить значения С1, С2, С3. Для этого используются
уравнения, где все операции представляют собой сложение по модулю 2:
С1 = М1 + М2 + М4
С2 = М1 + М3 + М4
С3 = М2 + М3 + М4
С11 = С1 + М4 + М2 + М1
С12 = С2 + М4 + М3 + М1
С13 = С3 + М4 + М3 + М2
Можно доказать, что для исправления ошибок с кратностью не более qm кодовое расстояние
должно превышать 2qm (как правило, оно выбирается равным D = 2qm +1). В теории
кодирования существуют следующие оценки максимального числа N n-разрядных кодов с
расстоянием D.
d=1 n=2n
d=2 n=2n-1
d=3 n 2n /(1+n)
d=2q+1
(для кода Хэмминга это неравенство превращается в
равенство)
k= n - log(n+1),
откуда следует (логарифм по основанию 2), что k может принимать значения 0, 1, 4, 11, 26,
57 и т.д., это и определяет соответствующие коды Хэмминга (3,1); (7,4); (15,11); (31,26);
(63,57) и т.д.
Циклические коды
Обобщением кодов Хэмминга являются циклические коды BCH (Bose-Chadhuri-
Hocquenghem). Это коды с широким выбором длины и возможностей исправления ошибок.
Циклические коды характеризуются полиномом g(x) степени n-k, g(x) = 1 + g1x + g2x2 + … +
xn-k. g(x) называется порождающим многочленом циклического кода. Если многочлен g(x) n-
k и является делителем многочлена xn + 1, то код C(g(x)) является линейным циклическим
(n,k)-кодом. Число циклических n-разрядных кодов равно числу делителей многочлена xn +
1.
При кодировании слова все кодовые слова кратны g(x). g(x) определяется на основе
сомножителей полинома xn +1 как:
xn +1 = g(x)h(x)
Например, если n=7 (x7+1), его сомножители (1 + x + x3)(1 + x + x2 + x4), а g(x) = 1+x + x3.
Чтобы представить сообщение h(x) в виде циклического кода, в котором можно указать
постоянные места проверочных и информационных символов, нужно разделить многочлен
xn-kh(x) на g(x) и прибавить остаток от деления к многочлену xn-kh(x). См. Л.Ф. Куликовский и
В.В. Мотов, “Теоретические основы информационных процессов”. Москва “Высшая школа”
1987. Привлекательность циклических кодов заключается в простоте аппаратной реализации
с использованием сдвиговых регистров.
Пусть общее число бит в блоке равно N, из них полезную информацию несут в себе K бит,
тогда в случае ошибки, имеется возможность исправить m бит. Таблица 2.8.1 содержит
зависимость m от N и K для кодов ВСН.
Таблица 2.8.1
Таблица 2.8.2
Применение кодов свертки позволяют уменьшить вероятность ошибок при обмене, даже
если число ошибок при передаче блока данных больше 1.
IA AT
Если , то H[ATI] =
Если синдром содержит нули, ошибок нет, в противном случае сообщение доставлено с
ошибкой. Если сообщение М соответствует М=2k, а k =3 высота матрицы, то можно записать
восемь кодов:
Кодовые векторы для этих сообщений приведены во второй колонке. На основе этой
информации генерируется таблица 2.8.3, которая называется стандартным массивом.
Стандартный массив использует кодовые слова и добавляет к ним биты ошибок, чтобы
получить неверные кодовые слова.
Предположим, что верхняя строка таблицы содержит истинные значения переданных кодов.
Из таблицы 2.8.3 видно, что, если ошибки случаются в позициях, соответствующих битам
кодов из левой колонки, можно определить истинное значение полученного кода. Для этого
достаточно полученный код сложить с кодом в левой колонке посредством операции XOR.
Синдром равен произведению левой колонки (CL "coset leader") стандартного массива на
транспонированную матрицу контроля четности HT.
этот результат указывает на место ошибки, истинное значение кода получается в результате
операции XOR:
Существует большое число блочных кодов, одним из наиболее важных является алгоритм
Рида-Соломона, который используется при работе с CD, DVD и жесткими дисками ЭВМ.
Блочные коды и коды свертки могут использоваться и совместно.
В результате через канал передается n-битовое кодовое слово (n>k). Конкретная реализация
алгоритма FEC характеризуется комбинацией (n,k). Применение FEC в Интернет
регламентируется документом RFC-3452. Коды FEC могут исключить необходимость
обратной связи при потере или искажении доставленных данных (запросы повторной
передачи). Особенно привлекательна технология FEC при работе с мультикастинг-потоками,
где ретрансмиссия не предусматривается (см. RFC-3453).
В 1993 году группой Клода Берроу (Claude Berrou) был разработан турбо код. В кодеке,
реализующем этот алгоритм, содержатся кодировщики как минимум двух компонент
(реализующие алгебраический метод или свертку). Кодирование осуществляется для блоков
данных. Здесь также используется псевдослучайное перемешивание бит перед передачей.
Это приводит к тому, что кластеры ошибок, внесенных при транспортировке, оказываются
разнесенными случайным образом в пределах блока данных.
На рис. 2. проводится сравнение вариантов BER (bit error rate) при обычной транспортировке
данных через канал и при передаче тех же данных с использованием коррекции ошибок FEC
для разных значений отношения сигнал-шум (S/N). Из этих данных видно, что при
отношении S/N= 8 дБ применение FEC позволяет понизить BER примерно в 100 раз. При
этом достигается результат, близкий (в пределах одного децибела) к теоретическому пределу
Шеннона.
Следует помнить, что как в случае FEC, так и в других известных методах коррекции
ошибок, (BCH, Golay, Hamming и др.) скорректированный код является верным лишь с
определенной конечной вероятностью.
Ссылки
http://www.aero.org/publication/crosslink/winter2002/04.html. Crosslink - The Aerospace
1 Corporation magazine of advances in aerospace technology. The Aerospace Corporation
(Volume 3, Number 1 (Winter 2001/2002)).
Multiple Description Source Coding using Forward Error Correction Codes, Rohit Puri,
2 Kannan Ramchandran, University of California, Berkeley (rpuri,
kannan@eecs.berkeley.edu).
3 http://en.wikipedia.org/wiki/Forward_error_correction
http://www.eccpage.com/, Morelos-Zaragoza, Robert (2004). The Error Correcting Codes
4
(ECC) Page
Введение в коды Рида-Соломона:
принципы, архитектура и реализация
Коды Рида-Соломона были предложены в 1960 Ирвином Ридом (Irving S. Reed) и Густавом
Соломоном (Gustave Solomon), являвшимися сотрудниками Линкольнской лаборатории
МТИ. Ключом к использованию этой технологии стало изобретение эффективного
алгоритма декодирования Элвином Беликамфом (Elwyn Berlekamp;
http://en.wikipedia.org/wiki/Berlekamp-Massey_algorithm), профессором Калифорнийского
университета (Беркли). Коды Рида-Соломона (см. также
http://www.4i2i.com/reed_solomon_codes.htm) базируются на блочном принципе коррекции
ошибок и используются в огромном числе приложений в сфере цифровых
телекоммуникаций и при построении запоминающих устройств. Коды Рида-Соломона
применяются для исправления ошибок во многих системах, включая:
Устройства памяти (включая магнитные ленты, CD, DVD, штриховые коды, и т.д.)
Беспроводные или мобильные коммуникации (включая сотовые телефоны,
микроволновые каналы и т.д.)
Спутниковые коммуникации
Цифровое телевидение / DVB (digital video broadcast).
Скоростные модемы, такие как ADSL, xDSL и т.д...
Рис. 4. Несовершенство кода, как функция размера информационного блока для разных
задач и алгоритмов
Типовая система представлена ниже (см. http://www.4i2i.com/reed_solomon_codes.htm):
n = 255, k = 223, s = 8
2t = 32, t = 16
Декодер может исправить любые 16 символов с ошибками в кодовом слове: то есть, ошибки
могут быть исправлены, если число искаженных байт не превышает 16.
При размере символа s, максимальная длина кодового слова (n) для кода Рида-Соломона
равна n = 2s – 1.
Например, максимальная длина кода с 8-битными символами (s=8) равна 255 байтам.
Коды Рида-Соломона могут быть в принципе укорочены путем обнуления некоторого числа
информационных символов на входе кодировщика (передавать их в этом случае не нужно).
При передаче данных декодеру эти нули снова вводятся в массив.
Пример: Код (255,223), описанный выше, может быть укорочен до (200,168). Кодировщик
будет работать с блоком данных 168 байт, добавит 55 нулевых байт, сформирует кодовое
слово (255,223) и передаст только 168 информационных байт и 32 байта четности.
Ошибки в символах
Одна ошибка в символе происходит, когда 1 бит символа оказывается неверным или когда
все биты не верны.
Декодирование
Алгебраические процедуры декодирования Рида-Соломона могут исправлять ошибки и
потери. Потерей считается случай, когда положение неверного символа известно. Декодер
может исправить до t ошибок или до 2t потерь. Данные о потере (стирании) могут быть
получены от демодулятора цифровой коммуникационной системы, т.е. демодулятор
помечает полученные символы, которые вероятно содержат ошибки.
1. Если 2s + r < 2t (s ошибок, r потерь), тогда исходное переданное кодовое слово всегда
будет восстановлено,
В противном случае
или
3. Декодер некорректно декодирует и неверно восстановит кодовое слово без какого-
либо указания на этот факт.
Преимущество кодирования
Преимущество использования кодов Рида-Соломона заключается в том, что вероятность
сохранения ошибок в декодированных данных обычно много меньше, чем вероятность
ошибок, если коды Рида-Соломона не используются. Это часто называется выигрышем
кодирования.
Образующий полином
Кодовое слово Рида-Соломона формируется с привлечением специального полинома. Все
корректные кодовые слова должны делиться без остатка на эти образующие полиномы.
Общая форма образующего полинома имеет вид:
g(x) = (x-ai)(x-ai+1)…(x-ai+2t)
c(x) = g(x).i(x)
где g(x) является образующим полиномом, i(x) представляет собой информационный блок,
c(x) – кодовое слово, называемое простым элементом поля.
g(x)= (x-a0)(x-a1)(x-a2)(x-a3)(x-a4)(x-a5)
g(x)= x6 + g5x5 + g3x3 + g2x2 + g1x1 + g0
Архитектура кодировщика
2t символов четности в кодовом слове Рида-Соломона определяются из следующего
соотношения:.
Архитектура декодера
Общая схема декодирования кодов Рида-Соломона показана ниже на рис. 8.
Рис. 8. Схема работы с кодами Рида-Соломона
Обозначения
Полученное кодовое слово r(x) представляет собой исходное (переданное) кодовое слово c(x)
плюс ошибки:.
Вычисление синдрома
Вычисление синдрома похоже на вычисление четности. Кодовое слово Рида-Соломона имеет
2t синдромов, это зависит только от ошибок (а не передаваемых кодовых слов). Синдромы
могут быть вычислены путем подстановки 2t корней образующего полинома g(x) в r(x).
Программная реализация
До недавнего времени, программные реализации в "реальном времени" требовали слишком
большой вычислительной мощности для практически всех кодов Рида-Соломона. Главной
трудностью в программной реализации кодов Рида-Соломона являлось то, что процессоры
общего назначения не поддерживают арифметические операции для поля Галуа. Однако
оптимальное составление программ в сочетании с возросшей вычислительной мощностью
позволяют получить вполне приемлемые результаты для относительно высоких скоростей
передачи данных.
Ссылки
Wicker, "Error Control Systems for Digital Communication and Storage", Prentice-Hall
[1]
1995
Lin and Costello, "Error Control Coding: Fundamentals and Applications", Prentice-Hall
[2]
1983.
[3] Clark and Cain, "Error Correction Coding for Digital Communications", Plenum 1988
[4] Wilson, "Digital Modulation and Coding", Prentice-Hall 1996
[5] http://en.wikipedia.org/wiki/Reed-Solomon_error_correction
[6] http://en.wikipedia.org/wiki/Forward_error_correction (forward error correction)
[7] http://en.wikipedia.org/wiki/BCH_code
[8] http://www.cs.cornell.edu/Courses/cs722/2000sp/ReedSolomon.pdf.
[9] http://www.ka9q.net/code/fec/ (Фил Карн)
http://www.radionetworkprocessor.com/reed-solomon.html (собрание ссылок на книги,
[10]
статьи и программные коды)
[11] http://rscode.sourceforge.net/ (библиотека программ)
[12] http://www.artech-house.com/ (приложения для видео-коммуникаций)
[13] http://www.cs.utk.edu/~plank/plank/papers/SPE-9-97.html (учебные материалы)d>
[14] http://www.trl.ibm.co.jp/news/lead_rs_e.htm
[15] http://www.sxlist.com/techref/method/error/rs-gp-pk-uoh-199609/index
[16] http://www.csdmag.com/main/1999/06/9906building.htm
[17] http://www.4i2i.com/products.htm (аппаратные и программные реализации)
Помимо стандартного оборудования рабочей станции (как правило, под ОС UNIX) требуется
интерфейс для подключения видеокамеры и микрофонов. Этот интерфейс обычно
снабжается аппаратной схемой сжатия видео и аудио данных. Многие современные
мультимедиа интерфейсы снабжены входами для видеокамеры. Из обязательного
оборудования на рис. 2.9.1 не показаны наушники и звуковые колонки. Полезным
дополнением может служить сканнер, который позволит с высоким разрешением передать
изображения документов или чертежей, видеомагнитофон, а также видео проектор для
отображений принятого изображения на экране или телевизор с большим экраном.
Терминалы
Шлюзы
Шлюз IP/GSTN
Узел управления доступом (gatekeeper) является центральным блоком сети H.323. Через него
проходят все запросы обслуживания, при этом он выполняет функцию виртуального
переключателя. Узел управления доступом осуществляет преобразование имен терминалов и
шлюзов в их IP и IPX-адреса в соответствии со спецификацией RAS. Например, если
администратор сети установил верхний предел на число участников конференции, при
достижении этого порога узел управления доступом может отказать в установлении
соединения. Совокупность терминалов, шлюзов и блоков MTU, управляемая общим блоком
доступа, называется зоной H.323. Узел управления доступом может опционно
маршрутизовать запросы H.323. Разработчики иногда совмещают функции шлюза, MCU и
узла управления доступом, возможно независимое совмещение функций MCU и узла
управления доступом. К числу обязательных функций узла управления доступом относится.
Таблица 2.9.1
не
Sub-QCIF 128*96 необходимо
специфицировано
Видеоконференции реализуемы на ЭВМ IBM/PC [1,2], Mackintosh, SUN, HP, DEC. Пакетная
техника обеспечивает удовлетворительное качество изображения и звукового
сопровождения при низкой загрузке канала и малой вероятности ошибок при передаче
пакетов. Достижимое сжатие видеосигнала - 1000:1, звукового 8:1.
Наиболее популярные программные продукты для телеконференций: vic, vat, nv, wb, sd, ivs.
(см. http://www.anl.gov/linda/video.html.)
Такие программные средства как VAT (Visual Audio Tool, ftp.ee.lbl.gov), nevot (network voice
terminal, gaia.cs.umass.edu:/pub/hgschulz/nevot), VIC (Video Conference), IVS (INTRA
Videoconferencing System, avahi.inria.fr:/pub/videoconference), NV (Net Video,
beta.xerox.com:/pub/net-research) или wb (whiteboard, ftp.ee.lbl.gov) базируются на утилитах
X11, они позволяют пользователю осуществить связь ЭВМ-ЭВМ или сессии с большим
числом участников по каналам Интернет. Поддерживаются следующие схемы кодирования и
передачи данных: PCM (64 Кбит/с), DVI, GSM и LPC (8 Кбит/с). В wb имеется возможность
импорта файлов Postscript (обычно используемых для прозрачек). При этом достигается
разрешение 640*512, число цветов равно 256, число кадров 2-20, коэффициент сжатия
информации ~20:1, а требуемая полоса пропускания канала >128 Кбит/с. Эти параметры не
идеальны. Желательно вдвое большее разрешение, число цветов должно быть равно 16
миллионам, а частота кадров 25-50, но это требует существенно большей пропускной
способности каналов (> 2 Мбит/с). Но прогресс в области быстродействия каналов связи
столь стремителен....
Подчеркну, что качество работы сети более критично для передачи звука, чем изображения,
ведь потеря нескольких кадров подчас совсем незаметна. Потеря же пакетов при передаче
звука более заметна, особенно при диалоге. Когда же используется сжатие, любые
повреждения пакетов приводят к потере целых блоков данных.
Для экспериментов с передачей звука и изображения группой IETF (Internet Engineering Task
Force) была сформирована структура мультикастинг-сети MBONE. MBONE (Multicast
Backbone, до 300 Кбит/с) представляет собой виртуальную сеть, построенную из уникаст-
туннелей, которые функционируют поверх Интернет. MBONE составляет около 3,5% от
всего Интернет. Рабочие станции для доступа к MBONE должны поддерживать IP-
мультикастинг (см. RFC-1112 "Host Extensions for IP Multicasting"). Следует иметь в виду,
что не все маршрутизаторы поддерживают мультикастинг.
При работе с MBONE отправитель не должен знать, кто является получателем, а требуемая
пропускная способность канала не зависит от того, обслуживается один клиент или 100.
Степень сжатия
Размер экрана
данных
Требования при передаче звука определяются необходимым качеством, так для получения
полосы 6 Кгц нужно 64 Кбит/с, а для уровня, сопоставимого с CD, - 1,4 Мбит/с. Применение
сжатия информации позволяет снизить эти требования в 4-8 раз. Общепринятыми
стандартами для сжатия изображения при видеоконференциях являются JPEG, MPEG, H.261.
Обычно они реализуются программно, но есть и аппаратные реализации.
Если сегодня базовым транспортным протоколом для мультимедиа является UDP, то в самое
ближайшее время его потеснит RTR и дополнят RSVP и ST-II, что заметно повысит качество
и надежность (см. также раздел IP-phone).
Набор стеков протоколов, которые могут использоваться для реализации видео конференций
в рамках стандартов ITU (транспортный протокол H.320):
G.728 (CLEP) CCITT рекомендация для ADPCM при 16 Кбит/с (3.1 кГц)
H.221 CCITT рекомендация для структуры кадров аудио-видео каналов при скоростях 64 -
1920 Кбит/с.
Таблица 2.9.1.1
H.323
H.320 H.321 H.322 H.324
V1/V2
Дата принятия 1990 1995 1995 1996/1998 1996
Сети без
Узкопо- Сети с
Широко- гаранти-
лосная гаранти-
полосная рованной PSTN или POTS,
переклю- рованной
Сеть ISDN полосы анало-говые теле-
чаемая полосой
ATM пропус- фонные системы
цифровая пропус-
LAT кания
ISDN кания
(Ethernet)
H.261
Видео H.261 H.263 H.261 H.263 H.261 H.263 H.261 H.263
H.263
G.711
G.711 G.711 G.711 G.722
Аудио G.722 G.722 G.722 G.728 G.723
G.728 G.728 G.728 G.723
G.729
Мультиплек-
H.221 H.221 H.221 H.225 H.223
сирование
H.230 H.230
Управление H.242 H.245 H.245
H.242 H.242
Многото-чечный H.231 H.231 H.231 H.323
режим H.243 H.243 H.243
Данные T.120 T.120 T.120 T.120 T.120
AAL
Общий I.363 I.400 & V.34
I.400 TCP/IP
интерфейс AJM I.361 TCP/IP модем
PHY I.400
где I(ξ0, ξ3) - количество информации о ξ0 в принятом сообщении ξ3, I(ξ1, ξ2) - количество
информации о ξ1 в принятом сигнале ξ2.
Для выполнения этого неравенства передача является возможной, т.е. возможна передача
Предположим далее, что имеется лишь конечное число N различных входных сигналов х1 и
нет никаких ограничений на вероятности P{ ξ1 = x1}, x1 X1. Кроме того, предположим, что
передаваемые сигналы принимаются без искажений, то есть с вероятностью 1 ξ2= ξ1. Тогда
емкость канала выражается формулой C = log2N, т.е. передаваемое количество информации
I(1,ξ 2 ) будет максимальным в том случае, когда сигналы x1 X1 равновероятны.
Пусть H<C, положим также =(1/2)(C-H). Согласно закону больших чисел, примененному к
последовательности независимых и одинаково распределенных случайных величин
с математическим ожиданием
для любого ε >0 найдется такое n(), что при всех n ≥ n(ε )
Полученное неравенство говорит о том, что все группы сообщений х0n можно разбить на два
класса. К первому классу относятся высоковероятные сообщения х0n, для которых P(x0n)
-n(H+ )
≥2 и количество которых Mn не больше чем 2n(H+ ):
Mn 2n(H+ )
последовательность :
I(0,3) ∞ и
(по вероятности)
(при n ∞),
то при весьма широких предположениях для любого наперед заданного >0 существует
такое n(), что по всем каналам связи с параметром n n() возможна передача с точностью
до .
2.10.2. Канал связи с изменяющимися состояниями
Как было указано выше, канал характеризуется условными распределениями З2, задающими
вероятности тех или иных искажений посылаемого сигнала х1. Несколько изменим схему
канала связи, считая, что имеется некоторое множество Z возможных состояний z канала
связи, причем если канал находится в некотором состоянии z и на входе возникает сигнал x1,
то независимо от других предшествующих обстоятельств канал переходит в другое
состояние z1. Этот переход подвержен случайностям и описывается условными
распределениями P(C|x1, z) (P(C|x1, z) - вероятность того, что новое состояние z1 будет
входить в множество C Z). При этом уже считается, что выходной сигнал х2 однозначно
определяется состоянием канала z1, т.е. существует некоторая функция = (z) на
пространстве z возможных состояний канала такая, что х2= (z1). Эта более общая схема
позволяет учитывать те изменения, которые в принципе могут возникать в канале по мере
его работы.
Предположим, что поступающие на вход канала связи сообщения { 0(n)}, n =…, -1, 0, 1 ,…,
образуют случайную последовательность. Будем считать правило кодирования заданным,
если при всех k, m и k1,…, km k определены условные вероятности
Определим величину H формулой H = inf I( 0, 3), где I( 0, 3) - скорость передачи
информации о стационарной последовательности {0(n)} последовательностью {3(n)}, n =
…, -1, 0, 1,… (эти последовательности предполагаются стационарно связанными), и нижняя
грань берется по всем допустимым распределениям вероятностей, удовлетворяющим
требованиям точности передачи {0(n)} { 3(n)}.
Предположим также, что имеется лишь конечное число входных сигналов х1 и состояний
канала z. Обозначим состояния канала целыми числами 1, 2, …, N, и пусть p(k, x1,j) -
соответствующие вероятности перехода из состояния k в состояние j при входном сигнале x1:
p(k0,x1(1),k1)p(k1,x1(2),k2)… p(kn-1,x1(n),kn)
Пусть 1 = { (t), t T1} и 2= { (t), t T2} - два семейства случайных величин, имеющих
совместное гауссово распределение вероятностей, и пусть H1 и H2 - замкнутые линейные
оболочки величин (t), t T1, и (t), t T2, в гильбертовом пространстве L2 (). Обозначим
буквами P1 и P2 операторы проектирования на пространства H1 и H2 и положим P(1) = P1P2P1,
P(2) = P2P1P2. Количество информации I(1, 2) о семействе величин 1, содержащееся в
семействе 2, конечно тогда и только тогда, когда один из операторов P(1) или P(2)
представляет собой ядерный оператор, т.е. последовательность 1, 2,… его собственных
M, ) .
Величину H=H, определенную как H = inf I(, ), обычно называют -энтропией случайной
величины (нижняя грань берется по всем случайным величинам , удовлетворяющим
указанному условию -близости случайной величине ).
Пусть (x,y) = (|x-y|) и существует производная ’(0), 0<’(0)<∞. Тогда при 0 имеет
место асимптотическая формула, в которой логарифмы берутся по основанию e:
Тогда
Фигурирующая здесь величина I(, ) называется средней скоростью передачи информации
стационарным процессом о стационарном процессе 1 или просто - скоростью передачи
информации.
При дополнительных условиях типа регулярности скорость передачи информации I( 1, 2)
совпадает с пределом
. Так будет, например тогда, когда время меняется дискретно, а отдельные величины
1(t) и 2(t) могут принимать лишь конечное число различных значений или когда
распределение вероятностей процессов 1 и 2 является гауссовым. В случае непрерывного
времени t так будет для гауссовых процессов, когда спектральная плотность f() процесса
2(t) удовлетворяет условию
I(,) = -
I(,) = -
I(1, 2) = -
где
Эта формула показывает, какого типа спектральная плотность f22() должна быть у
регулярного стационарного процесса 2(t), который несет минимальную информацию I (1,
2) H о процессе 1(t). В случае дискретного времени, когда f11( ) при всех , -
2
, нижняя грань H скорости передачи достигается для такого процесса 2 (t) (со
спектральной плотностью f22(), задаваемой приведенной выше формулой), который связан с
процессом 1(t) формулой
2(t) = 1(t) + (t), где (t) - стационарный гауссов шум, не зависящий от процесса 2(t); в
общем случае формула f22() задает предельный вид соответствующей спектральной
плотности регулярного процесса 2(t).
равновероятны: вероятность того, что на выходе будет сигнал х2, равна для любого х2
x1, где N - общее число сигналов. Для такого канала связи пропускная способность
c = supI( 1,2) достигается в случае, когда на вход поступает последовательность
независимых и равномерно распределенных сигналов …, 1(-1), 1(0), 1(1),…; эта
пропускная способность выражается формулой
Предположим также, что ограничения на входной процесс состоит в том, что M[ 1(t)]2 2
(постоянная 2 ограничивает среднюю энергию входного сигнала). Пропускная способность
такого канала может быть вычислена по формуле
[в последнем выражении интегрирование ведется в пределах - для дискретного
времени t и в пределах -∞ < <∞ для непрерывного t), где f () - спектральная плотность
гауссова процесса (t), функция f() имеет вид
Нужно сказать, что если функция f() представляет собой спектральную плотность
регулярного стационарного гауссова процесса 1(t), то этот процесс, рассматриваемый как
входной сигнал, обеспечивает максимальную скорость передачи информации: I( 1, 2) = C.
Однако в наиболее интересных случаях, когда время t меняется непрерывно, функция f()
обращается в нуль на тех интервалах частот , где уровень шума сравнительно высок
(отличные от нуля значения f() сосредоточены в основном на тех интервалах частот , где
уровень шума сравнительно мал), и поэтому не может служить спектральной плотностью
регулярного процесса. Более того, если в качестве входного сигнала выбрать процесс 1(t) с
спектральной плотностью f(), то этот сигнал будет сингулярным и соответствующая
скорость передачи информации I( 1,2) будет равна нулю, а не максимально возможному
значению C, указанному выше.
При этом входной сигнал 1(t), обеспечивающий скорость передачи информации I(1, 2),
близкую к максимальной, является гауссовым стационарным процессом со спектральной
плотностью f() вида
так что параметры 2 и 2 имеют следующий физический смысл:
Исторически для передачи данных первыми были созданы последовательные каналы. Это
прежде всего протоколы последовательнйо передачи данных SLIP и PPP. В ИТЭФ нами был
реализован канал последовательного обмена между машинами СМ-4 и Электроника-60 еще в
1985 году. Его скорость работы была равна 110 кбит/c. Длина соединения на самодельной
скрученной паре составляла около 2 метров. Канал был реализован на микросхемах UART.
Сегодня это может вызвать только кривую усмешку, а тогда мы были счастливы, так как
смогли копировать флоппи-диски, имеющие разные форматы записи (DEC-IBM). Скоро
люди забудут, что такое флоппи диски. Лишь кое-где имеются 3,5-дюймовые дисководы (1,4
Мбайт). А тогда мы работали с 8-дюймовыми дисками, емкость которых составляла 320-640
килобайт (одиночная и двойная плотности записи). Первые персональные компьютеры
имели последовательные интерфейсы RS-232 с быстродйствием 19,2 кбит/с. Этот интерфейс
долго использовался для подключения к машине мышки.
В 1990 годы с помощью ДЕЗИ был создан канал ИТЭФ-ФИАН-ДЕЗИ с быстродействием 4,6
кбит/сек (на все три института), который дал нам выход в Интернет. Канал использовал две
выделенные телефонные скрученные пары и модемы. Позднее, поменяв модемы, удалось
поднять быстродействие до 14,2 кбит/с. И только в 1992 году был создан спутниковый канал
НИЯФ-МГУ - ДЕЗИ (Гамбург), к которому был подключен и ИТЭФ. Суммарная полоса
пропускания канала была равно 256 кбит/c (позднее полоса была поднята до 2 Мбит/c).
ИТЭФ был подключен к НИЯФ МГУ через радиорелейную линию с пропускной
способностью 2 Мбит/c. Параболические антенны НИЯФ находились у основания шпиля
МГУ. От радирелейного терминала к маршрутизатору CISCO AGS ИТЭФ (интерфейс V-32)
шел последовательный канал G.703.