Вы находитесь на странице: 1из 10

Понятие и измерение информации

1. Понятие информации
Информатика – наука о способах её представления информации, её
получении, преобразовании и передаче.
Термин информатика образован путём слияния двух слов –
информация и автоматика, и применяется в странах Евразии. В США, Канаде
и некоторых латиноамериканских странах используется термин "computer
science" (компьютерная наука).
В нашей стране термин "информатика" утвердился с 1983 г. после
создания Отделения информатики, вычислительной техники и автоматизации
АН СССР.
Информация – это сведения об объектах и явлениях окружающей
среды, их параметрах, свойствах и состоянии, которые уменьшают степень
неопределённости, неполноты знаний о них.
Энтропия – численная мера неопределённости информации ,
где n – количество вариантов сообщений, которые можно получить от
источника информации.
Свойства энтропии:
1. , полученное сообщение не является случайным,
неопределённость отсутствует.
2. возрастает с ростом n.
3. Количество информации I определяется степенью снятия
неопределённости при получении сообщения от источника информации

где – неопределённость до получения сообщения, – оставшаяся


неснятой неопределённость после получения сообщения.
Сообщение можно рассматривать как форму представления (речь,
текст, изображение, цифровые данные, графики, таблицы и т.п.) информации,
полученной от источника информации. Для сообщения характерно наличие
источника и получателя информации, а также используемая среда для её
доставки в виде линии передачи.
При передаче информации сообщение должно быть преобразовано в
сигнал. Сигнал (от лат. Signum – знак) – форма сообщения, которое
преобразовано с целью его отображения, передачи и регистрации. Сигнал
переносит сообщение (информацию) в пространстве с использованием
физической среды передачи. Сигнал всегда является функцией времени, даже
если передаваемое сообщение таковым не является, например неподвижное
изображение. Существует три формы представления сигналов:
• аналоговая форма, при которой сигнал описывается непрерывной
функцией времени;
• дискретная форма, при которой сигнал представляется совокупностью
аналоговых значений, полученных путём измерения уровня аналогового
сигнала (рис. 1) через равные промежутки времени t (дискретизация
сигнала);
• цифровая форма, при которой дискретные значения сигнала округлены
(рис. 2) до одного из ближайших опорных уровней Ui (квантов), которые
расположены через равные промежутки U (квантование сигнала).

Дискретный
U
сигнал
2,9

Аналоговый
1,8 сигнал

0,7 t
0,4

0 t1 t2 t3 t4 t (сек.)
Рис.1. Дискретизация аналогового сигнала.

U
U6
U5 Цифровой
U4 сигнал

U3
U2
U t
U1

0 t1 t2 t3 t4 t5 t (сек.)

Рис.2. Квантование дискретного сигнала.


Каждый опорный уровень Ui выражается числовым значением. Чем
больше квантов на оси ординат и, следовательно, меньше расстояние между
ними U, тем точнее представляется цифровой сигнал. Увеличивая
количество разрядов, выражающих кванты сигнала, можно повысить
точность представления сообщения.
2. Количество информации
Здесь мы рассмотрим только синтаксические оценки количества
информации, т.е. для приёмника информации без памяти.
2.1. Словарные множества с равновероятным алфавитом
Статья «Передача информации» представленная Ральфом Винтоном
Лайоном Хартли на международном конгрессе в Италии в 1927 г.
Рассмотрим её основные положения:
«
Сколько различных последовательностей (слов) длиной два символа
можно перечислить, используя трёхсимвольный алфавит? Очевидно 3 2 или 9.
Каково число символьных последовательностей (слов) длиной n в
алфавите, содержащем s символов? Очевидно .
Следовательно, мощность множества слов одинаковой длины
определяется выражением . Ниже идёт речь именно об этих множествах.
Хартли предположил, что количество информации, заключённой в
некоторой последовательности словарного множества пропорционально
длине этой последовательности

где К – константа, зависящая от величины s.


Далее Хартли рассмотрел два равномощных словарных множества.
Одно включает символьные последовательности длиной в алфавите,
содержащем символов. Другое множество включает символьные
последовательности длиной в алфавите, содержащем символов. Так как
они равномощны, то

(например, )
Когда количество слов во множествах одинаково, то и количество
информации, заключённое в словах этих множеств, одинаково

Хартли предположил, что это равенство верно тогда, когда K


выражается логарифмической мерой от s

и, следовательно, n символов сообщения несут количество информации


Это и есть формула Хартли!
Таким образом, каждый символ сообщения несёт количество
информации, равное величине

Выбирая основание логарифма b в формуле Хартли , мы


можем зафиксировать размер единицы информации.
»
Конец статьи.
Пример. Пусть первое словарное множество определяется параметрами
и . Второе словарное множество определяется параметрами
и . Параметры специально подобраны так, чтобы мощности
множеств были одинаковыми

При количество информации в одном слове равно


(двоичных единиц)
(двоичных единиц)
При количество информации в одном слове равно
(восьмеричных единицы)
(восьмеричных единицы)
При количество информации в одном слове равно
(десятичных единиц)
(десятичных единиц)

Таблица 1. Единицы измерения информации в зависимости от выбранного


основания логарифма
Основание
Русское название Английское название
логарифма
Двоичная единица Binary digit (bit)
Натуральная единица Natural digit (nat)
Троичная единица Trinary digit (trit)
Десятичная единица Decimal digit (dit)
Десятичная единица имеет другие наименования – Хартли, бан, децит.
2.2. Словарные множества с разновероятным алфавитом
Пусть появление символов алфавита в словах некоторого множества
имеет различную вероятность. Очевидно, что символы с малой вероятностью
добавят больше информации, чем символы, имеющие большую вероятность.
Интересно узнать точно, какое количество информации будет добавлять
каждый символ алфавита при появлении его в слове.
Пример. Пусть алфавит словарного множества содержат два символа
{а,б}, вероятность появления символа «а» в слове составляет , а
символа «б» – . Как определить количество информации,
содержащееся в одном конкретном символе слова? Как определить
количество информации, содержащееся в словах «ба» или «абб»?
Для решения подобных задач Клод Шеннон в 1948 г. развил
логарифмическую меру Хартли и предложил измерять информацию,
содержащуюся в каждом символе слова в зависимости от логарифма
обратной вероятности появления этого символа в слове. На основании этого
мы можем принять, что символ «а» несёт количество информации равное

символ «б» несёт количество информации равное

При основании логарифма, равном 2, получим численные значения:


(двоичных единиц)
(двоичных единиц)
Слово «ба» несёт количество информации:
(двоичных единиц)
Слово «абб» несёт количество информации:
(двоичных единиц)
Пусть алфавит словарного множества содержат три символа {а,б,в}.
Вероятность появления символа «а» в слове составляет , символа «б»
– , а символа «в» – . Если некоторый символ сообщения
является либо буквой «а», либо буквой «б», то количество информации,
заключённое в таком символе сообщения, вычисляется по формуле:

При основании логарифма, равном 2, получим численное значение:


(двоичных единиц)
Всегда

Таким образом, в случае неопределённости символа при вычислении


количества информации, несомой таким символом, вероятности альтернатив
складываются.
Указанные количества информации мы получили для известных
символов алфавита. А как определить количество информации ,
содержащееся в одном произвольном символе слова? Клод Шеннон
предложил сложить количество информации всех символов алфавита,
умножив каждую на вероятность появления этого символа в слове.
Рассмотрим двухсимвольный алфавит {а,б}, вероятность появления символа
«а» в слове составляет , а символа «б» – . Тогда
количество информации , содержащееся в одном произвольном символе
слова
При выборе основания логарифма, равного 2, получим численное
значение:
(двоичных единиц)
Для трёхсимвольного алфавита {а,б,в} с вероятностями ,
и

При выборе основания логарифма, равного 2, получим численное


значение:
(двоичных единиц)
Сейчас мы уже можем написать формулу Шеннона для вычисления
информации, которую несёт один произвольный символ некоторого
сообщения:

где N – количество символов алфавита, – вероятность появления i-го


символа алфавита в сообщении. Иногда отрицательную степень выносят из-
под логарифма

При этом сами логарифмы будут иметь отрицательные значения, так как
вероятности меньше единицы, поэтому, количество информации останется
положительной.
Нам осталось выяснить каким образом распределение вероятностей
появления тех или иных символов в сообщении влияет на получаемое из
сообщения количество информации. Для решения этой задачи рассмотрим
словарное множество с двухсимвольным алфавитом, имеющим вероятности
появления символов и . Так как это полная группа событий, т.е.
, то выразим
,
подставим это выражение в формулу Шеннона

и построим график (рис.3) изменения I в зависимости от .


I
1

0 0,5 1 p1

Рис.3. Зависимость количества информации I от


вероятности p1 символа алфавита.

Вывод: количество информации, заключённой в одном символе


сообщения, максимально тогда, когда все символы алфавита равновероятны:

следовательно, и окончательно

Как и следовало ожидать, при равновероятных символах алфавита


формула Шеннона свелась к формуле Хартли для одного символа.
3. Семантическая теория измерения информации (знаний)
Тезаурус – совокупность сведений о некоторой области знаний
(понятия, их смысловое содержание, отношения между понятиями и т.п.).
Получаемое нами сообщение должно нести сведения, дополняющие
наши знания о мире (рис. 4). Если эти сведения абсолютно новые,
выражаются неизвестным нам тезаурусом (понятиями и отношениями), и
никак не связаны с нашим знанием о мире, то эти сведения нами
принципиально не осмысливаемы и, следовательно, не являются ценными
для нас. С другой стороны, если получаемое сообщение содержит только
известные нам сведения, то оно не несёт для нас ничего нового и потому
также не являются ценным.
Наилучшее
S восприятие
max

Смысл Смысл
сообщения сообщения
непонятен известен

0 0,5 1 Совпадение
тезаурусов
Рис.4. Зависимость количества сведений S от совпадения
тезаурусов сообщения источника и знаний приёмника.

4. Единицы измерения объёма памяти в двоичных единицах


1 триада = 3 бита
1 тетрада = 4 бита
1 байт = 8 битов
Таблица 2. Единицы измерения объёма памяти
Название Обозначение Количество байтов
Килобайт (Kilobyte) Кбайт (KB) 210 = 1024
Мегабайт (Megabyte) Мбайт (MB) 220 = 1 048 577
Гигабайт (Gigabyte) Гбайт (GB) 230 = 1 073 741 824
Терабайт (Terabyte) Тбайт (TB) 240 = 1 099 511 627 776
Петабайт (Petabyte) Пбайт (PB) 250 = 1 125 899 906 842 624
Эксабайт (Exabyte) Эбайт (EB) 260 = 1 152 921 504 606 846 976
Зеттабайт (Zettabyte) Збайт (ZB) 270 = 1 180 591 620 717 411 303 424
Йоттабайт (Yottabyte) Йбайт (YB) 280 = 1 208 925 819 614 629 174 706 176

ЛР 1. Определение количества информации


Пример. Дан трёхсимвольный алфавит с вероятностями символов:
, , . Количество информации в сообщениях
вычисляется следующим образом:
Сообщение Количество информации
«а» дит
«б» дит
«в» дит
«аб» дит
«ав» дит
«бв» дит
«а» или «б» дит
«а» или «в» дит
«б» или «в» дит
Один
произвольный дит
символ «?»
«?a» дит
Задачи.
1. Дан трёхсимвольный равновероятный алфавит {а,б,в} источника
сообщений. Этот источник посылает нам слова.
а) Сколько трит информации содержится в слове «аааа», полученном из
источника сообщений?
б) Сколько трит информации содержится в слове «бааб», полученном из
источника сообщений?
в) Сколько трит информации содержится в слове из четырёх произвольных
символов «????», полученных из источника сообщений?
г) Сколько бит информации содержится в слове «вбаа», полученном из
источника сообщений?
д) В каком случае а) или г) мы получили бóльшее количество информации?
2. Дан трёхсимвольный алфавит {а,б,в} источника сообщений с
вероятностями символов: , , . Этот источник
посылает нам слова.
а) Сколько бит информации содержится в слове «аа», полученном из
источника сообщений?
б) Сколько бит информации содержится в слове «бб», полученном из
источника сообщений?
в) Сколько бит информации содержится в слове, первый символ которого
является либо буквой «а», либо буквой «б», а второй символ – это буква «в»?
г) Сколько бит информации содержится в слове из трёх произвольных
символов «???», полученных из источника сообщений?
3. Какой длины должно быть сообщение в равновероятном алфавите
{а,б,в,г}, содержащее 16 бит информации?
4. Сколько символов должно быть в равновероятном алфавите, из
которого составлено слово, длиной четыре символа, содержащее 32 бита
информации?
5. В каких единицах измерена информация, если известно, что её
количество равно 20, длина сообщения равна 5, а мощность равновероятного
алфавита равна 256.
6. Какая строка содержит большее количество информации:
а) «1100» в алфавите {0,1} или «120» в алфавите {0,1,2}?
б) «100» в алфавите {0,1} или «20» в алфавите {0,1,2}?
в) «1001» в алфавите {0,1} или «31» в алфавите {0,1,2,3}?
г) «шар» в русском алфавите или «sphere» в английском алфавите?

Вам также может понравиться