Вы находитесь на странице: 1из 8

Лекция 3.

Количество информации
1. Попытки количественного измерения информации.
2. Структурный подход к измерению информации.
3. Статистический подход к измерению информации.
4. Семантический подход к измерению информации.

1. Попытки количественного измерения информации:


 Первые отчетливые предложения об общих способах измерения количества
информации были сделаны Р. Фишером (1921 г.) в процессе решения вопросов
математической статистики.
 Проблемами хранения информации, передачи ее по каналам связи и задачами
определения количества информации занимались Р. Хартли (1928 г.) и X. Найквист
(1924 г.). Р. Хартли заложил основы теории информации, определив меру количества
информации для некоторых задач.
 Наиболее убедительно эти вопросы были разработаны и обобщены американским
инженером Клодом Шенноном в 1948 г. С этого времени началось интенсивное
развитие теории информации вообще и углубленное исследование вопроса об
измерении ее количества в частности.
В информатике, как правило, измерению подвергается информация, представленная
дискретным сигналом. При этом различают следующие подходы:
 структурный. Измеряет количество информации простым подсчетом
информационных элементов, составляющих сообщение. Применяется для оценки
возможностей запоминающих устройств, объемов передаваемых сообщений,
инструментов кодирования без учета статистических характеристик их
эксплуатации.
 статистический. Учитывает вероятность появления сообщений: более
информативным считается то сообщение, которое менее вероятно, т.е. менее всего
ожидалось. Применяется при оценке значимости получаемой информации.
 семантический. Учитывает целесообразность и полезность информации.
Применяется при оценке эффективности получаемой информации и ее
соответствия реальности.

2. Структурный подход к измерению информации

В рамках структурного подхода выделяют три меры информации:


 геометрическая. Определяет максимально возможное количество информации в
заданных объемах. Мера может быть использована для определения информационной
емкости памяти компьютера;
 комбинаторная. Оценивает возможность представления информации при
помощи различных комбинаций информационных элементов в заданном объеме.
Комбинаторная мера может использоваться для оценки информационных возможностей
некоторого системы кодирования;
 аддитивная, или мера Хартли.

1
Геометрическая мера
Определяет максимально возможное количество информации в заданных объемах.
Единица измерения – информационный элемент. Мера может быть использована для
определения информационной емкости памяти компьютера. В этом случае в качестве
информационного элемента выступает минимальная единица хранения – бит. Список
самых распространенных более крупных единиц и соотношение между ними приведено
ниже:

8 бит = 1 байт (сокращенно б или Б),


1024 Б = 1 килобайт (сокращенно Кб или К),
1024 К = 1 мегабайт (сокращенно Мб или М),
1024 М = 1 гигабайт (сокращенно Гб или Г).
Тогда, например, объем винчестера – 3 гигабайта; объем основной памяти компьютера –
32 мегабайта и т.д.
Пример 1. Пусть сообщение
5555 6666 888888
закодировано одним из специальных методов эффективного кодирования – кодирование
повторений – и имеет вид:
5(4) 6(4) 8(6) .
Требуется измерить информацию в исходном и закодированном сообщениях
геометрической мерой и оценить эффективность кодирования.

В качестве информационного элемента зададимся символом сообщения. Тогда:

I(исх.) = l(исх.) = 14 символов;


I(закод.) = l(закод.) = 12 символов,

где I(исх.), I(закод.) – количества информации, соответственно, в исходном и


закодированном сообщениях;

l(исх.), l(закод.) – длины (объемы) тех же сообщений, соответственно.

Эффект кодирования определяется как разница между I(исх.) и I(закод.) и


составляет 2 символа.
Очевидно, геометрическая мера не учитывает, какими символами заполнено
сообщение. Так, одинаковыми по количеству информации, измеренной геометрической
мерой, являются, например, сообщения «компьютер» и «программа»; а также 346 и 10В.

Комбинаторная мера
Очевидно, комбинаторная мера является развитием геометрической меры, так как
помимо длины сообщения учитывает объем исходного алфавита и правила, по которым из
его символов строятся сообщения.
Особенностью комбинаторной меры является то, что ею измеряется информация не
конкретного сообщения, а всего множества сообщений, которые могут быть получены.
Единицей измерения информации в комбинаторной мере является число комбинаций
информационных элементов.
Пример 1. Определить емкость ASCII-кода, представленного в двоичной или
шестнадцатеричной системе счисления.
2
ASCII-код – это сообщение, которое формируется как размещение с повторениями:
 для двоичного представления – из информационных элементов {0, 1}, сообщение
длиной (объемом) 8 символов;
 для шестнадцатеричного представления – из информационных элементов {0, 1, 2, ….,
А, В, С, …. F}, сообщение длиной (объемом) 2 символа.

Тогда в соответствии с положениями комбинаторики:

где I(двоичное), I(шестнадцатеричное) – количества информации, соответственно, для


двоичного и шестнадцатеричного представления ASCII-кода.

Таким образом, емкость ASCII-кода для двоичного и шестнадцатеричного представления


одинакова и равна 256.
Следует отметить, что все коды постоянной длины формируются по правилам
комбинаторики или их комбинациям.

В случае, когда сообщения формируются как размещения с повторениями из элементов


алфавита мощности h и известно количество сообщений М, можно определить требуемый
объем сообщения (т.е. его длину l) для того, чтобы в этом объеме представить все
сообщения: l = log h М .

Например, есть 4 сообщения – a, b, c, d. Выполняется двоичное кодирование этих


сообщений кодом постоянной длины. Для этого требуются 2 двоичных разряда. В самом
деле: l = log 2 4 = 2.
Аддитивная мера или мера Хартли
Американский инженер Р. Хартли (1928 г.) процесс получения информации
рассматривает как выбор одного сообщения из конечного заданного множества из N
равновероятных сообщений.
Предположим, что какое-то событие имеет m равновероятных исходов. Таким
событием может быть, например, появление любого символа из алфавита, содержащего m
таких символов. Как измерить количество информации, которое может быть передано при
помощи такого алфавита?
Это можно сделать, определив число N возможных сообщений, которые могут быть
переданы при помощи этого алфавита:
Если сообщение формируется из одного символа, то N  m .
Если сообщение формируется из двух символов, то N  m  m  m .
2

Если сообщение содержит n символов (n – длина сообщения), то N  m


n

Хартли впервые ввел специальное обозначение для количества информации – I и


предложил следующую логарифмическую зависимость между количеством информации и
мощностью исходного алфавита:
Формула Хартли:

I  log 2 N

3
Формула Хартли позволяет определить количество информации в сообщении
только для случая, когда появление символов равновероятно и они статистически
независимы.
Примеры равновероятных сообщений:
– при бросании монеты: "выпала решка", "выпал орел";
– на странице "количество букв чѐтное", "количество букв нечѐтное".
Единицей измерения информации в аддитивной мере является бит.

Пример 1.

ДНК человека можно представить как некоторое слово четырехбуквенного алфавита,


где буквы соответствуют нуклеотидам1.

Определим, какое количество информации содержит ДНК, если она состоит примерно
из 1.5×1023 нуклеотидов.

Так как алфавит -- четырехбуквенный, каждый символ слова несет log24 = 2 бита
информации. Следовательно ДНК в целом позволяет хранить 3×1023 бит или около
3×1010 Терабайт информации.

Пример 2.
В корзине лежат 8 шаров. Все шары разного цвета. Сколько информации несет сообщение о
том, что из корзины достали красный шар.

Поскольку все шары разного цвета, то вытаскивание одного шара из 8 равновероятно.


Количество информации определяется по формуле Хартли: I=log28 или 2I=8, отсюда I=3.

3. Статистический подход к измерению информации.

Определим, являются ли равновероятными сообщения "первой выйдет из дверей


здания женщина" и "первым выйдет из дверей здания мужчина". Однозначно ответить на
этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это,
например, станция метро, то вероятность выйти из дверей первым одинакова для
мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность
значительно выше, чем для женщины.
Для задач такого рода американский учѐный Клод Шеннон предложил в 1948 г.
другую формулу определения количества информации, учитывающую возможную
неодинаковую вероятность сообщений в наборе
Количество информации I невозможно определить без рассмотрения понятия
неопределѐнности состояния системы (энтропии системы). Действительно, получение
информации о какой-либо системе всегда связано с изменением степени
неосведомлѐнности получателя о состоянии этой системы. Рассмотрим это понятие.
Энтропия – это мера неопределенности ситуации с конечным числом исходом.
Пусть до получения информации потребитель имеет некоторые предварительные
(априорные) сведения о системе . Мерой его неосведомлѐнности о системе является
функция H(), которая в то же время служит и мерой неопределѐнности состояния
системы.

4
После получения некоторого сообщения  получатель приобрѐл некоторую
дополнительную информацию I(), уменьшившую его априорную неосведомлѐнность
так, что апостериорная (после получения сообщения ) неопределѐнность состояния
системы стала H().
Тогда количество информации I() о системе, полученной в сообщении 
определится так
I() = H()- H(),

т.е. количество информации измеряется изменением (уменьшением)


неопределѐнности состояния системы.
Если конечная неопределѐнность H() обратится в нуль, то первоначальное
неполное знание заменится полным знанием и количество информации I() = H().
Иными словами энтропия системы H() может рассматриваться как мера
недостаточности информации.
Энтропия системы H(), имеющая N возможных состояний, согласно формуле
Шеннона, равна:

N Формула Шеннона (1948 г.) – определяет


( )   Pi log Pi , количество информации, необходимое для
i 1
снятия неопределенности, при
где Pi – вероятность того, что система
неодинаковых вероятностях появления
находится в i-м состоянии.
элементов (сообщений) в наборе.
N   1
K   pi  log 2  
i 1  pi 
,

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны
1
Pi  , еѐ энтропия определяется соотношением
N

N
1 1
( )   log  log N .
i 1 N N
Пример 1. Вычислить какое количество информации будет содержать зрительное
сообщение о цвете вынутого шарика, если в непрозрачном мешочке хранятся 10 белых, 20
красных, 30 синих и 40 зеленых шариков.
Решение: Всего шариков 10 + 20 +30 +40 = 100 Вероятности сообщений о цвете следующие:
Рб = 10/100 =0,1;
Рк = 20/100 =0,2;
Рс = 30/100 =0,3;
Рз = 40/100 =0,4

События не равновероятны, поэтому воспользуемся формулой Шеннона: H=- - (0,1• log2 0,1+
0,2• log2 0,2+ 0,3• log2 0,3+ 0,4• log2 0,4) = -((-1)*0,1+0,3*(-0,523)+0,2 (-0,699)+0,4*(-0,398))=-(-
0,1- 0,1569-0,1398-0,1592)=0,559

5
4. Семантический подход к измерению информации.

Для измерения смыслового содержания информации, т.е. еѐ количества на


семантическом уровне, наибольшее признание получила тезаурусная мера, которая
связывает семантические свойства информации со способностью пользователя принимать
поступившее сообщение. Для этого используется понятие тезаурус пользователя.
Тезаурус – это совокупность сведений, которыми располагает пользователь или
система.
В зависимости от соотношений между смысловым содержанием информации S и
тезаурусом пользователя Sp измеряется количество семантической информации Ic,
воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус.
Характер такой зависимости показан на рисунке №1.
Рассмотрим два предельных случая, когда количество семантической информации Ic
равно 0:
 при Sp = 0 пользователь не воспринимает, не понимает поступающую
информацию;
 при Sp   пользователь всѐ знает, и поступающая информация ему не
нужна.

Ic
Рис. №1

Sp
Sp opt

Максимальное количество семантической информации Ic потребитель приобретает при


согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt ), когда
поступающая информация понятна пользователю и несет ему ранее не известные
(отсутствующие в его тезаурусе) сведения.
Следовательно, количество семантической информации в сообщении, получаемых
пользователем, является величиной индивидуальной, персонифицированной. Одно и то
же сообщение может иметь смысловое содержание для компетентного пользователя и
быть бессмысленным (семантический шум) для пользователя некомпетентного.
При оценке семантического (содержательного) аспекта информации необходимо
стремиться к согласованию величин S и Sp.
Относительной мерой количества семантической информации может служить
коэффициент содержательности C, который определяется как отношение количества
семантической информации к еѐ объѐму:

Ic
C .

6
В рамках этого подхода рассмотрим такие меры, как целесообразность, полезность
(учитывают прагматику информации) и истинность информации (учитывает семантику
информации).
Целесообразность.
Количество I получаемой вместе с сообщением информации с позиций ее
целесообразности определяется по формуле:

где p1 — вероятности достижения цели после сообщения


p2 – вероятности достижения цели получения сообщения.
Пример 1.
Пусть вероятность p2 сдачи экзамена по информатике до получения сообщения
(подсказки от соседа) оценивается студентом со значением 0,2. После того, как ему
удалось получить подсказку, вероятность сдачи увеличилась: p1 = 0,8. Определить
количество информации, содержащейся в подсказке, с точки зрения ее целесообразности.
В соответствии с приведенной формулой имеем: I = log2(0,8/0,2) = log24 = 2.
Пример 2.
Пусть положение студента до получения подсказки оценивается аналогично
предыдущему примеру. После получения подсказки, вопреки ожиданиям, вероятность
сдачи еще уменьшилась, поскольку подсказка содержала неверную информацию: p1 = 0,1.
Определить количество информации, содержащейся в подсказке, с точки зрения ее
целесообразности.
В соответствии с приведенной формулой имеем: I = log2(0,1/0,2) = log20,5 = -1.
Таким образом, полученная информация является дезинформацией, поскольку имеет
отрицательный знак при измерении.
Полезность.
Для измерения смыслового содержания информации, т.е. еѐ количества на семантическом
уровне, наибольшее признание получила тезаурусная мера, которая связывает
семантические свойства информации со способностью пользователя принимать
поступившее сообщение. Для этого используется понятие тезаурус пользователя. Этим
определяется полезность информации. В самом деле, для усвоения тех знаний, которые
получаются в ВУЗе, требуется среднее образование - иначе студент ничего не поймет.
Истинность.
Эта мера оценивает информацию с позиций ее соответствия отображаемому источнику
информации, т.е. реальному миру.
Пусть r(mess) – функция, оценивающая истинность сообщения mess как соответствие его
реальному положению вещей: 0 ≤ r(mess) ≤ 1,
причем при r(mess) = 1 сообщение истинно,
а при r(mess) = 0 сообщение ложно.
Например, r(«данная лекция посвящена информатике») = 1,
r(«данная лекция имеет объем 5 страниц») = 0.

7
Оценить истинность сложного сообщения можно, разбив его на простые. Например,
сообщение mess:
«данная лекция посвящена информатике и имеет объем 5 страниц»
можно представить как два простых сообщения mess1 и mess2:
mess1 - «данная лекция посвящена информатике» ,
mess2 - «данная лекция имеет объем 5 страниц».
Тогда можно предложить рассчитывать истинность сложного сообщения как среднее
арифметическое значение истинностей сообщений, его составляющих (что называют -
«истинно лишь наполовину»). В таком случае имеем:
r(mess) = Ѕ (r(mess1) + r(mess2))/2 = Ѕ (1 + 0)/2 = 0,5.