Академический Документы
Профессиональный Документы
Культура Документы
27
H1 = pi log 2 pi = 4.029 bits
i =1
OCRO HLI RGWR NMIEL VIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL
H2 = 3.318 bits
27 urnes contenant, chacune, les couples de lettres avec la mme premire lettre et
dans des proportions correspondant aux valeurs estimes.
On tire un couple, on note les deux lettre, on tire un autre couple dans lurne
correspondant la dernire lettre crite. On note la dernire lettre du couple
ON IE ANTSOUTINYS ARE T INCORE ST BE S DEALY ACHIN D ILONASIVE TUCOOWE AT
TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE
1.2 Gnralisation
Soit U une source discrte (un dispositif susceptible de fournir des symboles issu dun alphabet.
U1, U2, ,Un, les VA correspondant aux valeurs mises par U aux instants 1, 2 , n,
Entropie dune source : La difficult tient ce que les VA Ui ne sont pas forcment
indpendantes et une dfinition correcte de lEntropie par lettre de
la source doit prendre en compte les liens probabilistes entre les Ui.
9 Seconde approche : On value lentropie par lettre source par la mesure de lincertitude
de la Lime occurrence de la source connaissant les L-1 prcdentes
ralisation (avec L grand). Soit :
lim H (U L / U1 ,U 2 ,...,U L 1 )
L +
Remarque : Si U est une source sans mmoire (les Uk sont indpendants), alors :
H(U )=H (U1 ) .
Si U est une chane de Markov homogne dordre 1, alors :
H(U )=H (U2 / U1 ) .
2.0. Dfinitions
Lobjectif du codage de source est de supprimer les parties redondantes de linformation dlivre
par la source. Deux types de codes peuvent tre utiliss :
Code longueur fixe : Tous les mots ont la mme longueur (mme nombre de symboles).
Code longueur variable : La longueur des mots varie en fonction de leur frquence
dapparition. Un mot sera dautant plus long que sa probabilit
dapparition sera petite.
Compaction des donnes (ou compression sans perte dinformation) : Opration consistant
rduire ( laide dun codage adquat) le dbit binaire dune
source tout en conservant linformation fournie par celle-ci.
Thorme de Kraft
Un code C peut tre transform (en permutant certaines lettres dans les mots)
en un code prfixe quivalent (ie. un code fabriqu partir du mme alphabet
de rfrence et possdant la mme distribution de longueur de mots).
b
cC
n( c )
1 avec b : nombre de lettres dans lalphabet.
c : mot code
n(c) : longueur du mot c
Avec : M (nombre de mots code), pi (frquence relative dapparition du ime mot code) et n(i)
(longueur du ime mot code).
Proposition 1
Pour tout codage dune VA X par un code uniquement dchiffrable (sur un
alphabet b lettres), la longueur moyenne des mots code vrifie :
H ( X ) n log b o la base du logarithme concide avec celle de la mesure de
lentropie de X.
Proposition 2
Pour toute VA X, il existe un code prfixe tel que : n log b H ( X ) + log b
Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 8
2. Codage de source
15 7 6 6 5
n = n (i ) pi = 2 * + 2* + 2* + 3* + 3* = 2.282 bits
i 39 39 39 39 39
n = n (i ) pi
i
5 6 6 7 15
= 3* + + + + 1*
39 39 39 39 39
= 2.23 bits
c=S, P=
while Pc dictionnaire, c=c+
mission adresse(P)
Pc ajout au dictionnaire
P=c, c=c+
Ex : sisixsciesscient
Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 15
2. Codage de source
Taux de compression :
taille du fichier compress
= 1 *100
taille du fichier original
Pour un fichier original de 100 caractres, un
taux de compression de 70% se traduit par un
fichier compress de 30 caractre.
Pour un mme code, le taux de compression
varie dun fichier un autre.
Autrement dit, les mots source c de longueur n ont presque srement ( prs) un probabilit
n ( + H ( X ) )
P(c) vrifiant : a < P ( c ) < a n ( H ( X ) )
Soit X une source discrte sans mmoire, dentropie H(X). Alors, il est possible de
trouver un code bloc pour encoder les mots source de longueur n avec un taux
r
R= (R reprsente le nombre de lettres code ncessaires pour reprsenter une
n
lettre source) tel que la probabilit de ne pouvoir associer avec certitude un mot
source un mot code soit aussi petite que lon veut.
H (X )
Pour cela, il suffit que n soit suffisamment grand et que R vrifie : R > o
log D
D reprsente la taille de lalphabet de rfrence pour la construction du code.
Il suffit donc dattribuer chaque suite typique un mot code diffrent et de faire correspondre
toute suite atypique le mme mot code. En recevant ce mot code appel mot code par dfaut, on
ne sera pas en mesure de retrouver le mot source sas risque derreur mais cette ventualit ne se
produira quavec une probabilit infrieure , nombre fix arbitrairement aussi petit que lon veut.
Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 18
3. Exercices
Exercice 1
Pour une certaine rgion, les prvisions dun mtorologiste M se distribuent suivant les frquences
relatives suivantes (les colonnes correspondent au temps effectif et les lignes aux prvisions) :
1. Un tudiant astucieux montre que M se trompe une fois sur quatre et quil peut faire mieux en
ne prvoyant que des jours sans pluie. Vrifier cette assertion. Il postule donc pour le poste de
M. Le directeur de M refuse cette offre. Commenter cette dcision laide dun raisonnement
faisant intervenir des notions de thorie de linformation.
2. Ltudiant revient quelques temps plus tard en garantissant les rsultats suivants :
Exercice 2
Soit X une VA o n valeurs possibles x1, x2, , xn-1, xn de probabilits 2-1, 2-2, , 2-n+1, 2-n+1
Exercice 3
On considre une source binaire sans mmoire U, de loi de probabilit P{U=0}=0.9. Les 0 tant
beaucoup plus frquents que les 1, on se propose de coder les squences issues de la source en
tenant compte du nombre de 0 et de 1 conscutifs. Lopration consiste en deux tapes:
- Premire tape : On compte le nombre de 0 entre de 1 successifs. On obtient ainsi un entier que
lon appelle entier intermdiaire.
- Deuxime tape : On code lentier intermdiaire en un mot binaire (constitu de quatre lments
binaires si lentier<7 et de un lment binaire si lentier est 8). Si lentier intermdiaire dpasse 8,
on codera une suite de 8 zros conscutifs par un bit correspondant lentier intermdiaire et cela,
autant de fois que ncessaire (voir exemple ci-aprs).
On obtient ainsi la table de correspondance entre les squences source et les entiers intermdiaires
suivante :
Exercice 3 (suite)