Вы находитесь на странице: 1из 21

1.

Entropie dune Source discrte

1.1 Exemple Introductif


On considre les 26 lettres de lalphabet + Blanc : 27 symboles quiprobables.
Lentropie pour chaque lettre est de : H0= log 2 27 = 4.75 bits.
On effectue un tirage (avec remise) :

XFOML RHKHJFFJUJ ZLPWCFWCKCYJFFJEYVKCQSGHYD QPAAMKBZAACIBZLHJQD

Si on tient compte des frquences dapparition de chaque symbole ( partir dun


apprentissage) :

27
H1 = pi log 2 pi = 4.029 bits
i =1

OCRO HLI RGWR NMIEL VIS EU LL NBNESEBYA TH EEI ALHENHTTPA OOBTTVA NAH BRL

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 1


1. Entropie dune Source discrte

1.1 Exemple Introductif (suite)


Si on tient maintenant compte de la dpendance entre les lettres successives (en
anglais, on a souvent un h aprs un t et rarement un w aprs un z)
Recherche de statistiques sur les couples de lettres partir de lensemble
dapprentissage. On peut alors calculer lentropie conditionnelle pour chaque couple
de lettres : H (U2 / U1) = H (U1 ; U2) H (U1)

H2 = 3.318 bits
27 urnes contenant, chacune, les couples de lettres avec la mme premire lettre et
dans des proportions correspondant aux valeurs estimes.
On tire un couple, on note les deux lettre, on tire un autre couple dans lurne
correspondant la dernire lettre crite. On note la dernire lettre du couple
ON IE ANTSOUTINYS ARE T INCORE ST BE S DEALY ACHIN D ILONASIVE TUCOOWE AT
TEASONARE FUSO TIZIN ANDY TOBE SEACE CTISBE

En considrant maintenant les frquences dapparition de lettres par triplets :


H3 = 3. 1 bits
Il faut maintenant 272 urnes
IS NO IST LAT WHEY CRATICT FROURE BIRS GROCID PONDENOME OF DEMONSTRURES
OF THE RETAGIN IS REGOACIONA OF CRE

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 2


1. Entropie dune Source discrte

1.1 Exemple Introductif (suite)

Si on tenait compte de 8 lettres successives : H8 ~ 1.86 bits


En moyenne, en anglais, linformation apporte par une lettre est de lordre de 1.86 bits
Lentropie relative (H8 / H0) est de lordre de 40%.
La redondance est de lordre de 60%

1.2 Gnralisation
Soit U une source discrte (un dispositif susceptible de fournir des symboles issu dun alphabet.
U1, U2, ,Un, les VA correspondant aux valeurs mises par U aux instants 1, 2 , n,

U est dite Stationnaire si : La loi de probabilit de U ne dpend pas de linstant considr.


(ie. k, les Uk suivent la mme loi).

Entropie dune source : La difficult tient ce que les VA Ui ne sont pas forcment
indpendantes et une dfinition correcte de lEntropie par lettre de
la source doit prendre en compte les liens probabilistes entre les Ui.

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 3


1. Entropie dune Source discrte

1.2 Gnralisation (suite)


9 Premire approche : On dfinit dabord lEntropie par lettre source dans une squence
de L lettres par :
1
H L (U ) = H (U1 ,U 2 ,...,U L )
L
Puis, lentropie par lettre de la source par : lim H L (U )
L +

9 Seconde approche : On value lentropie par lettre source par la mesure de lincertitude
de la Lime occurrence de la source connaissant les L-1 prcdentes
ralisation (avec L grand). Soit :
lim H (U L / U1 ,U 2 ,...,U L 1 )
L +

Ces deux approches sont en fait quivalentes


Thorme :
Soit U une source discrte stationnaire telle que H1(U)<+, alors :
- H (U L / U1 , U 2 ,..., U L 1 ) est une fonction dcroissante de L. (1)
- H L (U ) H (U L / U1 ,U 2 ,...,U L 1 ) . (2)

- HL(U ) est une fonction dcroissante de L. (3)

- lim H L (U ) = lim H (U L / U1 , U 2 ,..., U L 1 ) . (4)


L + L +

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 4


1. Entropie dune Source discrte

1.2 Gnralisation (suite)

Entropie par lettre de la source U : H(U )= Llim H L (U ) = lim H (U L / U1 , U 2 ,...,U L 1 )


+ L +

Remarque : Si U est une source sans mmoire (les Uk sont indpendants), alors :
H(U )=H (U1 ) .
Si U est une chane de Markov homogne dordre 1, alors :
H(U )=H (U2 / U1 ) .

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 5


2. Codage de source

2.0. Dfinitions
Lobjectif du codage de source est de supprimer les parties redondantes de linformation dlivre
par la source. Deux types de codes peuvent tre utiliss :
Code longueur fixe : Tous les mots ont la mme longueur (mme nombre de symboles).
Code longueur variable : La longueur des mots varie en fonction de leur frquence
dapparition. Un mot sera dautant plus long que sa probabilit
dapparition sera petite.
Compaction des donnes (ou compression sans perte dinformation) : Opration consistant
rduire ( laide dun codage adquat) le dbit binaire dune
source tout en conservant linformation fournie par celle-ci.

2.1 Gnralits sur les codes


Soit B, un alphabet de rfrence (gnralement binaire, B={0,1}). Des mots sont obtenus par
concatnation des lettres de B. Un code C est un ensemble de mots.
Ex : C={00,01,10,11} est un code de longueur fixe 2.
Un code est uniquement dchiffrable si toute suite de mots code peut tre interprte (dcode)
dune seule manire
Ex : D={0,11,010} est uniquement dchiffrable.
E={0,1,101} ne lest pas (101 peut tre interprt comme 101 ou 101.

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 6


2. Codage de source

2.1 Gnralits sur les codes (suite)


Un code prfixe est un code pour lequel aucun mot nest le dbit dun autre mot (un code prfixe
est donc toujours uniquement dchiffrable).
Un moyen simple de construire un code prfixe est dutiliser un arbre : chaque branche reprsente
une lettre de lalphabet. On choisit les mots codes tels que leur chemin ne contienne pas celui dun
autre mot code

{0,10,110,111} est un code prfixe.


{0,11,110,111} ne lest pas.

Thorme de Kraft
Un code C peut tre transform (en permutant certaines lettres dans les mots)
en un code prfixe quivalent (ie. un code fabriqu partir du mme alphabet
de rfrence et possdant la mme distribution de longueur de mots).
b
cC
n( c )
1 avec b : nombre de lettres dans lalphabet.
c : mot code
n(c) : longueur du mot c

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 7


2. Codage de source

2.1 Gnralits sur les codes (suite)


Thorme de Mac-Millan
Un code C uniquement dchiffrable vrifie : b
cC
n (c )
1
(tout code uniquement dchiffrable admet donc un code prfixe quivalent)

2.2 Codage dune VA discrte


On sintresse tout dabord au codage plus simple dune VA (avant de sintresser celui
dune source U, concernant plusieurs VA U1, U2, , Un, ).
M
On cherche minimiser la longueur moyenne des mots code n: = pi n(i )
i =1

Avec : M (nombre de mots code), pi (frquence relative dapparition du ime mot code) et n(i)
(longueur du ime mot code).

Proposition 1
Pour tout codage dune VA X par un code uniquement dchiffrable (sur un
alphabet b lettres), la longueur moyenne des mots code vrifie :
H ( X ) n log b o la base du logarithme concide avec celle de la mesure de
lentropie de X.
Proposition 2
Pour toute VA X, il existe un code prfixe tel que : n log b H ( X ) + log b
Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 8
2. Codage de source

2.3 Codage dune source : Codes longueur variable


Thorme du codage de source :
Soient U une source stationnaire, HL(U) lentropie par lettre source pour un mot
de longueur L et b la taille de lalphabet utilis pour construire le code.
Alors, il est possible de trouver un code prfixe pour encoder les mots de L
lettres source avec un nombre moyen de lettres code par lettre source de telle
sorte que : H L (U ) H (U ) 1
n< L +
log b log b L
O, la base du logarithme est celle utilise pour lentropie par lettre.
Et donc : H (U ) n < H (U ) +
log b log b

Lime extension de la source U : U = (U1,U2 ,...,UL ) Ui reprsentant la ime occurrence de U.


Nouvelle source dont les ralisation correspondent toutes les concatnations
de L lettres mises par U. L est appel lordre dextension de la source.

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 9


2. Codage de source

2.3 Codage dune source : Code Morse

9 Code ternaire 3 lettres code (le


Point, le Trait, la Pause).
9Chaque lettre : Code par une
succession dmissions de courant
(brefs et longs) spars par de
courtes pauses.
9Sparation de lettres : Pause plus
longue.
9Sparation de mots : Double
pause.

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 10


2. Codage de source

2.3 Codage dune source : Code de Shannon-Fano


9 Premier code exploitant la redondance dune source.
9 Classer les diffrents symboles coder suivant lordre dcroissant.
Les diviser en deux sous groupes (probabilits cumules les plus proches possibles).
9 Affectation dun chiffre binaire aux sous groupes (0, sous groupe suprieur, 1 sous groupe
infrieur). Les mots code du premier sous groupe commenceront toujours par 0.
9 On ritre ces oprations pour tous les sous groupes etc.
9 Lalgorithme prend fin lorsque les sous groupes ne contiennent quun lment. Tous les
symboles source ont alors un mot code.

15 7 6 6 5
n = n (i ) pi = 2 * + 2* + 2* + 3* + 3* = 2.282 bits
i 39 39 39 39 39

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 11


2. Codage de source

2.3 Codage dune source : Code de Huffman


9 Mthode ascendante pour la construction de larbre daffectation des codes (contrairement
au code de Shannon-Fao)
9 Classement des lettres source suivant lordre croissant dapparition.
9 Cration dun nud parent partir de deux lettres source de probabilit les plus faibles.
Affectation ce nud dune probabilit (somme de celles des enfants).
Elimination de la liste des deux lettres source remplac par le super symbole constitu
par le noeud parent.
9 On ritre ces oprations pour toutes les lettres source

n = n (i ) pi
i

5 6 6 7 15
= 3* + + + + 1*
39 39 39 39 39
= 2.23 bits

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 12


2. Codage de source

2.3 Codage dune source : Code Arithmtique


Affecter lensemble du message un seul nombre en virgule flottante.

Ex : Coder le message BILL GATES.


1) Estimer les probabilits des lettres sources (en les assimilant aux
frquences dapparition dans le message).

2) Attribution dun intervalle semi-ouvert dans [0,1] chaque symbole.


Le premier symbole coder dtermine lintervalle dans lequel se situe le nombre
reprsentant le message (ici, [0.2,0.3]).
Le second symbole restreint le premier intervalle ( partir de la borne infrieure)

Pour B : [0.2 , 0.3]


Pour BI : [0.2+0.1*0.5 , 0.2+0.1*0.6]=[0.25 , 0.26]
Pour BIL : [0.25+0.01*0.6 , 0.26+0.01*0.8]=[0.256 , 0.258]

3) Le message est cod par la borne infrieure du dernier intervalle.


Pour BILL GATES : [0.2572167752 , 0.2572167756]

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 13


2. Codage de source

2.3 Codage dune source : Code Arithmtique (suite)


Dcodage :
1) Dtermination du premier symbole : Correspond lintervalle contenant le nombre code.
0.2572167752 [0.2 , 0.3] B
2) Soustraction de la borne infrieure du premier symbole au nombre code puis division
par la longueur de lintervalle du premier symbole.
0.572167752
3) Ritration des oprations 1) et 2).

2.3 Codage dune source : Code Lempel-Ziv-Welch (LZW)


Utilis pour compresser des fichiers GIF en fichiers GZIP (Unix) ou ZIP (PC).
1) Lecture du texte caractre par caractre.
2) Vrification de lappartenance ou non de la chane construite un dictionnaire.
3) Emission dun signe et mise jour du dictionnaire.
Si la concatnation () de la chane prcdente (P) avec le dernier caractre lu (c) se trouve dans
le dictionnaire, alors la lecture continue avec le caractre suivant.
Sinon, ladresse de P est mise, P c est ajout au dictionnaire et c est utilis pour initialise la
chane P suivante.
Ex : sisixsciesscientsixcypresalorscessixcypresserontsciesparcessix scies

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 14


2. Codage de source

2.3 Codage dune source : Code de Lempel-Ziv-Welch (suite)

c=S, P=
while Pc dictionnaire, c=c+
mission adresse(P)
Pc ajout au dictionnaire
P=c, c=c+

Ex : sisixsciesscient


Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 15
2. Codage de source

2.3 Codage dune source : Comparaison des performances

Taux de compression :
taille du fichier compress
= 1 *100
taille du fichier original
Pour un fichier original de 100 caractres, un
taux de compression de 70% se traduit par un
fichier compress de 30 caractre.
Pour un mme code, le taux de compression
varie dun fichier un autre.

Huffman adaptatif (mise jours des statistiques


sur les symboles au fur et mesure de la lecture
du message et modification de larbre en
consquence). Applications pour les formats
JPEG et MPEG.

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 16


2. Codage de source

2.3 Codage dune source : Premier thorme de Shannon


Thorme de Shannon-Mc Millan :
Soient X une source discrte sans mmoire, dentropie HL(X).
Alors, >0, >0, N : nN, les mots source c (ou suites) de longueur n
rsultant de la concatnation de n lettres source peuvent tre diviss en deux
groupes :
- Le premier est constitu des suites c dont la probabilit P(c) vrifie :
1
H (X ) + log P ( c ) < o la base du logarithme est celle utilise pour
n
le calcul de H(x). On dit que ces suites sont atypiques.
- Le second groupe est form de toues les autres suites. La somme
cumule de leur probabilits ne dpasse pas . On dit que ces suites
sont atypiques.

Autrement dit, les mots source c de longueur n ont presque srement ( prs) un probabilit
n ( + H ( X ) )
P(c) vrifiant : a < P ( c ) < a n ( H ( X ) )

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 17


2. Codage de source

2.3 Codage dune source : Premier thorme de Shannon (suite)


Soient une source mettant des lettres issues dun alphabet de taille K, la nime extension de
la source (ensemble des mots source rsultat de la concatnation de n lettres source) et un
alphabet de rfrence comportant D lettres codes.
Un code bloc peut tre form en concatnant r lettres code de D. Afin de ne pas perdre
dinformation, il faut vrifier Dr Kn

Premier Thorme de Shannon :

Soit X une source discrte sans mmoire, dentropie H(X). Alors, il est possible de
trouver un code bloc pour encoder les mots source de longueur n avec un taux
r
R= (R reprsente le nombre de lettres code ncessaires pour reprsenter une
n
lettre source) tel que la probabilit de ne pouvoir associer avec certitude un mot
source un mot code soit aussi petite que lon veut.
H (X )
Pour cela, il suffit que n soit suffisamment grand et que R vrifie : R > o
log D
D reprsente la taille de lalphabet de rfrence pour la construction du code.

Il suffit donc dattribuer chaque suite typique un mot code diffrent et de faire correspondre
toute suite atypique le mme mot code. En recevant ce mot code appel mot code par dfaut, on
ne sera pas en mesure de retrouver le mot source sas risque derreur mais cette ventualit ne se
produira quavec une probabilit infrieure , nombre fix arbitrairement aussi petit que lon veut.
Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 18
3. Exercices

Exercice 1

Pour une certaine rgion, les prvisions dun mtorologiste M se distribuent suivant les frquences
relatives suivantes (les colonnes correspondent au temps effectif et les lignes aux prvisions) :

1. Un tudiant astucieux montre que M se trompe une fois sur quatre et quil peut faire mieux en
ne prvoyant que des jours sans pluie. Vrifier cette assertion. Il postule donc pour le poste de
M. Le directeur de M refuse cette offre. Commenter cette dcision laide dun raisonnement
faisant intervenir des notions de thorie de linformation.
2. Ltudiant revient quelques temps plus tard en garantissant les rsultats suivants :

Comment le directeur doit-il ragir cette nouvelle offre?


3. Le directeur souhaite stocker dans ses archives le temps T (pluie ou absence de pluie) et les
prvisions de M. Quelle est la taille minimale du fichier quil doit prvoir (en nombre de bits par
ralisation de T ou de M)? Raliser le codage de Huffman des couples (T,M).

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 19


3. Exercices

Exercice 2

Soit X une VA o n valeurs possibles x1, x2, , xn-1, xn de probabilits 2-1, 2-2, , 2-n+1, 2-n+1

1. Effectuer un codage de Huffman des n valeurs possibles de X.


2. Comparer la longueur moyenne des mots code et lentropie de la source (on se contentera
dexprimer ces grandeurs sous la forme dune somme finie de termes). Que constate-t-on? En
quoi ce rsultat est-il remarquable? Comment expliquer ce rsultat?

Exercice 3

On considre une source binaire sans mmoire U, de loi de probabilit P{U=0}=0.9. Les 0 tant
beaucoup plus frquents que les 1, on se propose de coder les squences issues de la source en
tenant compte du nombre de 0 et de 1 conscutifs. Lopration consiste en deux tapes:
- Premire tape : On compte le nombre de 0 entre de 1 successifs. On obtient ainsi un entier que
lon appelle entier intermdiaire.
- Deuxime tape : On code lentier intermdiaire en un mot binaire (constitu de quatre lments
binaires si lentier<7 et de un lment binaire si lentier est 8). Si lentier intermdiaire dpasse 8,
on codera une suite de 8 zros conscutifs par un bit correspondant lentier intermdiaire et cela,
autant de fois que ncessaire (voir exemple ci-aprs).
On obtient ainsi la table de correspondance entre les squences source et les entiers intermdiaires
suivante :

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 20


3. Exercices

Exercice 3 (suite)

Exemple concernant la premire tape dattribution des


entiers intermdiaires :
1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1
0 2 8 2 0 4

1. Les contraintes imposes permettent-elles de choisir un code uniquement dchiffrable?


2. Calculer le nombre moyen n1 de bits source par entier intermdiaire.
3. Calculer le nombre moyens n2 de bits encods par entier intermdiaire.
4. On considre une squence de bits source de longueur n (avec n trs grand). En appliquant la
loi faible des grands nombres, exprimer le rapport du nombre de bits utiliss pour coder cette
squence au nombre de bits source (n) en fonction de n1 et n2 . Calculer numriquement la
valeur de ce rapport.
5. Effectuer un codage de Huffman de lextension dordre 4 de la source U. Calculer
(numriquement) le nombre moyen de bits utiliss pour coder un lment binaire issu de la
source U. Comparer avec les rsultats du 4.

Laurent BOUILLAUT Thorie de lInformation Chapitre 2 Sources Discrtes 21

Вам также может понравиться