Вы находитесь на странице: 1из 23

Codage de linformation

1 CODAGE: LA THORIE DE L'INFORMATION


1.1 Quantifier linformation
Il faut se donner une unit lmentaire d'information. En informatique, le choix s'est port sur le bit (0 ou 1) qui permet de traduire deux tats physiques Bit signifie "binary digit", c'est--dire 0 ou 1 en numrotation binaire. C'est la plus petite unit d'information manipulable par une machine. On peut les reprsenter physiquement:

par une impulsion lectrique, qui, lorsqu'elle atteint une certaine valeur, correspond la valeur 1. par des trous dans une surface grce des bistables, c'est--dire des composants qui ont deux tats d'quilibre (un correspond l'tat 1, l'autre 0) 0 0 1 1 0 1 0 1

Avec un bit on peut avoir soit 1, soit 0.

Avec 2 bits on peut avoir quatre tats diffrents (2*2 = 22):

Avec 3 bits on peut avoir huit tats diffrents (2*2*2 = 23):

0 0 0 0 1 1 1 1

0 0 1 1 0 0 1 1

0 1 0 1 0 1 0 1

Avec huit bits on a 2*2*2*2*2*2*2*2= 28 = 256 possibilits

Cette notion peut tre tendue n bits, on a alors 2n possibilits. La fonction qui, un nombre n de dispositifs fait correspondre le nombre de combinaisons possibles est du type : f : n 2n Sa fonction rciproque g : k log2(k) permet donc de faire correspondre un nombre de combinaisons possibles k au nombre de bits ncessaires.
On peut calculer ainsi le nombre de bits ncessaires pour coder une information.

Pour coder un alphabet de 26 lettres et 6 signes de ponctuation il faut log2(32) dispositifs soit 5 bits. Le regroupement de chiffres par srie de 8, que l'on appelle un octet. permet une lisibilit plus grande, au mme titre que l'on apprcie, en base dcimale, de regrouper les chiffres par trois pour pouvoir distinguer les milliers. Par exemple le nombre 1 256 245 est plus lisible que 1256245. Il existe deux autres regroupements de bits utiliss pour les traitements internes de linformation : Une unit d'information compose de 16 bits est gnralement appele mot (en anglais word) Une unit d'information de 32 bits de longueur est appele double mot (en anglais double word, d'o l'appelation dword).

Quelques exemples de codages : Pour coder un point (pixel) d'une image qui est noir ou blanc il faut log2(2)=1 soit 1 bit Pour coder un point (pixel) d'une image comportant 4 couleurs II faut log2(4)=2 soit 2 bits Pour coder un point (pixel) d'une image comportant 256 nuances de gris II faut log2(256)=8 soit 8 bits, 1 octet Pour coder un point (pixel) d'une image comportant 256 couleurs II faut log2( 256)=8 soit 8 bits, 1 octet Pour coder un point (pixel) d'une image comportant 65536 couleurs II faut log2( 65536)= 16 soit 16 bits donc 2 octets ou 1 word remarque Un fichier image comportant 65636 couleurs sera le double en taille d'un fichier comportant 256 couleurs et non 256 fois plus grand (65536 =2562)

1.2 Les units de mesure de l'information


1 bit unit lmentaire (reprsent par 0 ou 1) un octet (ou byte) = 8 bits un mot (ou word) = 16 bits un mot double (ou dword) = 32 bits Un kilo-octet (Ko) ne vaut pas 1000 octets mais 210 = 1024 octets Un mga-octet (Mo) vaut 1024 Ko = 1 048 576 octets Un giga-octet (Go) vaut 1024 Mo = 1 073 741 824 octets Un tera-octet (To) vaut 1024 Go = 1 099 511 627 776 octets

2 LES DIFFRENTES FORMES D'INFORMATION


Deux types d'informations sont traites par l'ordinateur : les instructions et les donnes. Elles sont toujours reprsentes sous forme binaire.

2.1 Le texte
Les donnes textes correspondent aux caractres alphanumriques. Le codage est ralis au moyen d'une table. II existe plusieurs codage Le plus utilis est le code ASCII tendu , codage sur 8 bits (un octet) pour pouvoir coder plus de caractres Ce code attribue les valeurs 0 255 aux lettres majuscules et minuscules, aux chiffres, aux marques de ponctuation et aux autres symboles (caractres accentus dans le cas du code isolatin1).

Les codes 0 31 ne sont pas des caractres. On les appelle caractres de contrle car ils permettent de faire des actions telles que:
o o

retour la ligne (CR) Bip sonore (BEL)

Les codes 65 90 reprsentent les lettres majuscules

Les codes 97 122 reprsentent les lettres minuscules (il suffit de modifier le 5me bit pour passer de majuscules minuscules, c'est--dire ajouter 32 au code ASCII en base dcimale)

2.2 Les nombres


Les donnes numriques sont de diffrents types Les nombres entiers naturels Les nombres entiers relatifs Les nombres fractionnaires Les nombre en notation scientifique. Le codage ne s'effectue pas par des tables mais par des algorithmes associs au type de la donne On appelle reprsentation (ou codification) d'un nombre la faon selon laquelle il est dcrit sous forme binaire. La reprsentation des nombres sur un ordinateur est indispensable pour que celui-ci puisse les stocker, les manipuler. Toutefois le problme est qu'un nombre mathmatique peut tre infini (aussi grand que l'on veut), mais la reprsentation d'un nombre dans un ordinateur doit tre fait sur un nombre de bits prdfini. Il s'agit donc de prdfinir un nombre de bits et la manire de les utiliser pour que ceux-ci servent le plus efficacement possible reprsenter l'entit. Ainsi il serait idiot de coder un caractre sur 16 bits (65536 possibilits) alors qu'on en utilise gnralement moins de 256...

2.2.1 Les nombres entiers naturels


Le choix faire (c'est--dire le nombre de bits utiliser) dpend de la fourchette des nombres que l'on dsire utiliser. Pour coder des nombres entiers naturels compris entre 0 et 255, il nous suffira de 8 bits (un octet) car 28=256. D'une manire gnrale un codage sur n bits pourra permettre de reprsenter des nombres entiers naturels compris entre 0 et 2n-1. Pour reprsenter un nombre entier naturel aprs avoir dfini le nombre de bits sur lequel on le code, il suffit de ranger chaque bit dans la cellule binaire correspondant son poids binaire de la droite vers la gauche, puis on "remplit" les bits non utiliss par des zros. Exemple : le nombre 65 scrit en binaire 1000001 et sera cod par loctet 01000001

On est limit par les capacits de traitement de la machine. Dans le cas o l'ordinateur travaille avec des registres de 16 bits (blocs de mmoire que l'ordinateur peut adresser.) On ne peut pas dpasser la valeur de 216 soit 65535 (plus grand nombre que l'on puisse coder). Si on essaie une opration dont le rsultat est suprieur on a un dpassement de capacit (Overflow).

2.2.2 Les nombres entiers relatifs


Un entier relatif est un entier pouvant tre positif ou ngatif. Il faut donc coder le nombre de telle faon que l'on puisse savoir s'il s'agit d'un nombre positif ou d'un nombre ngatif, et il faut de plus que les rgles d'addition soient conserves. L'astuce consiste utiliser un codage que l'on appelle complment deux.

un entier relatif positif ou nul sera reprsent en binaire (base 2) comme un entier naturel, la seule diffrence que le bit de poids fort (le bit situ l'extrme gauche) reprsente le signe. Il faut donc s'assurer pour un entier positif ou nul qu'il est zro (0 correspond un signe positif, 1 un signe ngatif).

D'une manire gnrale le plus grand entier relatif positif cod sur n bits sera 2n-1-1 donc cod sur un octet ce sera 27-1=128-1=127 Exemple : le nombre +65 sera cod par loctet 01000001 donc identique lentier naturel 65.

un entier relatif ngatif sera reprsent grce au codage en complment deux. Principe du complment deux: soit reprsenter un nombre ngatif. (-65)
o o o

Prenons son oppos (son quivalent en positif) donc 65 On le reprsente en base 2 sur n-1 bits soit 01000001 On complmente chaque bit (on inverse, c'est--dire que l'on remplace les zros par des 1 et vice-versa) ce qui donne 10111110 On ajoute 1 ce qui donne 10111111 (remarquer le bit du signe 1 donc -)

On remarquera aussi qu'en ajoutant le nombre et son complment deux on obtient 0... 01000001 10111111 00000000 (avec une retenue de 1...)

2.2.3 Le son
Le son est une vibration de l'air, c'est--dire une suite de surpression et de dpressions de l'air par rapport une moyenne, qui est la pression atmosphrique. D'ailleurs pour s'en convaincre, il suffit de placer un objet bruyant (un rveil par exemple) dans une cloche vide pour s'apercevoir que l'objet initialement bruyant n'met plus un seul son ds qu'il n'est plus entour d'air! La faon la plus simple de reproduire un son actuellement est de faire vibrer un objet. De cette faon un violon met un son lorsque l'archet fait vibrer ses cordes, un piano met une note lorsque l'on frappe un touche, car un marteau vient frapper une corde et la faire vibrer. Pour reproduire des sons, on utilise actuellement des haut-parleurs. Il s'agit en fait d'une membrane relie un lectro-aimant, qui, suivant les sollicitations d'un courant lectrique va aller en avant et en arrire trs rapidement, ce qui provoque une vibration de l'air situ devant lui, c'est--dire du son!

de cette faon on produit des ondes sonores qui peuvent tre reprsentes sur un graphique comme les variations de la pression de l'air (ou bien de l'lectricit dans l'lectro-aimant) en fonction du temps. On obtient alors une reprsentation de la forme suivante:

Cette reprsentation d'un son est appele audiogramme. On peut remarquer qu'un audiogramme prsente une frquence fondamentale, laquelle se superposent des frquences plus leves, appeles harmoniques.

C'est ce qui permet d'arriver distinguer plusieurs sources sonores: les frquences graves auront des frquences basses, et les sons aigus des frquences leves Echantillonnage du son Pour pouvoir reprsenter un son sur un ordinateur, il faut arriver le convertir en valeurs numriques, car celui-ci ne sait travailler que sur ce type de valeurs. Il s'agit donc de relever des petits chantillons de son (ce qui revient relever des valeurs de pression) des intervalles de temps prcis. On appelle cette action l'chantillonnage ou numrisation du son. L'intervalle de temps entre deux chantillon est appel taux d'chantillonnage. Etant donn que pour arriver restituer un son qui semble continu l'oreille il faut des chantillons tous les quelques 100 000me de seconde, il

est plus pratique de raisonner sur le nombre d'chantillons par seconde, exprims en Hertz (Hz). Voici quelques exemples de taux d'chantillonnage et de qualits de son associes: Taux d'chantillonage Qualit du son 44000 Hz qualit CD 22000 Hz qualit radio 8000 Hz qualit tlphone

La valeur du taux d'chantillonnage, pour un CD audio par exemple, n'est pas arbitraire, elle dcoule en ralit du thorme de Shannon, qui stipule que pour numriser fidlement une valeur ayant une frquence donne, il faut numriser au double de cette frquence. Or l'oreille humaine n'arrive pas distinguer des sons dont la frquence dpasse 22 000 Hz, ainsi il faut numriser 44 Khz! Reprsentation informatique du son A chaque chantillon (correspondant un intervalle de temps) est associ une valeur qui dtermine la valeur de la pression de l'air ce moment, le son n'est donc plus reprsent comme une courbe continue prsentant des variations mais comme une suite de valeurs pour chaque intervalle de temps:

L'ordinateur travaille avec des bits, il faut donc dterminer le nombre de valeurs que l'chantillons peut prendre, cela revient fixer le nombre de bits sur lequel on code les valeurs des chantillons.

Avec un codage sur 8 bits, on a 28 possibilits de valeurs, c'est--dire 256 valeurs possibles Avec un codage sur 16 bits, on a 216 possibilits de valeurs, c'est--dire 65536 valeurs possibles

Avec la seconde reprsentation, on aura bien videmment une qualit de son bien meilleure, mais aussi un besoin en mmoire beaucoup plus important. Enfin, la strophonie ncessite deux canaux sur lesquels on enregistre individuellement un son qui sera fourni au haut-parleur de gauche, ainsi qu'un son qui ser diffus sur celui de droite. Un son est donc reprsent (informatiquement) de plusieurs paramtres:

la frquence d'chantillonnage le nombre de bits d'un chantillon le nombre de voies (un seul correspond du mono, deux de la stro, et quatre de la quadriphonie)

Mmoire requise pour stocker un son Il est simple de calculer la taille d'une squence sonore non compresse. En effet, en connaissant le nombre de bits sur lequel est cod un chantillon, on connat la taille de celui-ci (la taille d'un chantillon est le nombre de bits...). Pour connatre la taille d'une voie, il suffit de connatre le taux d'chantillonnage, qui va nous permettre de savoir le nombre d'chantillons par seconde, donc la taille qu'occupe une seconde de musique. Celle-ci vaut: Taux d'chantillonnage x Nombre de bits Ainsi, pour savoir l'espace mmoire que consomme un extrait sonore de plusieurs secondes, il suffit de multiplier la valeur prcdente par le nombre de seconde: Taux d'chantillonnage x Nombre de bits x nombre de secondes Enfin, la taille finale de l'extrait est multiplier par le nombre de voies (elle sera alors deux fois plus importante en stro qu'en mono...). La taille en bits d'un extrait sonore est ainsi: Taux d'chantillonnage x Nombre de bits x nombre de secondes x nombre de voies

En conclusion : Deux facteurs sont importants La rsolution (nombre de bits pour le codage) La frquence de l'chantillonnage (nombre de mesures par seconde) Plus la rsolution est leve, plus on distingue des niveaux diffrents Plus la frquence d'chantillonnage est grande plus on est proche du signal
analogique.

Un CD audio est cod sur 16 bits et 44,1 kHz, c'est dire 44 100 chantillons par seconde. L'enregistrement stro ncessite de coder deux canaux (deux signaux) 1 minute de musique = 44100*60*2 (2 octets)*2(2 canaux) 10 M bytes Calcul de la bande passante = 44100 *16 (2 bytes) *2 (2 canaux) = 1,38 Mbits r (pour une transmission sans perte) FM frquence 32 kHz Lecteurs DAT 48 kHz

2.2.4 Les images :

2.2.4.1 Le fonctionnement de l'oeil humain


Grce la corne (l'enveloppe translucide de l'oeil) et de l'iris (qui en se fermant permet de doser la quantit de lumire), une image se forme sur la rtine. Celle-ci est compose de petits btonnets et de cnes. Les btonnets permettent de percevoir la luminosit et le mouvement, tandis que les cnes permettent de diffrencier les couleurs. Il existe en ralit trois sortes de cnes:

une sorte pour le rouge une sorte pour le vert une sorte pour le bleu

Ainsi, lorsqu'un type de cne fait dfaut, la perception des couleurs est imparfaite, on parle alors de daltonisme.

2.2.4.2 Synthese additive et soustractive

Il existe deux types de synthse de couleur:

La synthse soustractive est le fruit de l'ajout de composantes de la lumire. Les composantes de la lumire sont directement ajoute l'mission, c'est le cas pour les moniteurs ou les tlvisions en couleur. Lorsque l'on ajoute les trois composantes, on obtient du blanc.

La synthse additive rsulte de l'ajout de trois matires de couleurs diffrentes. Les composantes de la lumire sont donc ajoutes aprs rflection sur un objet, c'est le cas pour l'imprimerie. Les trois couleurs primaires sont alors le cyan, le magenta et le jaune, et leur ajout donne du noir. Toutefois, le noir obtenu n'tant que partiellement noir en pratique, les imprimeurs rajoutent une composante que l'on appelle noir pur. On parle alors de quadrichromie, ou CMYK (Cyan, Magenta, Jaune, Noir pur).

2.2.4.3 Les images fixes


II existe deux types d'images numriques, les images vectorielles et les images bipmap ou rasters

Image vectorielle
Une image vectorielle est constitue de vecteurs. Un vecteur peut tre une droite, un point, une courbe ou une fonction. Ce type ne correspond pas la reprsentation d'images photographiques. Mais il est bien adapt au dessin technique pour la cration de formes gomtriques.

Images bipmap ou raster


Chaque pixel ou point de l'image est cod : l'image est une matrice de points Pixel est la contraction de picture element Le codage de la couleur Une image est donc reprsente par un tableau deux dimensions dont chaque case est un pixel. Pour reprsenter informatiquement une image, il suffit donc de crer un tableau deux dimensions dont chaque case contient une valeur. La valeur stocke dans une case est code sur un certain nombre de bits, le nombre de bits dterminant la couleur ou l'intensit du pixel. Il existe plusieurs codages possibles:

bitmap noir et blanc: en stockant un bit dans chaque case, il est possible de dfinir deux couleurs (noir ou blanc) bitmap 256 niveaux de gris: en stockant un octet dans chaque case, il est possible de dfinir 28 intensits de pixels, c'est--dire 256 dgrads de gris allant du noir au blanc palette de couleurs (colormap): grce cette mthode, on peut dfinir une palette contenant l'ensemble des couleurs pouvant tre contenues dans l'image. A chacune des ces couleurs est associe un indice. Ainsi en codant ces indices sur 8 bits il est possible de dfinir 256 couleurs utilisables, c'est--dire que chaque case du tableau deux dimensions reprsentant l'image va contenir un nombre indiquant l'indice de la couleur utiliser true color: cette reprsentation permet de reprsenter une image en dfinissant chacune des composantes (RGB: rouge, vert, bleu). Chaque pixel est reprsent par un entier comportant les trois composantes, chacune code sur un octet, c'est--dire au total 24 bits (soit 224 = 16 millions de couleurs environ). Il est possible de rajouter une quatrime composante permettant d'ajouter une information de transparence ou de texture, chaque pixel est alors code sur 32 bits.

Le produit du nombre lignes et de colonnes s'appelle la rsolution spatiale Le nombre de couleur ou d'intensit s'appelle la dynamique La qualit de l'image dpend en grande partie de la rsolution.

Si on agrandit l'image , on a un effet de pixlisation ou d'escaliers La taille de l'image est calcule nbre de lignes x nbre de colonnes x nbre de couleur ou d'intensits Taille d'une image : On scanne une photo de 10 cm sur 15 cm En 300 dpi (standard de beaucoup d'imprimantes) Dpi dot per inch ou ppp point par pouce (2,54 cm)
Nombre points

En largeur 10 cm soit 10 / 2,54 * 300 =1181 points En hauteur 15 cm soit 15 / 2,54 * 300 = 1772 points Soit un total de 1181 *1772 = 2 092 732 points Si on code sur un byte ou octet on a un fichier de 2 Mo Exercice on scanne en 600 Dpi soit rsolution double taille du fichier sans calcul environ 8 Mo (x4) Exercice on scanne en 1200 Dpi 4725 * 7087 = 32 Mo (Soit fois 16 logique puisque le nombre de point est x 16)
Dimensions de l'image 320x200 640x480 800x600 1024*768 Image en noir et blanc 7.8Ko 37.5Ko 58.6Ko 96Ko Image en 256 niveaux de gris 62.5Ko 300Ko 468.7Ko 768Ko Image en true color 187.5 Ko 900Ko 1.4Mo 2.3Mo

2.2.5 Les images mobiles


Nous n'allons pas entrer dans le dtail Comme pour le cinma il faut au minimum 25 image secondes pou ne pas avoir de saccades. Exemple de la tlvision 4/3 on a : 625 lignes 833 colonnes (625*833) Avec une dynamique de 8 bits (256 couleurs) Avec 50 images par seconde un film de 1h30 heures sans le son ncessite 625x833x1x50x5400=140 568 750 000 octets soit 137 274 170Ko = 134 057Mo = 131Go ce qui pose des problmes de bande passante et de stockage II faut donc compresser les images avec des algorithmes II existe plusieurs normes MPEG1 4 par exemple.

3 LA COMPRESSION DE DONNEES
3.1 Gnralits
Quelques dfinitions : Compresser est l'action de rduire la taille d'un fichier en modifiant le codage de l'information. Aprs la compression le fichier n'est donc plus lisible par le logiciel qui a servi le crer et il change d'extension. Avant de pouvoir le rutiliser il faut le dcompresser c'est--dire lui faire reprendre sa taille et son codage d'origine de faon reconstruire l'information initiale. Un Codec, abrviation de compresseur/dcompresseur, est un lment logiciel ou matriel permettant de compresser et de dcompresser des donnes multimdias numriques. Le besoin de compression apparat l ou la taille du fichier a un caractre critique. Par exemple : Lors de l'envoi de courrier lectronique, les fournisseurs d'accs limitent la taille des fichiers attachs pour viter d'encombrer les boites aux lettres. La compression permettra de rduire la taille de vos fichiers et donc de pouvoir les envoyer. La cration d'image numrique est trs coteuse en mmoire car pour avoir une image de bonne qualit il faut qu'elle ait une dfinition importante et une palette de couleur assez grande. Le problme est identique pour les fichiers vidos ou sonores. Donc la plupart des formats d'enregistrement des fichiers numriques multimdia sont des formats utilisant la compression. Lors de la sauvegarde sur un support externe, il est trs utile de pourvoir rduire la taille totale des donnes sauvegarder afin de gagner en place et temps de sauvegarde. Une archive est un fichier souvent compress qui comporte plusieurs autres fichiers et/ou rpertoires. Archiver signifie que l'on regroupe dans un seul fichier un ensemble de fichiers et/ou de rpertoires. Lorsque vous ajoutez un rpertoire une archive les fichiers et les sous-rpertoires qu'il contient sont galement ajouts. L'objectif de la compression est de diminuer le nombre de bits utiliss pour le stockage, la transmission de l'information. II existe une grande varit d'algorithmes. Dfinition d'un algorithme: mthode de rsolution d'un problme suivant un enchanement dtermin de rgles opratoires Nous pouvons dterminer deux grands types et c'est peut-tre le critre de comparaison le plus important pour les algorithmes de compression: o Les algorithmes sans perte d'information (rversibles), cela signifie que lorsque des donnes sont compresses et ensuite dcompresses, l'information originale contenue dans les donnes a t prserve. Aucune donne n'a t perdue ou oublie. Les donnes n'ont pas t modifies. Exemple: GIF (Graphic Interchange Format) o Les algorithmes avec perte d'information (irrversibles). Cette mthode de compression "jette", de faon slective, quelques donnes d'une image dans le but d'effectuer la compression avec un taux de compression meilleur que la plupart des mthodes de compression sans pertes. L'il humain est limit dans le nombre de couleurs qu'il est capable de percevoir simultanment particulirement si ces couleurs ne sont pas adjacentes dans l'image ou sont trs contrastes. Un algorithme de compression intelligent peut tenir compte de ces limitations, analyser une image sur ces bases, et effectuer une rduction significative de la taille des donnes base sur la suppression de l'information de certaines couleurs difficilement perceptibles par la plupart des gens.

Exemple : .JPEG .JPG (Joint Photography Expert Group)

Lorsque vous crez ces fichiers, il est conseill de faire attention ne pas trop compresser le fichier, sous peine de dtriorer l'image.

3.2 Exemple dun algorithme de compression : RLE


Run Length Encoding (RLE) : C'est un algorithme de compression cr pour compresser n'importe quel type de donnes sans tenir compte de l'information qu'elle contient. Il est extrmement rpandu, utilis par des formats bitmaps tels que BMP, TIFF et PCX. RLE s'emploie rduire la taille physique d'une rptition de chane de caractre. Cette chane rpte est appele un passage (run) et est typiquement code avec 2 octets. Le premier octet reprsente le nombre de caractres dans le passage et est appel le compteur de passage (run count). Il peut prendre une valeur comprise entre 0 et 127. , car le compteur de passage va utiliser seulement 7 bits, le huitime bit ainsi libr va servir dterminer si oui ou non les donnes on t compresses. Le second octet est la valeur du caractre dans le passage qui peut prendre la valeur 0h FFh. Ce dernier octet est appel la valeur du passage (run value). Non compress, un passage comprenant 15 caractres "A" devrait normalement prendre 15 octets stocker. AAAAAAAAAAAAAAA La mme chane aprs codage ne prend plus que 2 octets. 15A Le "15A" gnr pour reprsenter la chane de caractre est appel un paquet RLE (RLE packet). Ici, le compteur de passage contient le nombre de rptitions soit 15. Le deuxime octet "A", la valeur du passage, contient la valeur rpte dans le passage. Un nouveau paquet est gnr chaque fois que le caractre change ou chaque fois que le nombre de caractres dans le passage excde la valeur maximum que peut prendre le compteur. Si l'on suppose que notre chane de 15 caractres contient maintenant 4 passages diffrents : AAAAAAbbbXXXXXt En utilisant le codage RLE, cette chane pourra tre compresse en 4 paquets de 2 octets. 6A3b5X1t Ainsi, aprs le codage, la chane de 15 octets de dpart prendra seulement 8 octets de donnes pour reprsenter la chane. Dans ce cas, RLE permet d'atteindre un taux de compression de 2:1.

3.3 Taux de compression


Le terme taux de compression (compression ratio) est utilis pour se rfrer aux rapport entre la taille des donnes non compresses sur taille des donnes compresses. Si on peut compresser un fichier 10 x , on parlera alors d'un taux de 10:1 ce qui signifie trs logiquement que sa taille a t divise par 10. Ce sera galement un critre d'efficacit entre diffrents algorithmes: Un algorithme ayant un taux de 10:1 sera 5 fois plus efficace qu'un algorithme n'ayant qu'un taux de compression de 2:1. Le taux de compression (rapport entre la taille originale et la taille compresse) est relativement variable et est fonction du type d'information. Une compression avec perte peut atteindre 10 :1 et mme 100 :1 mais il est plus frquent d'obtenir des taux de 2 :1 ou 3 :1 sans perte ce qui n'est pas ngligeable.

3.4 Les formats d'images


A chaque format d'image correspond un codage spcifique de l'information et ventuellement un algorithme de compression.

3.4.1 BMP
Le format BMP est un format sans compression dvelopp conjointement par Microsoft et IBM, ce qui explique qu'il soit particulirement rpandu sur les plates-formes Windows et OS/2. Un fichier BMP est un fichier bitmap, c'est--dire un fichier d'image graphique stockant les pixels sous forme de tableau de points et grant les couleurs soit en couleur vraie soit par une palette indexe de couleurs.

3.4.2 GIF (Graphic Interchange Format)


Une image GIF peut contenir de 2 256 couleurs (2, 4, 8, 16, 32, 64, 128 ou 256) parmi 16.8 millions dans sa palette. Ainsi grce cette palette limite en nombre de couleurs (et non limite en couleurs diffrentes), les images obtenues par ce format ont une taille gnralement trs faible. Ce format supporte la compression LZW. Le format Gif 87a offre une fonction d'entrelacement permettant d'afficher l'image progressivement et la possibilit d'enregistrer des images animes (GIF anims) et le format Gif 89 ajoute la possibilit de dfinir une couleur transparente trs utile lors de la superposition d'images.

3.4.3 JPEG
Dvelopp par le Joint Picture Expert Group au cours des annes 1980, le format JPEG ou JPG reste aujourd'hui un standard. Bien qu'avec perte, ce format peut grer un taux de compression afin de dfinir la qualit de l'image compresse. Il n'impose aucune limitation dans le nombre de couleurs de l'image, ce qui en fait le format de prdilection pour compresser les photos ou les images de 32 bits (16 millions du couleurs). Le processus de compression est trs complexe et s'effectue en plusieurs passes. Il est bas sur la transforme en cosinus discrte (DCT), une formule mathmatique drive de la transforme de Fourrier, applique des blocs de pixels. Les paramtres de cette fonction mathmatique font office de taux de compression et permettent d'obtenir des rapports allant de 20:1 25:1.

3.4.4 PNG (Portable Network Graphics)


Le format PNG est un format de fichier graphique bitmap. Il a t mis au point en 1995 afin de fournir une alternative libre au format GIF, format propritaire dont les droits sont dtenus par la socit Unisys, propritaire de l'algorithme de compression LZW. Le format PNG permet de stocker des images en noir et blanc, en couleurs relles ainsi que des images indexes faisant usage d'une palette de 256 couleurs. . De plus, il supporte la transparence par couche alpha, c'est--dire la possibilit de dfinir 256 niveaux de transparence, tandis que le format GIF ne permet de dfinir qu'une seule couleur de la palette comme transparente. Il possde galement une fonction d'entrelacement permettant d'afficher l'image progressivement. La compression propose par ce format est une compression sans perte meilleure que la compression GIF

3.4.5 TIF (Tagged Image File Format)


Le format TIF ou TIFF est un format de fichier graphique bitmap mis au point en 1987. Le format TIFF est un ancien format graphique, permettant de stocker des images bitmap de taille importante (plus de 4 Go compresses), sans perte de qualit et indpendamment des plates-formes ou des priphriques utiliss.

3.5 Les formats audios


3.5.1 WAV
Le format WAV est l'quivalent audio du format Bitmap. galement dvelopp par IBM, il reprend le principe de la compression minimale. Pour simplifier, on peut dire que le WAV encode directement le son numris, sans aucune forme de compression, ce qui tend produire des fichiers de taille consquente. Pour cette raison, les fichiers WAV sont uniquement destins aux sons trs courts (tels que les jingles de Windows par exemple). Pour les fichiers musicaux plus long, on lui prfre indniablement le format MP3.

3.5.2 MP3
Le MP3 " MPEG Audio layer 3 " est un format de compression de donnes audio par filtrage des donnes audio. Le but du filtrage est d'enlever les bandes de frquences pauvres en informations auditives. Ce format permet de compresser un taux de 1:12 les formats audio habituels (WAV ou CD audio). Il permet de faire tenir l'quivalent en fichiers de douze albums de musique sur un seul cd-rom. De plus, le format MP3 n'altre que faiblement le son pour l'oreille humaine.

3.5.3 OGG
Le format OGG (Ogg Vorbis) est une alternative au format MP3 qui est cense produire des fichiers de bien meilleure qualit pour une taille toutefois lgrement suprieure. Rclam par les audiophiles qui jugent la compression MP3 trop drastique, il est dvelopp en tant que logiciel libre, l'inverse des formats MP3, AAC et WMA.

3.5.4 AAC
Le format AAC, dvelopp par le Moving Picture Expert Group, a pour but de remplacer le MP3, prvu originellement pour accompagner les vidos MPEG-1. Celui-ci gre le son des fichiers MPEG4 et doit offrir une qualit bien meilleure que le MP3 et grer plus de canaux.

3.6 Les formats videos:


3.6.1 AVI (Audio Video Interleaved)
Format de fichier utilis par Windows pour le stockage des images vidos et du son, dans lequel les donnes vidos alternent avec les donnes audios, acclrant ainsi la vitesse de restitution. Dans ce format, on dit que l'image et le son sont entrelacs.

3.6.2 MPG, MPEG2, MPEG4


Format multimdia obtenu par la compression MPEG ou MPG de squences audios et vidos. Le format MPEG-1 est d'une qualit quivalente au VHS des magntoscopes. Sur le Web, il permet une meilleure reprsentation numrique des squences audios et vidos que les autres formats disponibles (AVI, Indeo, QuickTime, etc.). Le format MPEG-2, quant lui, est utilis pour le stockage de la vido et de l'audio sur DVD et la diffusion par les rseaux de tlvision. Le MPEG-4 par ses possibilits de compresser trs efficacement la vido est parfois vu comme le " MP3 de la Vido ". Cela explique la confusion de ceux qui utilisent parfois le terme impropre MP4

au lieu de MPEG-4. Il intgre les formats 2D et 3D, et permet une diffusion en streaming pour le bas et le haut dbit. Le streaming est une technique permettant le tlchargement et l'coute simultane d'un fichier audio et/ou vido.

3.6.3 DIVX
Le format DivX est un format de compression/dcompression vido permettant d'obtenir des vidos compresses trs peu volumineuses avec une perte de qualit trs raisonnable. Ainsi le format DivX permet de stocker un film complet sur un CD-ROM de 650 ou 700 Mo. Les formats XVID, VP3, 3IVX sont des formats drivs du DIVX.

4 La cryptographie
4.1 Gnralits
Le mot cryptographie est un terme gnrique dsignant l'ensemble des techniques permettant de chiffrer des messages, c'est--dire permettant de les rendre inintelligibles sans une action spcifique. Le verbe crypter est parfois utilis mais on lui prfrera le verbe chiffrer. La cryptologie est essentiellement base sur l'arithmtique: Il s'agit dans le cas d'un texte de transformer les lettres qui composent le message en une succession de chiffres (sous forme de bits dans le cas de l'informatique car le fonctionnement des ordinateurs est bas sur le binaire), puis ensuite de faire des calculs sur ces chiffres pour:

d'une part les modifier de telle faon les rendre incomprhensibles. Le rsultat de cette modification (le message chiffr) est appel cryptogramme (en anglais ciphertext) par opposition au message initial, appel message en clair (en anglais plaintext) faire en sorte que le destinataire saura les dchiffrer

Le fait de coder un message de telle faon le rendre secret s'appelle chiffrement. La mthode inverse, consistant retrouver le message original, est appel dchiffrement.

Le chiffrement se fait gnralement l'aide d'une clef de chiffrement, le dchiffrement ncessite quant lui une clef de dchiffrement

On appelle dcryptement (le terme de dcryptage peut ventuellement tre utilis galement) le fait d'essayer de dchiffrer illgitimement le message (que la cl de dchiffrement soit connue ou non de l'attaquant). Lorsque la cl de dchiffrement n'est pas connue de l'attaquant on parle alors de cryptanalyse ou cryptoanalyse (on entend souvent aussi le terme plus familier de cassage). La cryptologie est la science qui tudie les aspects scientifiques de ces techniques, c'est--dire qu'elle englobe la cryptographie et la cryptanalyse.

4.2 Les deux types de chiffrement :


Le chiffrement symtrique (aussi appel chiffrement cl prive ou chiffrement cl secrte) consiste utiliser la mme clef pour le chiffrement que pour le dchiffrement.

Le chiffrement consiste alors effectuer une opration entre la cl prive et les donnes chiffrer afin de rendre ces dernires inintelligibles. Ainsi, le moindre algorithme (tel qu'un OU exclusif) peut rendre le systme quasiment inviolable (la scurit absolue n'existant pas). Toutefois, dans les annes 40, Claude Shannon dmontra que pour tre totalement sr, les systmes clefs prives doivent utiliser des clefs d'une longueur au moins gale celle du message chiffrer. De plus le chiffrement symtrique impose d'avoir un canal scuris pour l'change de la cl, ce qui dgrade srieusement l'intrt d'un tel systme de chiffrement. Ainsi, dans les annes 20, Gilbert Vernam et Joseph Mauborgne mirent au point la mthode du one time pad (traduisez mthode du masque jetable), base sur une cl prive gnre alatoirement, utilise une et une seule fois, puis dtruite. Ainsi la mme poque le Kremlin et la Maison Blanche taient relis par le fameux tlphone rouge, c'est--dire un tlphone dont les communications taient cryptes par une cl prive selon la mthode du masque jetable. La cl prive tait alors change grce la valise diplomatique (jouant le rle de canal scuris). Les limites du chiffrement symtrique Le principal inconvnient d'un cryptosystme clefs secrtes provient de l'change des cls. En effet, le chiffrement symtrique repose sur l'change d'un secret (les cls). Ainsi, se pose le problme de la distribution des cls : Pour un groupe de n personnes utilisant un cryptosystme cls secrtes, il est ncessaire de distribuer n x (n-1) / 2 cls. Dans un chiffrement asymtrique les cls existent par paires :

Une cl publique pour le chiffrement Une cl secrte pour le dchiffrement

Ainsi, dans un systme de chiffrement cl publique, les utilisateurs choisissent une cl alatoire dont ils sont seuls connaisseurs (il s'agit de la cl prive). A partir de cette cl, ils dduisent chacun automatiquement un algorithme (il s'agit de la cl publique). Les utilisateurs s'changent cette cl publique au travers d'un canal non scuris. Lorsqu'un utilisateur dsire envoyer un message un autre utilisateur, il lui suffit de chiffrer le message envoyer au moyen de la cl publique du destinataire (qu'il trouvera par exemple dans un serveur de cls tel qu'un annuaire). Ce dernier sera en mesure de dchiffrer le message l'aide de sa cl prive (qu'il est seul connatre).

Ce systme est bas sur une fonction facile calculer dans un sens (appele fonction trappe sens unique ou en anglais one-way trapdoor function), mais qui est mathmatiquement trs difficile inverser sans la cl prive (appele trappe). Pour faire une image avec le "monde rel", il s'agit pour un utilisateur de crer une cl alatoire (la cl prive), puis de fabriquer un grand nombre de cadenas (cl publique) qu'il dispose dans un casier accessible par tous (le casier joue le rle de canal non scuris). Pour lui faire parvenir un document, chaque utilisateur peut prendre un cadenas (ouvert), fermer une valisette contenant le document grce ce cadenas, puis envoyer la valisette au propritaire de la cl publique (le cadenas). Seul le propritaire sera alors en mesure d'ouvrir la valisette avec sa cl prive. Le problme consistant se communiquer la cl de dchiffrement n'existe plus, les cls publiques pouvant tre envoyes librement. Le chiffrement par cls publiques permet donc des personnes de s'changer des messages crypts sans pour autant possder de secret en commun. En contrepartie tout le challenge consiste (s')assurer que la cl publique que l'on rcupre est bien celle de la personne qui l'on souhaite faire parvenir l'information chiffre !

4.3 Les fonctions de la cryptographie


La cryptographie est traditionnellement utilise pour dissimuler des messages aux yeux de certains utilisateurs. Cette utilisation a aujourd'hui un intrt d'autant plus grand que les communications via Internet circulent dans des infrastructures dont on ne peut garantir la fiabilit et la confidentialit. Dsormais, la cryptographie sert non seulement prserver la confidentialit des donnes mais aussi garantir leur intgrit et leur authenticit. La confidentialit consiste rendre l'information inintelligible d'autres personnes que les acteurs de la transaction. Vrifier l'intgrit des donnes consiste dterminer si les donnes n'ont pas t altres durant la communication (de manire fortuite ou intentionnelle). L'authentification consiste assurer l'identit d'un utilisateur, c'est--dire de garantir chacun des correspondants que son partenaire est bien celui qu'il croit tre. Un contrle d'accs peut permettre (par exemple par le moyen d'un mot de passe qui devra tre crypt) l'accs des ressources uniquement aux personnes autorises. La non-rpudiation de l'information est la garantie qu'aucun des correspondants ne pourra nier la transaction.

4.4 La signature lectronique


4.4.1 Dfinition
La signature lectronique (appel aussi signature numrique) est un procd permettant de garantir l'authenticit de l'expditeur (fonction d'authentification), ainsi que de vrifier l'intgrit du message reu. La signature lectronique assure galement une fonction de non-rpudiation, c'est--dire qu'elle permet d'assurer que l'expditeur a bien envoy le message (autrement dit elle empche l'expditeur de nier avoir expdi le message).

4.4.2 Fonction de hachage


Une fonction de hachage (parfois appele fonction de condensation) est une fonction permettant d'obtenir un condens (appel aussi hach) d'un texte, c'est--dire une suite de caractres assez courte

reprsentant le texte qu'il condense. La fonction de hachage doit tre telle qu'elle associe un et un seul hach un texte en clair (cela signifie que la moindre modification du document entrane la modification de son hach). D'autre part, il doit s'agir d'une fonction sens unique (one-way function) afin qu'il soit impossible de retrouver le message original partir du condens.

Ainsi, le hach reprsente en quelque sorte l'empreinte digitale (en anglais finger print) du document.

Utilit d'une fonction de hachage


En expdiant un message accompagn de son hach, il est possible de garantir l'intgrit d'un message, c'est--dire que le destinataire peut vrifier que le message n'a pas t altr (intentionnellement ou de manire fortuite) durant la communication.

Lors de la rception du message, il suffit au destinataire de calculer le hach du message reu et de le comparer avec le hach accompagnant le document. Si le message (ou le hach) a t falsifi durant la communication, les deux empreintes ne correspondront pas.

4.4.3 Le scellement des donnes


L'utilisation d'une fonction de hachage permet de vrifier que l'empreinte correspond bien au message reu, mais rien ne prouve que le message a bien t envoy par celui que l'on croit tre l'expditeur. Ainsi, pour garantir l'authentification du message, il suffit l'expditeur de chiffrer (on dit gnralement signer) le condens l'aide de sa cl prive (le hach sign est appel sceau) et d'envoyer le sceau au destinataire. A rception du message, il suffit au destinataire de dchiffrer le sceau avec la cl publique de l'expditeur, puis de comparer le hach obtenu avec la fonction de hachage au hach reu en pice jointe. Ce mcanisme de cration de sceau est appel scellement.

Codage de linformation..........................................................................................................................1 1CODAGE: LA THORIE DE L'INFORMATION...............................................................................1 1.1Quantifier linformation................................................................................................................. 1 1.2Les units de mesure de l'information............................................................................................ 2 2LES DIFFRENTES FORMES D'INFORMATION........................................................................... 4 2.1Le texte........................................................................................................................................... 4 2.2Les nombres................................................................................................................................... 5 2.2.1Les nombres entiers naturels................................................................................................... 6 2.2.2Les nombres entiers relatifs.....................................................................................................6 2.2.3Le son...................................................................................................................................... 8 2.2.4Les images :...........................................................................................................................13 2.2.5Les images mobiles............................................................................................................... 15 3LA COMPRESSION DE DONNEES.................................................................................................16 3.1Gnralits....................................................................................................................................16 3.2Exemple dun algorithme de compression : RLE.........................................................................17 3.3Taux de compression....................................................................................................................17 3.4Les formats d'images.................................................................................................................... 18 3.4.1BMP...................................................................................................................................... 18 3.4.2GIF (Graphic Interchange Format)........................................................................................ 18 3.4.3JPEG......................................................................................................................................18 3.4.4PNG (Portable Network Graphics)........................................................................................18 3.4.5TIF (Tagged Image File Format)........................................................................................... 18 3.5Les formats audios........................................................................................................................19 3.5.1WAV..................................................................................................................................... 19 3.5.2MP3....................................................................................................................................... 19 3.5.3OGG...................................................................................................................................... 19 3.5.4AAC...................................................................................................................................... 19 3.6Les formats videos:...................................................................................................................... 19 3.6.1AVI (Audio Video Interleaved).............................................................................................19 3.6.2MPG, MPEG2, MPEG4........................................................................................................ 19 3.6.3DIVX..................................................................................................................................... 20 4La cryptographie..................................................................................................................................21 4.1Gnralits....................................................................................................................................21 4.2Les deux types de chiffrement :....................................................................................................21 4.3Les fonctions de la cryptographie ................................................................................................23 4.4La signature lectronique ............................................................................................................ 23 4.4.1Dfinition.............................................................................................................................. 23 4.4.2Fonction de hachage.............................................................................................................. 23 4.4.3Le scellement des donnes ................................................................................................... 24

Вам также может понравиться