Академический Документы
Профессиональный Документы
Культура Документы
Plan
1. 2. 3.
4.
Compression du son :
1. 2. 3. 4.
Pierre Jouvelot
Plan (fin)
5.
6.
Conclusion
Pierre Jouvelot
Introduction
Types de donnes :
analogiques (son, image) digitales (texte)
Volumes et dbits
Images fixes :
1 Mo (576(l) x 720(p) x 25i/s) 10 Mo (image film 35 mm) 1 Go (film de 1h30)
Images mobiles :
TV analogique (140 Mb/s) MPEG (5 Mb/s, qualit VHS)
Pierre Jouvelot
Introduction
Types de compression
Sans perte (lossless) :
texte traitement dimages (mdecine)
Performance :
2:1 sans perte jusqu 1000:1 avec perte (fractal)
Pierre Jouvelot Introduction 7
Standards
ISO IEC CCITT/UIT Interoprabilit accrue Diminution des cots Implmentations logicielle/VLSI Convergence TPH/TV/Internet Etude de cas : fax CCITT G3
Pierre Jouvelot
Introduction
Linformation
Emetteur (ou source) Canal Rcepteur Message (ou suite de caractres) Rfrentiel (alphabet) ... Surprise du message !
Pierre Jouvelot
Thorie
Source
Modle stochastique de source Alphabet A = {c1, ... cn} Chaine s = squence finie de caractres mis pi : probabilit dmission de ci Exemples :
constante, p0 = 1, pi0 = 0 alatoire, pi = 1/n
Pierre Jouvelot Thorie 10
Ordre
Prise en compte du contexte :
ordre 0 : probabilits indpendantes ordre suprieur
Probabilit de u ?
1% dans un modle dordre 0 95% lordre 1, aprs q
Pierre Jouvelot
Thorie
11
Mesure dinformation
Claude Shannon (Bell Labs, 1940) : Plus de surprise, plus dincertitude, plus dinformation, plus de bits Test de lecture (Shannon, 1950) : 1 caractre anglais sur 2 est inutile ! Application : sources constante et alatoire
Pierre Jouvelot Thorie 12
Entropie et codage
Source S dordre 0, en bits : H(S) = - pi log2(pi) Application : sources contante et alatoire Thorme du codage : Coder un caractre de S ncessite, en moyenne, H(S) nombres binaires Codage optimal : atteindre lentropie pour des chanes infiniment grandes
Pierre Jouvelot Thorie 13
Du codage la compression
Codage Texte Code
Codage quiprobable
Pierre Jouvelot
Thorie
15
Compression de texte
Source c Encodeur Compresseur 0/1 Canal Rcepteur c Dcodeur Dcompresseur 0/1
Pierre Jouvelot
Texte
16
Types de codage
off-line on-line temps rel
Pierre Jouvelot
Texte
17
Code
(Fonction de) code binaire f : chane (0/1)* Exemple :
a 1001 b 10 ab 10010 abbb 1
Peu efficace !
Pierre Jouvelot Texte 19
Codes prfixes
Aucun code nest prfixe dun autre Dcodable de manire unique Diffrentes implmentations :
Huffman Codage arithmtique (brevets)
Pierre Jouvelot
Texte
20
(envoyer 1, renormaliser)
Pierre Jouvelot
Texte
22
Mmoire importante : |S|k Souvent utilis pour Huffman (zip, par blocs : tage 2)
Pierre Jouvelot Texte 23
Codage adaptatif
Encodeur/ Compresseur Modifieur de modle Canal Rcepteur Dcodeur/ Dcompresseur
Source
Pierre Jouvelot
Texte
24
Huffman adaptatif
Algorithme dynamique :
Initialisation : caractres quiprobables Gestion dune table de frquences Reconstruction du dictionnaire
Codage optimal ( linfini) Synchronisation ? Extension lordre suprieur adaptatif (context modelling)
Pierre Jouvelot Texte 25
Codage RLE
Run-Length Encoding n caractres identiques (n, c) Applications :
fichier core (Unix) souvent utilis (fax, JPEG)
Pierre Jouvelot
Texte
26
Substitution textuelle
Famille dalgorithmes Algorithme gnral : D = init( A ) ; while not( eof()) do { s = input( D ) ; // plus longue chane output( code( s, D )) ; update( D, s ) ; } Politiques de gestion de D
Pierre Jouvelot Texte 27
init( A ) ? Optimal au sens de lentropie Utilisations : zip (tage 1), PNG (Portable Network Graphics), Stacker, QIC (Quarter Inch Cartridge)
Pierre Jouvelot Texte 28
Anticipation (lookahead)
Compression = parsing Approche greedy non optimale Exemple : D = {a, b, ab, bn }, input = abn
greedy : ab, n-1 fois b optimal : a, bn
Rsultats comparatifs
Codages entropiques voisins Approches par substitution textuelle similaires Anticipation peu utile (qq. %)
Pierre Jouvelot
Texte
31
Codage du son
Son analogique = flux continu de donnes MIDI Codage discret :
Temps (chantillonage), en Hz Intensit (quantification), en bits
Temps
Plage audible : 20 Hz 20 kHz Thorme Nyquist-Shannon : Echantillonner au double de la frquence maximum (fs = 2fmax) Problme de laliasing :
Repliement du spectre : f, fs+f, fs-f Sawtooth (fs = 22.05 kHz) : 440, 880, 1760 Oversampling, filtrage passe-bas
Pierre Jouvelot Son 33
Intensit
Echantillonage linaire de tension Applications (par seconde) :
parole 96kb : 8k samples, 12 bits musique CD : 44.1k paires, 16 bits
Codage PCM
Pulse Code Modulation : di Differential PCM : di-di-1 Adaptative DPCM :
Donne 16 bits d vers code 4 bits c di-di-1 ~ step*value[ c ] step adaptatif Standards CCITT bas dbit (G.721-3) Fichiers WAV (Microsoft), tlphones DECT
Quantification
Quantization Source essentielle de compression Partitionnement de lespace de reprsentation R des donnes : Problme doptimisation de codage : Trouver R tel d ~ cookbookR( c ) en minimisant la distorsion
Pierre Jouvelot Son 36
Quantifications scalaires
Linaire : c = d/step, d = c*step Logarithmique : -Law, A-Law
Sensibilit non-linaire de louie Meilleure quantification faible niveau, signaux plus probables Utilisation PABX (96kb 64 kb) CQ , -Law, 64 kbps
Pierre Jouvelot
Son
37
A-Law
12 bits vers 8 bits :
Signe Position du bit de poids fort dans les 7 premiers 11 bits de magnitude 4 bits suivants
Exemples :
s1wxyzabcdefg s111wxyz s01wxyzabcdef s110wxyz s0000001wxyza s001wxyz
Pierre Jouvelot Son 38
Quantification vectorielle
VQ, Vector Quantization Vaste choix dapproches :
quantification scalaire par composante apprentissage : Linde-Buzo-Gray, rseaux de neurones clustering (quadtree, ...) MCP
Pierre Jouvelot
Son
39
Reprsentation de la voix
LPC (Linear Predictive Coding) Voice coder : source un et filtre Modlisation du signal sn : sn = Gun k=1,p aksn-k Codage par trame dn :
Dterminer sn ~ dn minisant la distorsion Algorithme de Durbin (1960) Coder/quantifier G, u, p, {ak} Quantifier le rsiduel {sn-dn}
Son 40
Pierre Jouvelot
Normes de compression
LPC bien adapt aux faibles dbits LPC-10 (DoD) : 2.4 kbps, p = 10, un = bruit blanc CELP (Code Excited LP) : 4.8 kbps, un = indice, MPEG-4 GSM (Global System for Mobile) :
Donnes : 8 kHz, 13 bits PCM Dbit 13 kbps, taux 8 RTE-LTP (Regular Pulse Excitation Long Term Prediction, 6 MIPS)
Pierre Jouvelot Son 41
MPEG-Audio
Motion Picture Expert Group ISO/IEC JTC1/SC29/WG11 Norme audio IS 11172-3 (1991) 3 niveaux (layers) de compression :
I 192 384 kb/s/canal (DCC) II 128 (DAB) III variable de 32 128 (.mp3)
Pierre Jouvelot Son 42
Hypothses de codage
Assymtrie : dcodage ais Retard de codage born (<60ms) Performance croissante (I III) : PCM, 705 kb/s/canal MP3, 32 kb/s Complexit croissante : taux ~ 1:7 sans perte discernable Codeur non spcifi : MP3, ou une norme de reprsentation !
Pierre Jouvelot Son 43
Psychoacoustique
Perceptual Coding Effet de masquage frquentiel Exemple :
1000 Hz + 1100 (-18 dB) ~ 1000 1000 + 2000 (-18 dB) 1000 + 2000 (-45 dB) ~ 1000
Pierre Jouvelot
Son
44
Psychoacoustique
Donnes auxiliaires
Pierre Jouvelot
.mp3
45
Pr-traitement
Trames de 1152 samples (.mp3) Dcoupage frquentiel :
20 Hz 20 kHz Subband Coding en 32 bandes Largeurs identiques ( AC3) Chevauchement Polyphase Quadrature Filter passebande unique
Pierre Jouvelot Son 46
Codage .mp3
Adaptative Spectral Perceptual Entropy Coding 1 trame = [g, {fi }] : gain, 32 facteurs dchelle Calcul itratif fonction du dbit:
Noise Control Loop (quantification) Rate Loop (codage dHuffman)
MPEG-2
IS 13818-3 (1994) Plus de fonctionalits :
Frquences de 8 96 kHz Intervalle de dbits plus large (Low Sample Rate : 8 kbps) 5.1 canaux Canaux multilingues ~ 2 fois plus efficace (astuces de codage)
MPEG-4
Approche toolbox sonore (1998) :
naturelle (voix, musique) synthtique
Pierre Jouvelot
Son
51
Sons naturels
Dbits : 1.2 64 kb/s Voix :
HVXC (< 4 kb/s) CELP (< 24 kb/s)
Sons synthtiques
Text-to-Speech (200 b/s 1.2 kb/s) Structured Audio :
Synthse (WAV, FM, physique) SA Orchestra Language (~ CSound) SA Score Language
Fonctionnalits :
vitesse ( hauteur constante) hauteur ( vitesse constante) effets (rverb, spatialisation, ...)
Scalabilit
Pierre Jouvelot Son 53
Normes industrielles
AC-3 (Dolby) :
Algorithme et codage propritaires Compression psychoacoustique Adaptation :
bandes (#, largeur) fentre temporelle danalyse
Image = tableau de pixels, carr ou non (pel aspect ratio, e.g. 4:3)
Pierre Jouvelot Image 55
Espaces de couleur
Normalisation CIE RGB, YIQ, YUV, LAB, YC1C2, ... Dcouplage achromatique (1) et chromatique (2) Facteur de transparence
Pierre Jouvelot
Image
56
RGB
3 composantes additives : terminal vido I = k V ( ~ 2.3) Peu adapt la compression
Pierre Jouvelot
Image
57
YUV
Luminance (Yellow) Chrominance (U, V) TV PAL et JPEG (RGB) = M.(YUV) Clipping (<235 en Y) Forte corrlation
(U,V) avec Y = 0.5
Pierre Jouvelot
Image
58
YUV
V
Pierre Jouvelot Introduction 59
Pierre Jouvelot
Image
60
Dbits :
US : 480 l x 720 pel, 60 field/s (30 i/s non entrelac) Eu : 576 l x 720 pel, 50 field/s (25 i/s)
Pierre Jouvelot Image 61
Compression 1D
Codage dHuffman statique dun codage RLE unidimensionnel Tables exprimentales l (b, n) :
0 (00110101, 0000110111) 3 (1000,10) 63 (00110100, 000001100111)
Option 2D
Prise en compte de ligne prcdente Modified READ (Relative Element Address Designate) : codage des transitions Exemple du mode pass :
. . . a0 b1 b2 . . . . . . . a0
JPEG
Joint Photographic Expert Group ISO JTC1/SC29/WG1 ITU-T.81 et ISO/IEC 10928 (1992) Objectifs :
Images fixes (gris, couleur) Utilisation humaine State of the art, general purpose Paramtrable (format et non algorithme) Peu coteux
Pierre Jouvelot Image 65
Codage
Indpendant de lespace de couleur Traitement par canal Image f(x,y) : 0 x,y N-1 Modes :
squentiel progressif hirarchique, pyramidal (sans perte)
Pierre Jouvelot Image 66
Performances
Adapt aux images relles Meilleur que GIF (sauf dessin) Compression moyenne de 10 50 Taux de rfrence (16 b/p) :
0.08 0.25 0.75 2.25
Pierre Jouvelot
Temps f(x)
Pierre Jouvelot
Frquence F(a)
Image ... et son ! 68
Dfinition de la DCT
F(a,b) = C(a)C(b)/4
x=0,N-1 y=0,N-1
f(x,y)cos((2x+1)a/2N) cos((2y+1)b/2N)
Image
70
Dfinition de lIDCT
f(x,y) =
a=0,N-1 b=0,N-1
Pierre Jouvelot
Image
71
b
Pierre Jouvelot Image 72
Exemple de DCT
Image 8x8 (shift 128)
Quantification
DCT par blocs de taille 8x8 :
Localisation des effets de Q Rduction de complexit
Matrice de coefficients : DC, 63 AC F(a,b), avec 3 bits de plus que f(x,y) Table Q(a,b), paramtre de quantification vectorielle
Pierre Jouvelot Image 74
Exemple de quantification
Q(a,b) typique
F(a,b)/Q(a,b)
Pierre Jouvelot Image 75
Pierre Jouvelot
Image
76
Chane JPEG
.bmp Dcoupage 8x8 DCT Q Codage entropique .jpg tables
Pierre Jouvelot
Image
77
Modes
progressif :
slection spectrale (basses frquences) rsolution (n MSB bits seulement)
JPEG progressif
Original DC DC, 1 AC DC, 2ACs DC, 3ACs 7 MSB DC +5 MSB AC +6 MSB AC +7 MSB AC
Pierre Jouvelot
Image
79
Formats pseudo-standards
Pas spcifi dans la norme JPEG File Interchange Format (.jpg) TIFF/JPEG Still-Picture Interchange File Format
Standard ISO/IUT Multi-formats
Pierre Jouvelot
Image
80
Evolution de JPEG
JPEG-2 : inspiration MPEG-2 JPEG-3 : informations de DRM JPEG-LS :
LOw COmplexity LOssless COmpression Prdictif avec contexte adaptatif Code de Golomb : (x/m, x mod m) Codage : (unaire, 0, binaire log2(m)) Standard ISO/IEC/ITU (dc. 2000) Fond sur la dcomposition en ondelettes
Pierre Jouvelot Image 81
JPEG-2000 :
Original 24 bpp
Pierre Jouvelot
MPEG
Motion Picture Expert Group ISO/IEC IS 11172 (aot 1993) Indpendant des applications Approche toolkit Multimdia : Audio, Video, System, Testing Norme de format, pas dalgorithme
Pierre Jouvelot Image 83
Spcifications
Accs direct aux images Fast Forward/Reverse Playback arrire Robustesse aux erreurs Temps-rel Squences ditables
Pierre Jouvelot
Image
84
Principes
Opportunits de compression :
espace : transformation DCT temps : compensation de mouvement
Incompatibilits :
fort taux de compression ( inter) accs direct ( intra)
Pierre Jouvelot
Image
85
Compression temporelle
Motion Compensation Prediction 3 types de trames :
intra (I), key frame prdit (P), DPCM par rapport (I,P) bidirectionnel (B), interpol
IBP
Ordonnancement des trames
t-1
Pierre Jouvelot
Image
89
90
Pierre Jouvelot
Image
91
Compression spatiale
DCT Quantification vectorielle :
Blocs 8x8 Matrice de pas adaptative (par bloc) Distinction I et (P,B)
Structure
6 couches fonctionnelles :
squence : accs SMPTE GOP : I...I image : unit de codage slice : resynchronisation macrobloc : MCP bloc : DCT
Pierre Jouvelot
Image
93
MPEG-2
IS 13818 (novembre 1994) Vido et audio 3-15 Mb/s Du VHS au LaserDisc CCIR-601 complet, entrelacement Compatible MPEG-1
Pierre Jouvelot
Image
94
Scalability
Plusieurs couches de priorit Adaptation la puissance du rcepteur (simulcasting) Quatre modes :
spatial, ou multirsolution data partitioning ~ progressif rapport S/N ~ hirarchique temporel, avec taux de trames diffrent (e.g., gauche/droite avec prdication L/R)
Pierre Jouvelot Image 96
Profils et niveaux
Profil :
Sous-ensemble de caractristiques Simple, Main (B), Main+, Next
Niveau (level):
Contraintes sur les paramtres Low, Main, High 1440, High Main : 720x480, 15 Mb/s, CCIR-601
Combinaisons :
Profile x Level Applications : Tlconf, CATV, HDTV, DBS
Pierre Jouvelot Image 97
Extensions MPEG-2
DSM-CC :
Digital Storage Media Control Commands Commandes interactives Indpendance du support
MPEG-3
Objectif : HDTV 20-40 Mb/s Remplac par ... MPEG-2
Pierre Jouvelot
Image
99
MPEG-4
Ensemble de technologies Production, distribution et accs : TV numrique, synthse, Internet Trois groupes viss :
auteurs : DRM ISP : QoS, Delivery Multimedia Integration Framework (~ ftp) utilisateurs : interactivit, mobilit
Pierre Jouvelot Image 100
Caractristiques
Standard IS 14496 (fvrier 1999) Bande large : 5 kb/s 4 Mb/s Vidophones, multimdia, VR, ... Profils vido :
naturel : Simple, Core, Main, ... synthse : Facial Animation, Scalable Texture. Hybrid, ...
Nouveaux concepts
Objets mdia :
Naturels vs. synthtiques Ttes parlantes
Description hirarchique de scnes : spatiale, temporelle, sprites (fond), ... QoS : bit rate, taux derreur, priorit Multiplexage : FlexMux, TransMux Utilisateurs : position, dplacement dobjets, langues
Pierre Jouvelot Image 102
Compression(s)
Elements multiples : vido, mailles 2D/3D, textures, variations... Compression classique :
MPEG-2 (+ AVC = DivX) ondelettes
Objets synthtiques :
Facial Definition Parameter Facial Animation Parameter Body Animation Prdiction de mouvement des objets
Pierre Jouvelot Image 103
Son :
Sans perte (Apple Lossless, Shorten)
Compression dimages :
JBIG, Fax JPEG Mthodes fractales
Pierre Jouvelot Conclusion 104