Вы находитесь на странице: 1из 50

Systme Vocal

Le processus de phonation comporte trois tapes


essentielles:
1. La gnration dune nergie ventilatoire qui va servir
mettre en mouvement oscillatoire les cordes vocales ou
les carter afin de gnrer un bruit
2. La vibration des cordes donnent naissance tous les sons
voiss
3. La ralisation dune disposition articulatoire dans les
cavits supra-glottique form du conduit vocal et/ou fosses
nasales.

Systme Vocal
Le systme vocal se compose:
poumons

d'une soufflerie
du larynx

conduit trachobronchique

du conduit vocal
2

Systme Vocal

Systme phonatoire
3

Systme Vocal

Appareil phonatoire
4

Gnration de signal de Parole

sources acoustiques

source
laryngienne

onde quasi-priodique

cavits
supraglottiques
bruits
d'occlusion

Parole
5

Les sons voiss - non-voiss


voisement (sons voiss) : les cordes vocales vibrent, les
cartilages arytnodes sont rapprochs (80 % du temps de
phonation),
absence de voisement (sons non-voiss) : les cordes
vocales sont cartes, pas de vibration
aspiration : courte priode non-voise se produisant
pendant et immdiatement aprs le relchement
articulatoire dans les cavits supra-glottiques,

Les sons voiss - non-voiss


murmure : les cordes vocales vibrent cartes
chuchotement : les cordes vocales sont en contact ou
assez rapproches
occlusion glottale : les cordes vocales sont maintenues
en position ferme. La phonation commence par un
cartement brutal des cordes vocales et le signal sonore
dbute par une intensit et une frquence leve (Ex. :
[p,t,k,b,d,g]).

Les sons voiss - non-voiss

Tracs dun signal vois


8

Les sons voiss - non-voiss

Tracs dun signal non vois


9

Pitch
Le pitch est la frquence de vibration des cordes
vocales. Il est aussi appel frquence fondamentale
Cette frquence varie :
de 80 200hz pour une voix masculine.
de 150 450 hz pour une voix fminine
de 200 600 hz pour une voix denfant
Le Pitch est un paramtre trs important pour la
synthse de la parole. Loreille est en effet, trs sensible
ses variations.

10

Perception
L'oreille de l'tre humain est capable de
percevoir des sons ayant des frquences
comprises entre 20 et 20 000 Hz.
L'aire d'audition de l'homme est comprise
entre le seuil d'audition (qui varie entre 0
et 40 dB suivant la frquence) et le seuil
de douleur (autour de 120 dB),

11

Perception

12

Codage numrique de la parole


Motivation de traitement de la parole.
La parole reprsente la majeure partie du trafic
coul par les rseaux de tlcommunication.
La frquence dechantillonnage est constante
Il faut reprsenter lamplitude du signal sur peu
de bit
La rduction du dbit est trs demande dans:
les liaisons par satellites,
Liaisons par cbles sous-marins
les services mobiles
dans les squences sonores ( les rpondeurs
sans cassette et la messagerie vocale )
13

Codage numrique de la parole


Pourquoi le traitement numrique?
Un signal numrique est moins sensible aux bruits
grce dune part la possibilit de rgnration du
signal numrique et dautre part lutilisation des
codes correcteurs derreur.
Il est facile dextraire des paramtres reprsentatifs
du signal laide de son traitement.
Il existe des mthodes trs volues pour la
compression, le codage et le filtrage du signal

14

Codage numrique de la parole


Les codeurs de la parole

Codeurs temporels
Codeurs paramtriques (vocodeurs)
Codeurs hybrides (mixtes)

15

Codage numrique de la parole


Codeurs temporels
Codeur MIC 64 Kbit/s
Codeur MICDA 32 kbits/S

16

Codage numrique de la parole


Codeurs MIC 64kbit/s
Il tait normalis par lUIT (Union Internationale des
Tlcommunications) sous la recommandation G711
Ils cherchent prserver lallure temporelle du signal
Il consiste filtrer le signal de parole dans la bande 3003400hz, lchantillonner la frquence 8000 hz et le
quantifier par la loi A (ou m) sur 8 bits

17

Codage numrique de la parole


Codeurs MICDA
Modulation par Impulsion et Codage Diffrentiel Adaptatif)
32kbit/s
Le codeur MICDA est normalis par UIT-T sous la
recommandation G721
Il fait appel deux techniques de traitement du signal: la
prdiction et la quantification adaptative

18

Prdiction linaire
x(n)
e(n)

u(n)

~
x (n)

Modle

MSE (Mean Square Error)


Critre d'optimisation
2

E(e(n) )
Identification Paramtrique dun signal
m

e( n ) x ( n ) ak x ( n k )
k 1

~
x (n) ai x(n i )
i 1

19

Prdiction linaire
H (Z )

1
1 a1Z 1 a2 Z 2 .... am Z m

B( Z )

Ce filtre n'a que des ples et il est appel filtre autoregressif


(AR).
Les coefficients ak sont appels coefficients de prdiction
linaire

20

Prdiction linaire
Le critre de minimisation implique:
Pour que la fonction soit minimale, ses drivs par
rapport aux coefficients ak doivent sannuler en ces
points.
d
0 (1 k p)
dak
P
d
de(n)
) 2 E (e(n) x(n k )) 2.E ( ai x(n i) x(n k ))
2.E (e(n)
dak
dak
i 0
P

i 0

i 0

2. ai E ( x(n i ) x(n k )) 2. ai Rxx (i k ) 0

21

R xx ( ) E ( x ( t ). x ( t ))
x ( ) * x ( )

1 N
Rxx ( )
x(t).x(t )
2N 1t N
R xy ( ) E ( x ( t ). y ( t ))
x ( ) * y ( )
N
1
R xy ( )
x ( t ). y ( t )
2 N 1 t N
22

p
2

E(e(n) ) E(e(n)ai x(n i)) ai E(e(n)x(n)) aiR(i)


i0

i0

i0

A
R
r


Rxx (1)
.
. . Rxx ( p) 1 2
Rxx (0)
R (1)
a 0
R
(
0
)
R
(
p

1
)
xx
xx
xx
1
.
Rxx (0)

.
.


Rxx ( p 1)

.

a
R
(
p
)
R
(
p

1
)
.
.
.
R
(
0
)
xx
p 0
xx
xx
xx

xe

Ap Rxx .rex
Cette quation peut tre rsolu grace lalgoritme de Levinson

23

Algorithme de LEVINSON
Lalgorithme de LEVINSON est une
procdure itrative
Il permet de rsoudre itrativement
lquation A=r. R-1.
Il consiste construire un filtre de prdiction
dordre p+1 partir du filtre de prdiction
dordre p.
A chaque tape p, le filtre est tabli de
manire minimiser lerreur quadratique
moyenne.
ep(n) x(n) ~
x(n) x(n) ap,1x(n1) ap,1x(n2).........
..ap,px(n p)
24

25

Les Vocodeurs prdiction linaires


Le filtre danalyse par prdiction linaire est
Ap(Z)
Il est logique de penser quil faut
utiliser les coefficients (1 i p) pour rgnrer
le signal original
Malheureusement ces coefficients ne prsentent
pas des proprits exploitables pour leurs
quantifications cause de leurs sensibilits aux
bruits de quantification
dautres
paramtres ont t introduits
26

Les Vocodeurs prdiction linaires


Les paramtres les plus utiliss sont:
PARCOR (Partiel Correlation)
LAR( logarithm Area Ration)
LSP (Line Spectrum Pair).

27

Les Vocodeurs prdiction linaires


Les PARCOR
Ils ont les proprits suivantes:
1. Ils sont compris entre -1 et 1 pour un filtre stable
2. Les coefficients dordre le plus bas sont les plus
importants. Le signal synthtis est plus sensible
une variation de k1 qu la mme variation de kp.
3. Ils sont indpendants de lordre danalyse. Une
analyse dordre p fournit les mmes p premiers
coefficients de rflexion quune analyse dordre
p+1.
28

Les Vocodeurs prdiction linaires


Les PARCOR
Ils sont donns par la relation:
p 1

a p 1 ,i R ( p i )
K

i0

E p 1

E p 1 E (e p 1 (n) )
2

2
29

Les Vocodeurs prdiction linaires


Les LAR
Ils sont donns par:

1 k j

LAR( j) log(
)
1 k j

30

Les Vocodeurs prdiction linaires


LSP
Les LSP sont les solutions des polynmes suivants:
( p1)

P(Z) Ap(Z)Z

( p1)

Q(Z) Ap(Z)Z

Ap(Z )
1

Ap(Z )
LSP

P(Z ) (1 2cos(w2i1)Z Z )
i0
m

Q(Z ) (1 Z 2 )(1 2cosw2i Z 1 Z 2 )


i1
31

Les Vocodeurs prdiction linaires


LSP
Elles saltrent deux deux sur le cercle unit
Les LSP sont borns et possdent la proprit dtre ordonns

0 w1 w2 ....wp
Cette relation est la condition ncessaire et suffisante pour la
stabilit du filtre de synthse.
Une erreur dans un seul coefficient LSP ne se propage pas plus
loin, son effet spectral est limit dans la rgion troite autour de la
frquence correspondant ce coefficient. Cette proprit permet une
robustesse intrinsque vis--vis des erreurs de transmission et une
vrification simple de stabilit du filtre.

32

Les Vocodeurs prdiction linaires


LSP

33

Les Vocodeurs prdiction linaires

34

Les Vocodeurs prdiction linaires


Les codeurs paramtriques ne cherchent
pas synthtiser un signal ressemblant
temporellement au signal original
ils tentent plutt de produire un signal
partir dun modle approch de la
phonation
Ils visent reproduire correctement
lenveloppe spectrale
35

Les Vocodeurs prdiction linaires


Signal original

Signal synthtis par codeur paramtrique


excitation par un bruit blanc

36

Les Vocodeurs prdiction linaires


400
300

Spectre du Signal original

200
100
0

0.5

1.5

2.5

3.5

4.5

5
4

x 10
100

Spectre du Signal synthtis


50

0.5

1.5

2.5

3.5

4.5

5
4

x 10

37

Les Vocodeurs prdiction linaires


Une trame dun vocodeur comprend:
8 12 coefficients de corrlation partielle (ou
LSP)
Lnergie de lerreur de prdiction (analyse LPC)
La frquence fondamentale
Si on analyse des trames de 20ms avec Fe=8khz,
si on codes les 10 coefficients de prdiction sur 4
bits chacun, et lnergie de lerreur de prdiction
sur 7 bits et la frquence fondamentale sur 7bits,
le dbit est de 2,7kbits/s. Lexcitation est soit un
bruit blanc pour les sons non voiss ou un train
dimpulsion si le son est non vois.
38

Codeurs Hybrides
Les codeurs mixtes mettent en jeu les techniques
temporelles et paramtriques.
Ce type de codage consiste modliser le conduit vocal
sur des tranches de 10 30 ms par un filtre
autoregressif 1/A(Z).
Dans une premire gnration de codeurs hybrides,
lentre idale du filtre de synthse est lerreur rsiduelle
obtenue par filtrage du signal de parole original par le
filtre A(Z).
Du fait quune grande partie du signal est concentre
dans les coefficients du filtre de synthse, lerreur
rsiduelle a donc moins dimportance et sera prsent
par un nombre rduit de bit.
Ce systme est appel approche LPC excit par le
rsidu (Rsiduel Excited Linear Predictor, RELP).
Le RELP est caractris par un dbit aux alentours de
10 kbits/s.
39

Codeurs Hybrides
Codeurs CELP (Code Excited Linear Prediction)
Dans une nouvelle gnration de codeurs
hybrides, le signal d'excitation optimal est
dtermin par une mthode d'analyse par
synthse:
on cherche dans un ensemble de M formes
d'ondes stockes dans un dictionnaire, connu
priori par lmetteur et le rcepteur, le signal
d'excitation qui rend minimale l'nergie de la
diffrence entre le signal coder et le signal de
synthse.
40

Codeurs Hybrides
CELP

Signal Original
m1

B(Z) 1bkZ(Pk)

A( Z )
W (Z )
A( Z / )

k0
Dictionnaire
dexcitation

gain

Prdicteur
Long-terme
(LTP)

Prdicteur
court-terme

+
-

Filtre
perceptuel

Slection de la forme
donde

Schma de principe du CELP


41

Codeurs Hybrides
Le codeur CELP est bas sur le principe
de la prdiction linaire.
Il est form par trois filtres :
un filtre prdicteur court terme 1/A(Z),
un filtre long terme (LTP) 1/B(Z)
un filtre perceptuel W(Z)

42

Codeurs Hybrides
Analyse LPC
Le filtre prdicteur court terme consiste
modliser le conduit vocal par un filtre
autoregressif 1/A(z).
Le filtre LPC ne permet pas dextraire toute la
redondance du signal.
si lon filtre le signal de parole original par le filtre
A(Z), lerreur rsiduelle obtenue pour les sons
voiss prsente encore une certaine priodicit
qui correspond la priode de vibration des
cordes vocales .
Pour liminer cette priodicit on introduit un
filtre LTP dans la structure du CELP
43

Codeurs Hybrides
5

(a)

-5
0

10

12

14

(b)

-5
0

10

12

14

(c)

-5
0

10

12

14

t(ms)

a- lettre 'a' extrait du mot matlab


b- erreur rsiduelle
c- blanchissement de lerreur rsiduelle
44

Codeurs Hybrides
Analyse LTP
m1

B(Z) 1 bk Z

lordre du filtre LTP


( Pk )

k0

P est le PITCH
Un filtre LTP dordre lev permet une modlisation
plus fine de la structure priodique mais augmente le
dbit binaire.
Gnralement, un filtre LTP du premier ordre permet
dobtenir des rsultats satisfaisants.
45

Codeurs Hybrides
Le Filtre LTP:

B ( Z ) 1 bZ

La rduction de la redondance long terme se


ramne minimiser lnergie E(b,P) de lerreur
de prdiction partir de sa valeur provenant de
la priode prcdente.
N 1

E (b , p ) [ e ( n ) b e ( n p )]
n0

2
46

Codeurs Hybrides
Pour une valeur donne de p, la valeur
optimale de b est celle pour laquelle la drive
de lnergie E(b,p) par rapport b est nulle.
Elle est donne par lexpression:
N 1

e(n )e(n p )
b

n0
N 1

( e ( n p ))

n0
47

Codeurs Hybrides
La mthode CPP ( Correlation Peak
Picking) consiste dterminer la valeur P,
comprise entre 16 et 160, qui maximise
lexpression E(P) telle que:
N 1

E(P) e(n)e(n P)
n0

48

Codeurs Hybrides
Le filtre perceptuel W(z) permet, lors de la recherche du
meilleur code dexcitation dans le dictionnaire, dattribuer
moins dimportance aux zones frquentielles
nergtiques.
En effet, la diffrence entre le signal originale et le signal
synthtique est moins perceptible dans les zones
formantiques o le signal a beaucoup dnergie.
A la sortie du filtre perceptuel, nous avons un signal
rsiduel de nature plus alatoire et de dynamique plus
faible que le signal original.
Dans le dictionnaire, on cherche la forme la plus
ressemblante ce signal rsiduel.
Son indice dans le dictionnaire sera transmis avec les
coefficients des filtres de prdiction court terme et long
terme au dcodeur
49

Exercice 1 :
Dterminer les coefficients de prdiction linaire et les coefficients PARCOR du
filtre AR dordre 4 modlisant un signal de coefficient de correlation : { R(0), R(1),
R(2),R(3), R(4)}={128,-64,80,89}
Dterminer lnergie des erreurs de prdiction
Exercice 2
Soit le signal dfinie par :
y(n)+a1y(n-1)+a2y(n-2)+a3y(n-3)+a4y(n-4)=(n) (bruit aleatoire)
Dterminer les coefficients du filtre AR si ses ples sont :0.2 et 0.4
retrouver ces coefficients en utilisant une analyse LPC ?
Exercice 3
10 chantillons dun signal alatoires sont :4,503 ; -10.841, -24.183 ; -25.662 ; 14.390 ; 1.453 ; 10.980 ; 13.679 ; 15.517 ; 15.037
a- Dterminer les coefficients du filtre de prdiction dordre 4 ;
b- dterminer les coefficients PARCOR
C- dterminer lnergie de lerreur

50

Вам также может понравиться