Академический Документы
Профессиональный Документы
Культура Документы
reconnaissance vocale
Adapté de Yannis Korilis, Christian St-Jean, Dave DeBarr,
Bob Carpenter, Jennifer Chu-Carroll et plusieurs autres
Applications des HMM en audio
• Prétraitement
– Conversion du signal audio en un ensemble de vecteurs
représentatifs
• Reconnaissance de la voix
– Décodage de la séquence de vecteurs acoustiques en
une séquence de mots.
• Interprétation sémantique (traitement de la parole)
– Détermination de la signification des mots obtenus
• Synthèse de la voix
– Génération synthétique à partir d’une chaîne de mots-
clés
Reconnaissance de la voix
s p ee ch l a b
amplitude
…
... fréquence
m1 m2 m3 m4 m5 m6 coefficients
3
5
00
3
0
00
fréquences
2
5
00
2
0
00
1
5
00
1
0
00
5
0
0
N
Donne les « Mel Frequency Cepstral Coefficients
(MFCC) ». Seuls les ~12 premiers cœfficients sont retenus.
Les MFCC sont presque indépendants (à l’encontre des
cœfficients de la banque de filtres)
On utilise aussi le Delta (vitesse / dérivée) et Delta2
(accélération / dérivée seconde) des MFCC (+ ~24 traits)
Et aussi le logarithme de l’énergie de la trame et son Delta et
Delta2, pour un total de 39 traits
Le problème de la reconnaissance
P(W)=P(w1 ,w2,…,wk)
= P(w1) P(w2|w1) P(w3|w1,w2) … P(wk|w1,…,wk-1)
... s2 s2
...
s2
Pk,1 φ i(s2) φ (s2)
φ i-1 (s2) P1,k
i+1
best
...
...
...
path
sk sk sk
φ (sk) φ i(sk) φ i+1 (sk)
i-1
time
ti-1 ti ti+1
Réseau de reconnaissance final
• Passe par la dèfinition d’une
grammaire :
/*
* Task grammar
*/
$WORD = YES | NO;
( { START_SIL } [ $WORD ] { END_SIL } )
Reconnaissance de la parole
Etape 1 : L'observable est le signal de parole
Le HMM modélise un phonème en une suite d'états
un HMM par phonème
Etape 2 : L'observable est une suite de phonèmes
le HMM modélise un mot en une suite de phonèmes
Un HMM par mot du dictionnaire
Etape 3 : L'observable est une suite de mots
Le HMM modélise une phrase en une suite de mots
Reconnaissance du texte écrit