Вы находитесь на странице: 1из 24

1

Oldenburg Logatome Corpus OLLO Analyse dondelette..


DR H.GHARBI| REALISE PAR : BRAHAM CHAOUCHE YOUCEF

YESSAAD MOHAMED ELAMINE

Partie 1 :
OLLO

Oldenburg Logatome Corpus

Plan de travail

Prface sur la base OLLO Introduction Description de la base OLLO Liste des quelques abrviations Choix des phonmes

Haut-parleurs et variabilits
Configuration de l'enregistrement Conclusion

Le logatomes Oldenburg (OLLO) corpus de parole a t dvelopp dans le cadre du projet europen DIVINES (variabilits de diagnostic et intrinsque dans la parole naturelle). L'un des objectifs du projet est de mieux comprendre la reconnaissance vocale humaine et de bnficier ainsi de gagner en reconnaissance de l'laboration de la machine. DIVINES considre variabilits parole naturelle qui ne sont pas influencs par l'entourage, mais pourrait rduire la performance de la reconnaissance automatique de la parole (RAP), par exemple, la variabilit due au dialecte haut-parleur ou d'articulation. La base de donnes a prsent dans ce diapo est spcialement conu pour une meilleure modlisation, extraction de caractristiques et de l'adaptation en prsence des variabilits intrinsques. Il est adapt pour des expriences de RAP et des tests d'intelligibilit de la parole avec les humains.

Prface sur la base OLLO

Introduction

Le Oldenburg Logatome Corpus (OLLO) est une base de donnes discours qui a t conu pour une comparaison des performances de reconnaissance de la parole automatiques et les auditeurs de l'humain. Il a galement t utile d'autres fins, par exemple, le dveloppement d'une tche de discrimination haut-parleur ou la reconnaissance des phonmes de modlisation. OLLO contient simples non-sens des combinaisons de consonnes (C) et les voyelles (V), qui sont appels logatomes. 150 CVC diffrents et VCV ont t prononcs par 40 allemands et 10 francophones. Chaque logatome a t enregistr dans plusieurs styles diffrents (langue effort parlant fort et doux, rapide et lente vitesse d'locution), ce qui permet une analyse de ces variabilits intrinsques de la parole. En outre, il peut tre utilis pour analyser l'influence du dialecte et l'accent, titre de confrenciers en provenance de rgions dialectales diffrentes, ainsi que les francophones ont t enregistre

Taux de reconnaissance en fonction des variabilits intrinsques de la parole. Les rsultats dmontrent qu'un changement de rythme de la parole et de l'effort peut augmenter les taux d'erreur mot de jusqu' 31,5%.

Exemple de la base OLLO

OLLO contient 150 logatomes diffrentes, savoir non-sens des mots, qui sont composs de combinaisons de voyelle-consonne-voyelle (VCV) ou consonne-voyelle-consonne (CVC) avec les mmes phonmes extrieures. Chaque logatome a parl avec style diffrent, l'effort de parler et taux. Les confrenciers ont t invits prendre la parole chaque logatome fort, doucement, rapidement, lentement, comme une question, et normalement. Hautparleurs provenant de divers dialectes / accent rgions ont t enregistres pour permettre une analyse de ces facteurs sur la reconnaissance vocale. Certaines des proprits de la base de donnes sont rpertories dans le tableau ci-dessous.

Description de la base OLLO

Liste des quelques abrviations


Les modles de Markov cachs

(HMM : Hidden Markov Model) ont pris une importance considrable, au point que la quasi-totalit des systmes de RAP actuels utilisent cette modlisation. Les modles de Markov cachs supposent que le phnomne modlis est un processus alatoire et inobservable qui se manifeste par des missions elles-mmes alatoires. Ces deux niveaux donnent l'approche markovienne une flexibilit pour modliser un phnomne aussi complexe que la parole. Les coefficients PLP (Perceptual Linear Predictive) La mthode PLP est une mthode inspire du principe de prdiction linaire (LP, Linear Predictive). Elle combine ce principe une reprsentation du signal qui suit lchelle humaine daudition. Son but est destimer les paramtres dun fil tre auto-rgressif tout ple, modlisant au mieux le spectre auditif
1.

(QSS) : Le signal de parole est un phnomne non stationnaire long terme. Il peut cependant tre considr comme quasi stationnaire sur de courts segments, typiquement infrieurs 30 ms.
(PSD) : Elle reprsente la rpartition de la puissance d'un signal suivant les frquences. Elle sert caractriser les signaux alatoires gaussiens

2.

Les coefficients MFCC sont une extension des coefficients cepstraux par le passage de lchelle frquentielle linaire une chelle frquentielle non linaire dite lchelle Mel L'intrt de l'chelle Mel est d'tre assez proche d'chell es issues d'tudes sur la perception sonore et sur les bandes passantes critiques de l'oreille.

Figure 1: Processus de calcul des coefficients PLP.

10

Figure 2 : Module typique dextraction de paramtres standards (MFCC) pour la RAP.

11
Un systme HMM-GMM a t form sur la partie sans accent de la base de donnes OLLO qui se compose d'environ 13.500 dclarations, puis test sur la partie sans accent de l'ensemble de test qui consiste peu prs de 13.800 dclarations. Chacun de ces noncs correspondent une logatome. Nous comparons l'tat de l'chelle de temps fixe d'art (20ms long fentres) fonctions avec le barme propos rcemment variables quasi-stationnaire analys dispose MFCC .Cette technique rsulte une analyse spectrale variable d'chelle de temps, estimer de faon adaptative de la fentre d'analyse plus large possible taille telle que le signal reste quasi-stationnaire, donc le meilleur temps / frquence compromis rsolution. Les expriences de reconnaissance de la parole sur la base de donnes OLLO, montrent que la variable propos chelle morceaux analyse spectrale stationnaire base dispose en effet obtenir une prcision de reconnaissance amliore dans des conditions de propret, comparativement MFCC, PLP et les caractristiques constantes de JRASTA PLP. Dans un signal porteur d'information tels que la parole ou de l'image, l'information se propage travers la lente volution d'un segment de quasi-stationnaire une autre. Pour les voyelles par exemple lentement voluer vers consonnes et vice-versa. Les systmes actuels RAP faire une hypothse simplifie que tous les vnements stationnaires sont d'une dure uniforme et la dure est gnralement estim 20 ms

12

Cela pose un obstacle majeur que certains sons (vnements) tels que les voyelles durent gnralement (60 - 80 ms), tandis que certains de courte dure limites sons comme explosif et d'arrter pendant moins de 10 ms. Les instants spcifiques dans une forme d'onde de signal de commutation lorsque cette stationnarit cas, la vitesse laquelle se produit ce changement et la dure de segments stationnaires sont soutenus les quantits trs importantes qui doivent tre dtectes et estimes pour extraire tous l'information utile partir du signal de parole. La plupart des caractristiques acoustiques de reconnaissance automatique de la parole, comme MelFrequency Cepstral Coefficient (MFCC) ou Perceptual Linear Prediction sont bases sur une sorte de reprsentation de l'enveloppe spectrale lisse, gnralement estims plus de fentres d'analyse gnralement fixes de 20 ms 30 ms du discours signal . Une telle analyse est fonde sur l'hypothse que le signal de parole peut tre suppose quasi-stationnaire sur ces dures de segments. Cependant, il est bien connu que le parole vois son tels que les voyelles sont quasi-stationnaire pour 40ms 80mstout, des arrts et explosif sont limites dans le temps de moins de 20 ms . Par consquent, il implique que l'analyse spectrale base sur une fentre de taille fixe de 20ms 30ms-a quelques limitations.

Choix des phonmes

13

Chaque logatome dans la base de donnes vocales OLLO se compose de trois phonmes. Le phonme pertinent sur lequel les tests seront effectus est encastr entre deux phonmes cadre peu prs identiques. Ainsi, il devient possible d'analyser l'influence de la coarticulation et, dans l'intelligibilit des tests ferms, les humains et les machines peuvent choisir de la mme gamme de rponses. Les structures des logatomes sont soit voyelleconsonne-voyelle (VCV) ou consonne-voyelle-consonne (CVC), en fonction de type de la cible de phonme dans le milieu. Afin d'tudier l'influence de la variabilit, chaque logatome a t enregistr plusieurs fois. Pour conserver l'enregistrement temps par haut-parleur un niveau raisonnable, le nombre de phonmes devait tre limite. Phonmes qui sont essentiels la reconnaissance humaine ou automatique de la parole ont t slectionns, de sorte que des diffrences significatives dans les taux de reconnaissance peut tre obtenue avec des ensembles de test plus petits.

Afin de permettre le dveloppement de techniques qui auront une meilleure capacit dans la gestion des variabilits intrinsques de la parole, le corpus est spcialement regroups en indpendante du locuteur et variabilits dpendantes du locuteur. Dans le corpus OLLO il ya un total de nombre de 40 haut-parleurs. Les variabilits sont dpendantes du locuteur entre :

Haut-parleurs et variabilits

14

les sexes (19 hommes, 21 femmes)

d'ge (allant de 18 65) et rgionales dialecte allemand.

Tous les enregistrements ont eu lieu dans insonorise en champ libre et dans les salles d'audiomtrie insonorises. Dans le champ proche-l ont t installs: un condensateur de haute qualit microphone, un microphone lectret type PC de bureau et un tlphone portable casque-micro

Configuration de l'enregistrement

15

Un deuxime condensateur de haute qualit microphone a t install dans le champ lointain (1,50 m de la position du locuteur).
Qualit studio disque dur matriel d'enregistrement chantillonn les donnes brutes. La configuration se composait d'un microphone pr-amplificateur avec un taux d'chantillonnage de 44,1 kHz et une rsolution de 32 bits. Les amplificateurs ont toujours t ajusts pour les rglages de gain mmes. Un protocole de contrle de la qualit a t dvelopp pour viter l'crtage et le signal bruit inadquate. L'enregistrement a t gr par un outil logiciel spcialement dvelopp sur la base de MatLab version 7 (The MathWorks) et SoundMex Le logiciel prsente les logatomes souhaites pour le haut-parleur et contrle l'ordre d'enregistrement par blocs alatoires ainsi que le stockage de la parole enregistre et numrise.

Conclusion

16

Nous avons dmontr que la variable d'chelle par morceaux quasi-stationnaire analyse spectrale du signal de parole peut ventuellement amliorer lRAP state-of-the-art. Une telle technique permet de surmonter les limitations de rsolution des temps-frequence fixes chelle des techniques d'analyse spectrale. Le but de cette nouvelle base de donnes consiste effectuer un large ventail de comparaisons homme-machine en reconnaissance de la parole dans plusieurs variabilits intrinsques de la parole. Les rsultats de ces comparaisons devraient conduire une meilleure comprhension du traitement de la parole par le systme auditif humain et d'accrotre ainsi les possibilits et les performances de reconnaissance de la parole artificielle. OLLO est une base de donnes semblent prometteuses ..

17

Partie 2 : Analyse dondelette

Introduction
Pourquoi une transforme ?

18

Optimiser la description des signaux pour extraire les informations dsires La plupart des signaux ne sont pas stationnaires, et lessentiel de linformation quils contiennent rside dans ce non stationnarit. Lanalyse de Fourier propose une approche globale du signale du signal. Toute notion temporelle dans lespace de Fourier (espace frquentiel) disparat.

Il faut trouver une transformation qui nous renseigne sur le contenu frquentiel tout en prservant la localisation afin dobtenir une reprsentation temps / frquence. Plusieurs solutions ont t proposes. Ces solutions sont : la transforme de Fourier fentre glissante, et la transforme de Gabor. Mais ces deux mthodes donnent une mme rsolution temporelle pour les hauts et les basses frquences. Donc lanalyse nest pas idale. Cest dans ce contexte quintervient la transforme en Ondelettes qui propose une solution de compromis entre la rsolution temporelle et la rsolution frquentielle.

Conclusion
On peu dfinir la transforme en Ondelettes dun signal f(t) comme une projection sur la base des fonctions Ondelettes

19

dilatation (facteur a) et translation (paramtre b)

Dans cette expression, a est le facteur dchelle, b est le paramtre de translation.


En posant :
Est un produit scalaire entre deux fonctions f et g

Dilatation

20

Translation

21

Pour Calcul des Coefficients


en fait il se droule en cinq tapes :

22

Pour Calcul des Coefficients en fait il se droule en cinq tapes


1. On prend une Ondelette et on l'a compare une section au dbut du signal original 2. On calcule le coefficient qui reprsente le degr de corrlation de l'Ondelette avec cette portion du signal.

3. On translate l'Ondelette vers la droite et on rpte les tapes (1) et (2) jusqu' ce que le signal soit couvert en entier.
4. On dilate l'Ondelette et on rpte les tapes une (1) trois (3). 5. On recommence l'opration pour toutes les tapes diffrentes chelles

Les tapes de calcul les coefficients

23

24

Cest fini
MERCI POUR VOTRE ATTENTION !

Questions ?

Вам также может понравиться