Академический Документы
Профессиональный Документы
Культура Документы
VERSO PROVISRIA
Setembro de 2009
ii
ndice
ndice............................................................................................... iii
Lista de figuras ................................................................................... vi
Lista de tabelas ................................................................................... x
Captulo 1 ............................................................................................ 1
Introduo ......................................................................................................... 1
Captulo 2 ............................................................................................ 3
Processo fonatrio ............................................................................................... 3
2.1 Aparelho fontico .................................................................................... 3
2.2 Tipos de excitao dos sinais de fala ............................................................. 5
2.3 Aparelho auditivo .................................................................................... 7
2.3.1 Anatomia do ouvido ................................................................................. 7
2.3.2 Efeito de mscara ou mascaramento ............................................................. 8
Captulo 3 ...........................................................................................12
Critrios utilizados na classificao fontica ............................................................. 12
3.1 Tipos de fonemas .................................................................................. 13
3.1.1 Vogais ................................................................................................ 15
3.1.2 Consoantes .......................................................................................... 15
3.1.3 Ditongos ............................................................................................. 16
3.1.4 Semivogais........................................................................................... 17
3.1.5 Plosivas .............................................................................................. 17
3.2 - Formantes tpicas dos fonemas .................................................................. 18
3.2.1 Formantes das vogais .............................................................................. 18
3.2.2 Formantes das semivogais ........................................................................ 23
3.2.3 Formantes das fricativas no-vozeadas ........................................................ 24
3.2.4 Formantes das fricativas vozeadas .............................................................. 25
iii
Captulo 4 ........................................................................................... 32
Mtodos de extraco de caractersticas do sinal de voz .............................................. 32
4.1 Introduo extraco de caractersticas do sinal de voz ................................. 32
4.2 Mtodo LPC ......................................................................................... 33
4.2.1 Mtodo LPC utilizado nas experincias ........................................................ 37
4.3 Mtodo MFCC ....................................................................................... 39
4.3.1 Mtodo MFCC utilizado nas experincias ...................................................... 40
4.4 Mtodo PLP.......................................................................................... 41
4.4.1 Mtodo PLP utilizado nas experincias ........................................................ 43
Referncias ....................................................................................... 45
iv
Lista de figuras
Figura 3.8 Representa das quatro fricativas no-vozeadas e da consoante aspirada /h/
do ingls americano, um esquema da localizao dos articuladores durante a sua
produo, na coluna (a), um grfico com a resposta no domnio dos tempos, na
coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c).
[13] ...................................................................................................... 25
Figura 3.9 Representa das quatro fricativas vozeadas do ingls americano, um esquema
da localizao dos articuladores durante a sua produo, na coluna (a), um grfico
com a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta
no domnio das frequncias, na coluna (c). [13] ................................................ 26
Figura 3.10 Representa das trs plosivas no-vozeadas e das trs plosivas vozeadas do
ingls americano, um esquema da localizao dos articuladores durante a sua
produo, na coluna (a), um grfico com a resposta no domnio dos tempos, na
coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c).
[13] ...................................................................................................... 27
Figura 3.11 Representa das trs consoantes nasais do ingls americano, um esquema da
localizao dos articuladores durante a sua produo, na coluna (a), um grfico com
a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta no
domnio das frequncias, na coluna (c). [13] .................................................... 29
Figura 3.12 Exemplos de correspondncias entre smbolos grficos e sons na ortografia
do portugus europeu padro. Na primeira coluna esto representados todos os
grafemas simples, na segunda coluna as suas correspondncias fonticas de acordo
com o alfabeto Fontico Internacional e na terceira coluna so indicados alguns
exemplos de palavras portuguesas para cada um dos fonemas. Em cada palavra o
fonema que se pretende exemplificar est a escrito a negrito. .............................. 30
Figura 3.13 Exemplos de correspondncias entre smbolos grficos e sons na ortografia
do portugus europeu padro. Na primeira coluna esto representados as sequncias
de grafemas e grafemas compostos, na segunda coluna as suas correspondncias
fonticas de acordo com o alfabeto Fontico Internacional e na terceira coluna so
indicados alguns exemplos de palavras portuguesas para cada um dos fonemas. Em
cada palavra o fonema que se pretende exemplificar est a escrito a negrito. ........... 31
Figura 4.1 Modelo genrico de tempo discreto da produo de fala. Segundo Rabiner and
Schafer (1978) [13] .................................................................................... 34
Figura 4.2 Forma cannica para um sistema para desconvoluo homomrfica. [16] ......... 37
Figura 4.3 Diagrama de blocos da anlise LPC. ....................................................... 38
Figura 4.4 Diagrama de blocos da sntese LPC. ....................................................... 39
Figura 4.5 A escala mel. Segundo Stevens e Volkman (1940). [13] ............................... 40
Figura 4.6 Diagrama de blocos da anlise MFCC. ..................................................... 41
Figura 4.7 Diagrama de blocos da sntese MFCC. ..................................................... 41
Figura 4.8 Diagrama de blocos da anlise PLP. ....................................................... 43
Figura 4.9 Diagrama de blocos da sntese PLP. ....................................................... 44
vii
viii
ix
Lista de tabelas
xi
Abreviaturas e Smbolos
Lista de abreviaturas
DCT
DFT
FEUP
FFT
IDCT
IDFT
IFFT
LP
Linear Prediction
LPC
MFC
MFCC
ODFT
PLP
Lista de smbolos
xii
ak
Coeficiente LPC
Hz
Herz
ms
milissegundo
dB
deciBel
log
logaritmo
rad/s
xiii
Captulo 1
Introduo
A descaracterizao da assinatura vocal consiste na extraco das caractersticas do sinal
de voz que contm informao sobre a identidade do orador. A assinatura vocal tem uma
enorme importncia para um vasto leque de aplicaes. Sistemas de identificao do
utilizador baseados na assinatura vocal podem ser implementados em simultneo com os
actuais sistemas de leituras biomtricas, como a leitura da ris ou de impresses digitais, para
garantir um aumento extra da segurana, ou mesmo ser implementados isoladamente, dado
que a sua utilizao mais prtica do que os sistemas de leituras biomtricas. Sabendo
identificar claramente as caractersticas do sinal de voz que identificam o orador e aquelas
responsveis pela compreenso do contedo lingustico possvel tambm melhorar os
actuais sistemas de leitura automtica de texto, de escrita automtica de fala e os sistemas
de distoro de voz, utilizados para ocultar a identidade de um orador sem que a percepo
do contedo do seu discurso seja alterada.
Para proceder descaracterizao da assinatura vocal necessrio conhecer
detalhadamente o processo fonatrio, bem como perceber o funcionamento e as
particularidades dos mtodos de extraco de caractersticas da fala humana.
Captulo 2
Processo fonatrio
A fala a mais importante forma de comunicao entre humanos. A produo da fala tem
por base o desejo do orador em transmitir uma mensagem a um ou vrios ouvintes. Para que
tal acontea uma srie de processos neurolgicos e musculares so desencadeados para
produzir a onda sonora que transmite a mensagem. Do lado do ouvinte a onda sonora
captada e transformada pelo sistema auditivo em sinais neurolgicos que so enviados para o
crebro para que a mensagem possa ser interpretada.
Para que possa haver comunicao entre o orador e o ouvinte, o primeiro tem que
converter as suas ideias para uma lngua que ambos percebam, utilizando palavras e
formando frases, que respeitem as regras gramaticais da lngua escolhida. O orador pode
tambm utilizar entoao ou acentuar palavras para enfatizar determinados segmentos da
mensagem.
2.1
Aparelho fontico
Este captulo centra-se no processo fonatrio. Na grande maioria das lnguas existentes a
produo do sinal de fala inicia-se com o diafragma a comprimir os pulmes, obrigando os
alvolos pulmonares e brnquios a expelirem ar atravs da traqueia, que faz a interligao
entre o pulmo esquerdo e o direito, para a laringe. O fluxo de ar passa depois pela cavidade
farngea para a cavidade bucal e/ou nasal, acabando por sair pela boca e/ou narinas.
Do ponto de vista da engenharia a produo da fala vista como uma operao de
filtragem acstica. O filtro principal usado nesse sistema acstico constitudo pelo tracto
vocal (cavidade larngea e cavidade bucal) e pelo tracto nasal (cavidade nasal). O filtro
acstico normalmente excitado pelos rgos localizados abaixo dessas cavidades e tem por
carga uma impedncia de radiao devido aos lbios. A separao entre o tracto vocal e o
nasal feita pelo palato, que constitudo pelo palato duro na parte anterior e pelo palato
mole ou vu palatino na parte posterior. O palato mole termina na vula. O comprimento
mdio do tracto vocal num homem adulto cerca de 17 cm, enquanto que numa mulher
adulta cerca de 14 cm e numa criana cerca de 10 cm. Ao longo do tracto vocal a seco do
mesmo pode variar entre 20 cm2 e 0 cm2. Esta variao da seco do tracto vocal
3
conseguida devido mobilidade das pregas vocais, do palato mole ou vu palatino, da lngua,
da mandbula e dentes e dos lbios, que com alteraes das suas posies conseguem alterar
as dimenses do tracto vocal e assim alterar as propriedades acsticas do som emitido. O
tracto nasal tem cerca de 12 cm num homem adulto e a ligao ao tracto vocal feita por
uma abertura controlada pelo palato mole. Quando o vu palatino est para baixo h ligao
entre o tracto vocal e o nasal e a ligao entre ambos pode atingir os 5 cm 2 num homem
adulto. Quando est levantado e encostado cavidade farngea a ligao fica completamente
fechada e o fluxo de ar atravessa apenas o trato vocal. O facto dos dois tractos estarem
isolados crucial para o som que libertado, no s porque o fluxo de ar deixa de passar
pelo tracto nasal, mas tambm porque altera significativamente as propriedades do som
radiado pelos lbios.
2.2
O tipo de excitao uma das mais importantes caractersticas sonoras dos sinais de fala.
Existem seis tipos de excitao: vozeado, no vozeado, misto, plosivo, sussurro e silncio,
sendo que as duas primeiras so as mais relevantes.
O vozeamento dos sinais de fala acontece quando o fluxo de ar vindo dos pulmes passa
pela laringe e as pregas vocais interrompem esse fluxo de uma forma quase peridica,
excitando assim o tracto vocal.
Na parte interior da laringe encontram-se as pregas vocais (ou cordas vocais), que so
constitudas por ligamentos e msculos e ao espao entre as duas pregas vocais (esquerda e
direita) d-se o nome de glote.
As pregas vocais so responsveis pelo vozeamento dos sinais de fala, ao abrir e fechar
rapidamente a passagem do ar vindo dos pulmes. A juno das pregas vocais cria presso do
ar subglotal que vai aumentando at vencer a resistncia das pregas vocais que se comeam a
separar uma da outra. Quando as pregas vocais se afastam, o fluxo de ar passa pela glote, o
que origina um decrscimo da presso de ar subglotal. A glote continua a abrir-se at atingir
o seu mximo, quando a tenso natural das pregas vocais igual fora de separao
causada pela presso de ar e a partir desse momento a glote comea-se a fechar. A fora
elstica das pregas vocais aumenta a velocidade de fecho da glote e quando a glote est
suficientemente fechada verifica-se um efeito de suco causado pela fora de Bernoulli, que
fecha a glote de forma abrupta. A presso do ar subglotal volta a aumentar e o ciclo repetese.
Ao tempo entre duas sucessivas aberturas da glote chama-se perodo fundamental (To) e
frequncia a que decorrem essas aberturas d-se o nome de frequncia fundamental Fo =
1/To. Habitualmente a frequncia fundamental de homens adultos est compreendida entre
os 50 e os 250 Hz e a de mulheres adultas entre 120 e 350 Hz. A frequncia fundamental varia
consoante o comprimento, largura e a tenso das pregas vocais, a poro membranosa das
mesmas, a cartilagem tiroideia e a largura da cavidade larngea, o que origina que a
frequncia tpica de uma pessoa varia tambm com a idade do indivduo.
Durante a produo dos sinais de fala no vozeados as pregas vocais no vibram. Estes
sinais no vozeados so gerados posicionando os diferentes articuladores nas posies
desejadas e forando o fluxo de ar vindo dos pulmes a atravessar o tracto vocal, provocando
desse modo turbulncia. As diferenas entre os diferentes sons no vozeados dependem do
tipo de obstruo no tracto vocal. Essas obstrues variam consoante o posicionamento dos
diferentes articuladores, que alterando os tamanhos e as localizaes das mesmas, modificam
as caractersticas frequenciais dos sinais de fala.
Aos sinais de fala que tm simultaneamente caractersticas de sinais vozeados e de sinais
no vozeados chamam-se sinais de fala mistos.
Aos sons constitudos por uma primeira fase de silncio seguido por uma fase vozeada,
no vozeada ou mista d-se o nome de sons plosivos. Estes sinais de fala so gerados
fechando completamente os lbios durante a fase de silncio, retendo desse modo o fluxo de
ar vindo dos pulmes e aumentando a presso do ar junto dos lbios. O fluxo de ar libertado
abruptamente durante a segunda fase dos sinais plosivos, formando a fase vozeada, no
vozeada ou mista.
A frequncia fundamental dos sinais vozeados apresenta uma fase transitria quando
precedidos por segmentos no vozeados ou de silncio, pois devido inrcia das pregas vocais
a frequncia fundamental no atingida instantaneamente.
s frequncias favorecidas pelos tractos nasal e vocal d-se o nome de frequncias
formantes, ou simplesmente formantes. Por vezes a passagem de algumas frequncias
desfavorecida, especialmente pela cavidade nasal, criando-se anti-ressonncias, tambm
conhecidas por anti-formantes. Certos fonemas, como ser demonstrado mais abaixo,
6
2.3
Aparelho auditivo
A onda sonora captada pela orelha e transmitida pelo canal auditivo at ao tmpano,
pondo-o em oscilao. O tmpano transmite a energia mecnica atravs de trs ossculos
(martelo, bigorna e estribo) a uma membrana, designada de janela oval que comunica as
oscilaes a um meio aquoso. A relao de impedncias entre os dois meios obtida atravs
do efeito de alavanca proporcionado pelos ossculos e a relao de reas entre o tmpano e a
janela oval. Os ossculos tambm protegem o ouvido, pois na presena de intensidades
sonoros demasiado elevadas os pequenos msculos que controlam os ossculos conseguem
reduzir o ganho de transmisso da energia acstica. [11] A cclea uma estrutura rgida
(ssea) em forma de caracol e possui trs canais paralelos e enrolados, chamados rampa
vestibular, ducto coclear e rampa timpnica. Estes canais esto preenchidos com lquido e
separados entre si por membranas elsticas. A rampa vestibular comea na janela oval e tem
ligao com a rampa timpnica no outro extremo da cclea. O outro extremo da rampa
timpnica uma membrana, a janela redonda, que a separa do ouvido mdio. na cclea
que a energia mecnica convertida nos impulsos nervosos que so posteriormente enviados
para o crebro. Essa converso realizada por milhares de clulas ciliadas distribudas ao
longo de uma membrana flexvel, a membrana basilar, que separa a rampa timpnica do
ducto coclear. A membrana basilar tem cerca de 35mm de comprimento e a sua rigidez e
grossura variam ao longo do seu comprimento, sendo a extremidade junto janela oval a
mais fina e a mais rgida e a extremidade oposta mais grossa e flexvel. As diferenas das
propriedades mecnicas ao longo da membrana basilar fazem com que a zona estimulada
esteja dependente da frequncia do som recebido. A membrana basilar efectua, portanto,
uma anlise espectral onda sonora captada. As variaes de presso criadas por um sinal
sonoro e comunicadas ao interior da cclea atravs da janela oval, escapam-se para janela
redonda escolhendo o ponto da membrana basilar de menor impedncia (Fig. 2.5). As clulas
ciliadas presentes na zona da membrana basilar mais estimulada geram os impulsos nervosos
a uma cadncia superior e esses impulsos so depois transmitidos atravs do nervo auditivo
ao crebro.
(2.1)
1000
0.8
6.5 0.6
3.3
1000
+ 103
1000
( )
(2.2)
Figura 2.6 Grfico Intensidade-Frequncia sobreposto com diversas curvas de idntica sonoridade.
Adaptado de [3]
O termo banda crtica est ligado a um estudo, realizado por Harvey Fletcher em 1940,
sobre a capacidade de uma banda estreita de rudo mascarar um tom puro. O tom puro
posto no limiar do mascaramento total. Qualquer pequeno aumento da intensidade do tom
puro faz com que ele passe a ser audvel e para que este volte a estar completamente
mascarado necessrio que a largura de banda do rudo seja aumentada. Mas a partir de uma
determinado valor impossvel compensar o aumento da intensidade do tom puro com um
aumento da largura da banda do rudo. Para essa largura de banda em que o tom puro ainda
se encontra totalmente mascarado d-se o nome de banda crtica.
A largura das bandas crticas depende da frequncia. A largura de banda das bandas
crticas de aproximadamente 100 Hz at aos 500 Hz, crescendo a partir dessa frequncia
para cerca de 20 por cento da frequncia central. [11] Devido sua importncia criou-se uma
nova escala de frequncias para representar o espectro audvel para os humanos, em que
cada unidade representa uma banda crtica e tem como unidade de medio o Bark. A gama
de frequncias audveis (at aos 20 kHz) composta por cerca de 25 Bark (Fig. 2.7).
Figura 2.7 Correspondncia entre as escalas de frequncias Hertz e Bark ( esquerda) e largura de
banda da escala Bark ( direita). [11]
10
11
Figura 2.8 Modelo da curva de mascaramento na escala Bark. Ilustra-se a utilizao desta curva
para calcular o limiar de mascaramento frequncia zB, devido a um tom puro mascarante
frequncia zC. [11]
76
10 5
+ 3.5
7500
(2.3)
(2.4)
mascarada
coexistem
temporalmente,
pr-mascaramento,
quando
12
Captulo 3
Critrios utilizados na classificao
fontica
A forma da onda dos sinais de fala reais varia com o tempo, ou seja, os sinais de fala so
no-estacionrios. Devido s rpidas alteraes das propriedades acsticas e espectrais
destes sinais num curto espao de tempo necessrio subdividir estes sinais de fala em
segmentos de curta durao que tenham caractersticas semelhantes para que estas possam
ser eficazmente analisadas.
Na lingustica os fonemas so a unidade elementar da fala e as suas caractersticas
acsticas e espectrais diferem de lngua para lngua. Um fone o som efectivamente
produzido na realizao de um fonema. Essa realizao difere consoante diversos factores,
como por exemplo, sexo, idade e regio de um indivduo. Assim, associado a cada fonema
est um conjunto de fones com ligeiras variaes acsticas, sendo que a essa coleco de
fones se d o nome de alofones. A maioria das palavras composta por mais do que um
fonema e cada fonema difere dos restantes na durao, no tipo de excitao e no
posicionamento dos diferentes articuladores durante a sua produo. A transio na mesma
palavra de um fonema para o outro feita de forma contnua, o que implica que a transio
entre fonemas das propriedades acsticas e espectrais tambm varia continuamente. As fases
de transio entre fonemas acontecem, porque ao transitar de um fonema para outro
necessrio rearranjar o posicionamento dos articuladores de modo a alterar o formato do
tracto vocal para produzir o novo fonema e como esses reajustamentos so feitos por
msculos impossvel realiz-los instantaneamente. Por este motivo o mesmo fonema
inserido em duas palavras distintas pode no ter exactamente nem a mesma durao, nem as
mesmas caractersticas sonoras e espectrais, pois essas mesmas caractersticas esto
dependentes do fonema anterior e do fonema posterior. Nos sinais de fala reais, quando se
fala depressa e os fones so de muito curta durao, por vezes d-se o caso, do
posicionamento final normal dos articuladores ao produzir um determinado fonema no
chegar a ser atingido, pois a fase de transio desse fonema com o fonema anterior e com o
fonema seguinte esto parcialmente sobrepostas. Aps a fase de transio as diferenas entre
fonemas iguais de palavras distintas produzidos por o mesmo indivduo em circunstncias
parecidas so normalmente reduzidas.
12
13
3.1
Tipos de fonemas
ARPAbet
IPA
Exemplo
ARPAbet
IPA
Exemplo
Existem diversas formas de classificar fonemas. Esses critrios podem-se agrupar em duas
grandes categorias, os que utilizam caractersticas acsticas e os que usam caractersticas
articulatrias para analisar os fonemas. Os critrios que analisam os fonemas quanto ao tipo
de excitao, modo de articulao, ponto de articulao e estacionaridade do sinal de fala
so critrios articulatrios. Este ltimo simultaneamente um critrio acstico. Os outros
critrios acsticos focam a sua anlise dos sinais de fala nas suas caractersticas no domnio
dos tempos ou nas suas caractersticas no domnio das frequncias.
Na Figura 3.1 possvel ver uma classificao em forma de rvore de todos os fonemas
representados no ARPAbet do ingls americano. A primeira separao da rvore consiste na
utilizao do critrio da estacionaridade do fonema. No grupo dos fonemas no-contnuos
esto os fonemas que para serem gerados necessitam que os articuladores modifiquem a
configurao do tracto vocal de forma significativa, pois para a sua produo contribuem
mais do que um estado sonoro, enquanto que os restantes fonemas so produzidos com os
articuladores numa posio esttica ou com movimentaes muito ligeiras durante a
passagem do fluxo de ar. Os fonemas no-contnuos diferem dos fonemas contnuos, pois para
serem produzidos obrigatrio movimentar um ou vrios articuladores para seja possvel
proceder s alteraes necessrias na configurao do tracto vocal. Estes fonemas so
habitualmente mais difceis de caracterizar e modelar do que os fonemas contnuos devido s
transies que apresentam ao longo do seu tempo de produo. O subgrupo dos fonemas
contnuos posteriormente novamente dividido em dois grandes grupos: o grupo das vogais e
o grupo das consoantes.
14
15
3.1.1 Vogais
As vogais so fonemas diferentes de todos os outros, pois tm somente uma reduzida
obstruo ao longo de todo o tracto vocal, para alm de serem todas vozeadas e da onda do
seu sinal ter maior amplitude que os restantes. As vogais so posteriormente repartidas em
trs subgrupos tendo em conta o seu ponto de articulao, que no caso das vogais consiste
principalmente na posio da lngua, que tanto pode estar frente, como atrs ou ento
numa posio intermdia.
3.1.2 Consoantes
As consoantes contnuas tm uma maior obstruo do tracto vocal do que as vogais e por
esse motivo apresentam uma menor amplitude na onda do seu sinal. Estas consoantes esto
subdivididas em fricativas, aspiradas, africadas e nasais.
As consoantes fricativas so geradas excitando o tracto vocal com um fluxo constante de
ar, que se torna turbulento ao passar pela zona parcialmente obstruda. As fricativas so
3.1.3 Ditongos
Os fonemas no-contnuos esto agrupados em ditongos, semivogais e consoantes
plosivas. Os ditongos so fonemas vozeados gerados transitando deliberadamente e de forma
fluida de uma vogal para outra. Existe alguma ambiguidade na distino entre um ditongo e
um conjunto formado por duas vogais seguidas, devido ao facto de em ambos os casos ser
necessrio movimentar os articuladores de modo a passar do som de uma vogal para o som de
outra. Uma definio possvel para diferenciar um ditongo de um conjunto de duas vogais
dizer que um ditongo formado por uma transio intencional do estado inicial de uma vogal
para o estado final de outra vogal em que a durao que se permanece na vogal inicial
normalmente superior ao da vogal de destino e que o tempo que decorre durante a transio
sempre superior ao tempo que se permanece em qualquer uma das vogais alvo. Na Figura
3.2 esto representados num mapa que relaciona as frequncias das duas primeiras
formantes, que so as mais importantes, as vogais e os ditongos do ingls americano. Como
seria de esperar a localizao das vogais neste mapa esttica enquanto que a dos ditongos
mvel, correspondendo aproximadamente deslocao entre uma vogal inicial e uma final. O
sentido dessa mesma deslocao est assinalado com uma seta.
16
17
Figura 3.2 - Mapeamento da localizao das vogais e dos ditongos do ingls americano tendo em
considerao as primeiras duas formantes que os constituem. [13]
3.1.4 Semivogais
O grupo das semivogais composto pelas lquidas e pelas glides. As lquidas tm
semelhanas espectrais com as vogais, mas so normalmente mais fracas por causa do maior
estrangulamento do tracto vocal durante a sua gerao. As glides so um ncleo silbico
voclico constitudo por uma posio alvo e que tm transies de formantes de e para essa
mesma posio alvo. As glides podem ser portanto vistas como fonemas de transio, pois
permanecem no estado alvo muito menos tempo do que durante a fase de transio.
3.1.5 Plosivas
As consoantes plosivas tm algumas parecenas com as consoantes nasais, pela forma
como so produzidas, pois ambas tm durante a fase inicial a passagem do fluxo de ar pela
boca completamente obstrudas, mas no caso das consoantes plosivas o caminho alternativo
pelo tracto nasal tambm est fechado, pois o palato mole ou vu palatino est encostado
cavidade larngea. Como ambos os trajectos esto tapados, o ar vindo dos pulmes
acumulado junto obstruo, que tanto pode ser nos lbios como na lngua. Na segunda fase
da produo do fonema a presso acumulada libertada, aquando da desobstruo do tracto
vocal. As consoantes plosivas tanto podem ser vozeadas como no-vozeadas dependendo da
vibrao ou no-vibrao das pregas voclicas durante a segunda fase do fonema.
Figura 3.3 Diagrama que mostra a localizao e o grau de obstruo provocado pela lngua para as
diferentes vogais do ingls americano. [13]
18
19
Figura 3.4 Representa para as 12 principais vogais do ingls americano, um esquema da localizao dos
articuladores, na coluna (a), um grfico com a resposta no domnio dos tempos, na coluna (b), e um
grfico com a resposta no domnio das frequncias, na coluna (c). [13]
Os trs principais factores para a alterao das frequncias formantes das vogais so o
comprimento total do tracto vocal e a localizao e grau da obstruo do mesmo. A
localizao dessas frequncias formantes, especialmente das trs primeiras, normalmente
suficiente para identificar as vogais. Quanto maior for o comprimento total do tracto vocal
menor a mdia das frequncias das formantes da vogal em questo. Por essa razo as
crianas tm, em mdia, as frequncias das formantes mais altas do que oradores adultos e
os adultos do sexo masculino terem essas frequncias mais baixas do que de oradores adultos
do sexo feminino. Esta correlao entre o comprimento do tracto vocal e a localizao das
frequncias das formantes e do espaamento entre elas menos notrio para as primeiras
duas formantes, pois estas tm uma dependncia mais forte com o local e o grau da
obstruo ao longo do tracto vocal.
20
21
Figura 3.5 Representa as frequncias mdias e a amplitude mdia relativa das trs primeiras
formantes de 10 das principais vogais do ingls americano. [13]
A Figura 3.6 relaciona as diferentes larguras de banda das primeiras trs formantes das
mesmas 10 vogais mencionadas na Figura 3.5. Estas diferenas podem ser usadas para
distinguir entre as diferentes vogais. Os resultados expostos na Figura 3.6 foram retirados do
estudo realizado por Dunn em 1961 e teve a participao de 20 oradores masculinos que
repetiram cada vogal por duas vezes. A localizao das frequncias das formantes em relao
largura de banda mostrada na parte superior da Figura 3.6. Observando os resultados
verifica-se a tendncia da largura de banda aumentar com o aumento da frequncia central
da formante e que esse comportamento bastante mais acentuado para a terceira formante.
Conclui-se portanto que a comparao entre larguras de banda de diferentes vogais ajuda na
diferenciao entre elas, no tendo no entanto a mesma preciso que a observao da
localizao das trs primeiras formantes.
22
23
Figura 3.6 Representa a largura de banda em relao s frequncias mdias das trs primeiras
formantes de 10 das principais vogais do ingls americano. [13]
Figura 3.7 Representa das quatro semivogais do ingls americano, um esquema da localizao dos
articuladores durante a sua produo, na coluna (a), um grfico com a resposta no domnio dos tempos,
na coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c). [13]
24
25
Figura 3.8 Representa das quatro fricativas no-vozeadas e da consoante aspirada /h/ do ingls
americano, um esquema da localizao dos articuladores durante a sua produo, na coluna (a), um
grfico com a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta no domnio
das frequncias, na coluna (c). [13]
Figura 3.9 Representa das quatro fricativas vozeadas do ingls americano, um esquema da localizao
dos articuladores durante a sua produo, na coluna (a), um grfico com a resposta no domnio dos
tempos, na coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c). [13]
26
27
Figura 3.10 Representa das trs plosivas no-vozeadas e das trs plosivas vozeadas do ingls
americano, um esquema da localizao dos articuladores durante a sua produo, na coluna (a), um
grfico com a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta no domnio
das frequncias, na coluna (c). [13]
Apesar de por vezes at ser possvel distinguir entre uma plosiva no-vozeada e uma
plosiva vozeada, analisando tanto o grfico temporal como o espectral praticamente
impossvel fazer a distino entre plosivas no-vozeadas ou entre plosivas vozeadas, devido
caracterstica explosiva da fase de libertao do ar. Este tipo de excitao (plosiva)
semelhante a uma consoante fricativa, pois tambm neste caso o fluxo de ar ao passar pelo
estreitamento do tracto vocal fica com caractersticas turbulentas, ou seja, semelhantes a
rudo e isto identificvel tanto no grfico temporal como no espectral atravs da
28
29
Figura 3.11 Representa das trs consoantes nasais do ingls americano, um esquema da localizao
dos articuladores durante a sua produo, na coluna (a), um grfico com a resposta no domnio dos
tempos, na coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c). [13]
Figura 3.12 Exemplos de correspondncias entre smbolos grficos e sons na ortografia do portugus
europeu padro. Na primeira coluna esto representados todos os grafemas simples, na segunda coluna
as suas correspondncias fonticas de acordo com o alfabeto Fontico Internacional e na terceira coluna
so indicados alguns exemplos de palavras portuguesas para cada um dos fonemas. Em cada palavra o
fonema que se pretende exemplificar est a escrito a negrito.
30
31
Figura 3.13 Exemplos de correspondncias entre smbolos grficos e sons na ortografia do portugus
europeu padro. Na primeira coluna esto representados as sequncias de grafemas e grafemas
compostos, na segunda coluna as suas correspondncias fonticas de acordo com o alfabeto Fontico
Internacional e na terceira coluna so indicados alguns exemplos de palavras portuguesas para cada um
dos fonemas. Em cada palavra o fonema que se pretende exemplificar est a escrito a negrito.
32
Captulo 4
Mtodos de extraco de caractersticas
do sinal de voz
4.1 Introduo extraco de caractersticas do sinal de voz
Os sinais de fala so sinais no-estacionrios, ou seja, ao longo do tempo a sua forma de
onda est permanentemente a ser alterada. Estas modificaes das propriedades dos sinais
de fala so realizadas pelos diferentes articuladores envolvidos no processo fonatrio. As
ferramentas matemticas utilizadas no processamento de sinais requerem que estes
permaneam
invariantes
no
tempo
para
que
as
suas
caractersticas
possam
ser
33
(4.1)
Figura 4.1 Modelo genrico de tempo discreto da produo de fala. Segundo Rabiner and Schafer
(1978) [13]
1
=1
(4.2)
Ho um ganho geral e pk a localizao complexa dos plos no plano-z. Como j foi referido
este modelo tem limitaes para alguns tipos de fonemas, mas mesmo assim
frequentemente utilizado para modelar todo o tipo de fonemas, pois h vrios mtodos
analticos poderosos que dependem da sua utilizao. Cada par de plos complexos
conjugados localizados no plano-z corresponde aproximadamente a uma formante no
espectro de H(z) e como H(z) um sistema estvel, todos os plos esto localizados no
interior do seu crculo unitrio.
No caso da fala vozeada para algumas aplicaes utilizado para o filtro G(z), que
pretende simular o comportamento da laringe, um modelo s de plos semelhante ao usado
como modelo do tracto vocal. Por vezes usado o modelo com dois plos,
= ,
< < 1,
(4.3)
mas este modelo no consegue reproduzir de forma realista a resposta impulsional observada
em muitas experincias, pois com um modelo s com plos impossvel que a fase de
abertura seja mais lenta do que a fase de fechamento. Por esse motivo um modelo mais
usual
1
2
0,
( )
,
2(
(4.4)
35
= 1 0 1 ,
0 1,
0 < 1,
(4.5)
1
=0 0
(4.6)
(4.7)
enquanto que a produo da fala vozeada recorre a trs filtros lineares e independentes
entre si,
= .
(4.8)
1+ =1
1
=1
(4.9)
(4.10)
1
1 =1 ()
(4.11)
= 0
e como () = 1 , ento
1
()
1 =1 ()
(4.12)
para (4.12) a informao sobre a fase, o que no muito relevante para a percepo do
contedo da fala.
Uma sequncia de fala pode ser vista como
= = 0 ()
(4.13)
(4.14)
1 + 0
(4.15)
=1
36
= 1 2
= 1
[2 ()]
(4.1)
37
Figura 4.2 Forma cannica para um sistema para desconvoluo homomrfica. [16]
(4.2)
(4.3)
A passagem para o soma final conseguida com o recurso a uma funo logartmica, pois
o logaritmo de um produto igual soma dos respectivos logaritmos. A soma pode ento ser
manipulada por um sistema linear. O inverso do sistema caracterstico da desconvoluo
homomrfica utiliza a funo exponencial e depois a transformada-z inversa para passar a
soma para um produto e por fim para uma convoluo.
A um cepstrum construdo com base num processo homomrfico d-se o nome de
cepstrum complexo, que difere do cepstrum ou cepstrum real pois ao utilizar um logaritmo
complexo no descarta as relaes de fase. A maioria das anlises cepstrais no entanto utiliza
um cepstrum real, pois bastante mais simples e a perda da informao sobre a fase no
relevante para muitas aplicaes.
conjunto com o zero introduzido pelo modelo de radiao labial igualmente perto de z=1,
cancelam os dois plos em z=1 da componente de fase mnima do modelo glotal. Em segundo
lugar, porque previne a instabilidade numrica, que pode acontecer com o mtodo da
autocorrelao, mas tambm com o da covarincia [13]. Aps esta filtragem segmenta-se o
sinal completo da fala em frames de 25 ms recorrendo a um janelamento rectangular e um
incremento entre frames de 12,5 ms, ou seja, uma sobreposio de 50%. Para cada frame
utiliza-se o mtodo de Levinson (autocorrelao) para determinar os coeficientes LPC e os
coeficientes PARCOR. Os coeficientes LPC correspondem aos parmetros a(i) que minimizam
o erro, ou seja, que minimizam a diferena entre a sequncia de entrada do filtro (frame do
sinal) e a sequncia de sada do filtro (sequncia predita). Depois calcula-se a ganho de cada
frame e verifica-se se corresponde a um segmento de fala vozeada. Caso corresponda
calcula-se o valor do pitch dessa frame, caso contrrio atribui-se o valor zero a essa frame.
Por fim calcula-se o resduo de cada frame do sinal, que o vector do erro do filtro, ou seja,
a diferena entre a frame de entrada do filtro e a sequncia predita e constri-se o stream. O
stream construdo aplicando uma janela triangular a cada frame do resduo e depois
juntando as frames sucessivas com sobreposio de 50%, eliminando deste modo a
sobreposio tambm de 50% utilizada no incio da anlise aquando da segmentao do sinal
de fala. Depois de analisar todas as frames e do vector stream estar completo procede-se
de-nfase do stream. A de-nfase realiza a filtragem inversa da pr-nfase, de modo a
eliminar os efeitos da mesma e assim retomar a relao de energia entre as diferentes
frequncias aos valores do sinal de fala original.
O programa Matlab synlpc.m, que realiza a sntese LPC, comea por identificar se os
dados de entrada so do tipo stream (um vector contnuo) ou do tipo resduo (uma
matriz). Caso sejam do tipo stream necessrio segmentar o sinal com um janelamento
rectangular e de acordo com os parmetros de entrada, ou seja, frames de 25 ms com
sobreposio de 50%, portanto, incrementos entre frames de 12,5 ms. Depois sintetizam-se as
frames a partir da matriz de coeficientes LPC e da matriz do resduo e cria-se o sinal de fala
completo aplicando uma janela triangular a essas frames e sobrepondo as frames
consecutivas em 50%, eliminando assim a sobreposio usada durante a fase inicial. Por fim,
se os dados de entrado foram do tipo resduo, utiliza-se a de-nfase na sequncia
sintetizada final. Como a sntese do sinal de fala original obtida tambm com o recurso ao
resduo resultante da anlise LPC, ou seja, com o recurso matriz dos erros de predio, o
sinal resultante da sntese LPC uma rplica exacta do sinal de fala original.
38
39
41
A ressntese do sinal udio a partir da matriz cepstra aps a anlise MFCC feita pelo
programa Matlab invmelfcc.m [17]. Os argumentos da funo invmelfcc so a matriz do
cepstrum e os argumentos utilizados durante a anlise mfcc com os mesmos valores, para que
o resultado final da ressntese seja o mais prximo possvel do ficheiro udio original.
Inicialmente inverte-se o liftering e depois converte-se o cepstrum em espectro,
multiplicando o cepstrum com a IDCT (transformada discreta de cosseno inversa) e usando o
resultado como argumento da funo exponencial. A fase seguinte consiste em tentar
eliminar os efeitos da realizao da anlise de banda crtica, para tal multiplica-se o
resultado com o inverso da matriz de pesos, invertendo assim o mapeamento para a escala
Mel. Os valores desta matriz so utilizados para modelar um espectrograma de rudo branco.
Cada frame do espectrograma convertida numa poro da onda do sinal udio usando uma
IFFT e depois acrescentada ao vector final sobrepondo os segmentos. Por fim realiza-se a
de-nfase do sinal ressintetizado.
das bandas crticas, a segunda uma curva de igualizao de sonoridade e a terceira a lei
da potncia intensidade-sonoridade. O espectro auditivo depois aproximado por um modelo
autorregressivo s com plos. [4]
A anlise PLP proposta por Hermansky consiste em segmentar o sinal de fala usando um
janelamento de Hamming, com janelas de aproximadamente 20ms. A transio para o
domnio das frequncias feita usando a transformada discreta de Fourier, normalmente a
FFT de 256 pontos para uma frequncia de amostragem de 10kHz. O espectro de potncia de
termo curto obtido somando o quadrado das componentes real e imaginria do espectro de
sinal de termo curto.
2
= ()
+ ()
(4.4)
+[
1200
1200
= 6
+ 1]0.5
(4.5)
102.5
10
< 1.3,
1.3 0.5,
0.5 0.5,
0.5 2.5,
> 2.5.
+0.5
1.0 0.5
(4.6)
( 2 + 0,38 109 )]
(4.7)
resultando no sinal
() = [()]
(4.8)
Por fim utiliza-se uma compresso de raiz cbica para simular a relao no-linear entre
a intensidade de um determinado som e a percepo da sonoridade do mesmo pelo ouvido
humano.
=
(4.9)
42
43
A ressntese do sinal udio a partir da matriz cepstra aps a anlise PLP feita pelo
programa Matlab invmelfcc.m [17]. Os argumentos da funo invmelfcc so a matriz do
cepstrum e os argumentos utilizados durante a anlise plp com os mesmos valores, para que o
resultado final da ressntese seja o mais prximo possvel do ficheiro udio original.
Inicialmente inverte-se o liftering e depois converte-se o cepstrum em espectro,
44
45
Referncias
[1] Guimares, I. A Cincia e a Arte da Voz Humana, ESSA Escola Superior de Sade do
Alcoito, 2007
[2] Teixeira, J. P. Modelizao Paramtrica de Sinais para Aplicao em Sistemas de
Converso Texto-Fala, 1995
[3] Apontamentos da disciplina processamento da fala do mestrado integrado em engenharia
electrotcnica e de computadores ano lectivo 2008/2009
[4] Hermansky, H. Perceptual Linear Predictive (PLP) Analysis of Speech, J. Acoust. Soc.
Am., Abril 1990
[5] Florian Hnig, Georg Stemmer, Christian Hacker, Fabio Brugnara, Revising Perceptual
Linear Prediction (PLP)
[6] Help do Matlab 2008a
[7] Malcolm
Slaney
Auditory
Toolbox
version
http://cobweb.ecn.purdue.edu/~malcolm/interval/1998-010/.
2.
Disponvel
em
Acesso
em
02/Fevereiro/2009
[8] Melvyn J. Hunt, Spectral Signal Processing for ASR
[9] Joo Canas Ferreira, Joo Correia Lopes Jos Machado da Silva, Norma de Formatao e
Orientaes para a Escrita de Dissertaes ou Relatrios de Projecto do MIEEC, Maio de
2008
[10]Andreas Spanias, Ted Painter, Venkatraman Atti, Audio Signal Processing and Coding,
John Wiley & Sons, Inc., Hoboken, New Jersey, 2007Sdfsd
[11]Anbal Ferreira, Carlos Salema, Fernando Pereira, Isabel Trancoso, Paulo Lobato Correia,
Pedro Assuno, Srgio Faria, Comunicaes Audiovisuais: Tecnologias, Normas e
Aplicaes, IST Press, Julho de 2009
[12] Maria Helena Mira Mateus, Isabel Fal, Maria Joo Freitas, Fontica e Fonologia do
Portugus Lisboa. Universidade Aberta, 2005
[13]John R. Deller Jr., John H. L. Hansen, John G. Proakis, Discrete-Time Processing of
Speech Signals, New York: IEEE, 2000
[14]Arthur C. Guyton, John E. Hall, Textbook of Medical Physiology, Eleventh Edition,
Elsevier Saunders
[15]http://www.l2f.inesc-id.pt/~lco/ptsam/ptsam.pdf. Acesso em 02/Fevereiro/2009
46