Descaracterização Da Assinatura Vocal

Faculdade de Engenharia da Universidade do Porto
Descaracterizao da Assinatura Vocal

Brtolo de Melo Feiteira Maia
VERSO PROVISRIA
Dissertao realizada no mbito do

Mestrado Integrado em Engenharia Electrotcnica e de Computadores
Major Telecomunicaes
Orientador: Prof. Dr. Anbal Joo de Sousa Ferreira
Setembro de 2009
Brtolo Maia, 2009
ii
ndice
ndice............................................................................................... iii
Lista de figuras ................................................................................... vi
Lista de tabelas ................................................................................... x
Captulo 1 ............................................................................................ 1
Introduo ......................................................................................................... 1
Captulo 2 ............................................................................................ 3
Processo fonatrio ............................................................................................... 3
2.1 Aparelho fontico .................................................................................... 3
2.2 Tipos de excitao dos sinais de fala ............................................................. 5
2.3 Aparelho auditivo .................................................................................... 7
2.3.1 Anatomia do ouvido ................................................................................. 7
2.3.2 Efeito de mscara ou mascaramento ............................................................. 8
Captulo 3 ...........................................................................................12
Critrios utilizados na classificao fontica ............................................................. 12
3.1 Tipos de fonemas .................................................................................. 13
3.1.1 Vogais ................................................................................................ 15
3.1.2 Consoantes .......................................................................................... 15
3.1.3 Ditongos ............................................................................................. 16
3.1.4 Semivogais........................................................................................... 17
3.1.5 Plosivas .............................................................................................. 17
3.2 - Formantes tpicas dos fonemas .................................................................. 18
3.2.1 Formantes das vogais .............................................................................. 18
3.2.2 Formantes das semivogais ........................................................................ 23
3.2.3 Formantes das fricativas no-vozeadas ........................................................ 24
3.2.4 Formantes das fricativas vozeadas .............................................................. 25
iii
3.2.5 Formantes das plosivas ........................................................................... 26

3.2.6 Formantes das nasais .............................................................................. 28
3.3 Fonemas do portugus europeu ................................................................. 29
Captulo 4 ........................................................................................... 32
Mtodos de extraco de caractersticas do sinal de voz .............................................. 32
4.1 Introduo extraco de caractersticas do sinal de voz ................................. 32
4.2 Mtodo LPC ......................................................................................... 33
4.2.1 Mtodo LPC utilizado nas experincias ........................................................ 37
4.3 Mtodo MFCC ....................................................................................... 39
4.3.1 Mtodo MFCC utilizado nas experincias ...................................................... 40
4.4 Mtodo PLP.......................................................................................... 41
4.4.1 Mtodo PLP utilizado nas experincias ........................................................ 43
Referncias ....................................................................................... 45
iv
Lista de figuras
Figura 2.1 Seco sagital mdia do aparelho vocal. [3] .............................................. 4

Figura 2.2 - Seces da laringe. [3]........................................................................ 5
Figura 2.3 - Representao de um ciclo vibratrio das pregas vocais. [3].......................... 6
Figura 2.4 - Representao do ouvido humano. [14] ................................................... 7
Figura 2.5 - Representao do interior da cclea. [14] ................................................ 8
Figura 2.6 Grfico Intensidade-Frequncia sobreposto com diversas curvas de idntica
sonoridade. Adaptado de [3] .......................................................................... 9
Figura 2.7 Correspondncia entre as escalas de frequncias Hertz e Bark ( esquerda) e
largura de banda da escala Bark ( direita). [11] ............................................... 10
Figura 2.8 Modelo da curva de mascaramento na escala Bark. Ilustra-se a utilizao
desta curva para calcular o limiar de mascaramento frequncia zB, devido a um
tom puro mascarante frequncia zC. [11] ...................................................... 11
Figura 3.1 - Classificao de fonemas ingleses ARPAbet. [13] .................................... 15
Figura 3.2 - Mapeamento da localizao das vogais e dos ditongos do ingls americano
tendo em considerao as primeiras duas formantes que os constituem. [13] ............ 17
Figura 3.3 Diagrama que mostra a localizao e o grau de obstruo provocado pela
lngua para as diferentes vogais do ingls americano. [13] ................................... 18
Figura 3.4 Representa para as 12 principais vogais do ingls americano, um esquema da
localizao dos articuladores, na coluna (a), um grfico com a resposta no domnio
dos tempos, na coluna (b), e um grfico com a resposta no domnio das frequncias,
na coluna (c). [13] .................................................................................... 19
Figura 3.5 Representa as frequncias mdias e a amplitude mdia relativa das trs
primeiras formantes de 10 das principais vogais do ingls americano. [13] ................ 22
Figura 3.6 Representa a largura de banda em relao s frequncias mdias das trs
primeiras formantes de 10 das principais vogais do ingls americano. [13] ................ 23
Figura 3.7 Representa das quatro semivogais do ingls americano, um esquema da
localizao dos articuladores durante a sua produo, na coluna (a), um grfico com
a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta no
domnio das frequncias, na coluna (c). [13] .................................................... 24
vi
Figura 3.8 Representa das quatro fricativas no-vozeadas e da consoante aspirada /h/
do ingls americano, um esquema da localizao dos articuladores durante a sua
produo, na coluna (a), um grfico com a resposta no domnio dos tempos, na
coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c).
[13] ...................................................................................................... 25
Figura 3.9 Representa das quatro fricativas vozeadas do ingls americano, um esquema
da localizao dos articuladores durante a sua produo, na coluna (a), um grfico
com a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta
no domnio das frequncias, na coluna (c). [13] ................................................ 26
Figura 3.10 Representa das trs plosivas no-vozeadas e das trs plosivas vozeadas do
ingls americano, um esquema da localizao dos articuladores durante a sua
produo, na coluna (a), um grfico com a resposta no domnio dos tempos, na
coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c).
[13] ...................................................................................................... 27
Figura 3.11 Representa das trs consoantes nasais do ingls americano, um esquema da
localizao dos articuladores durante a sua produo, na coluna (a), um grfico com
a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta no
domnio das frequncias, na coluna (c). [13] .................................................... 29
Figura 3.12 Exemplos de correspondncias entre smbolos grficos e sons na ortografia
do portugus europeu padro. Na primeira coluna esto representados todos os
grafemas simples, na segunda coluna as suas correspondncias fonticas de acordo
com o alfabeto Fontico Internacional e na terceira coluna so indicados alguns
exemplos de palavras portuguesas para cada um dos fonemas. Em cada palavra o
fonema que se pretende exemplificar est a escrito a negrito. .............................. 30
Figura 3.13 Exemplos de correspondncias entre smbolos grficos e sons na ortografia
do portugus europeu padro. Na primeira coluna esto representados as sequncias
de grafemas e grafemas compostos, na segunda coluna as suas correspondncias
fonticas de acordo com o alfabeto Fontico Internacional e na terceira coluna so
indicados alguns exemplos de palavras portuguesas para cada um dos fonemas. Em
cada palavra o fonema que se pretende exemplificar est a escrito a negrito. ........... 31
Figura 4.1 Modelo genrico de tempo discreto da produo de fala. Segundo Rabiner and
Schafer (1978) [13] .................................................................................... 34
Figura 4.2 Forma cannica para um sistema para desconvoluo homomrfica. [16] ......... 37
Figura 4.3 Diagrama de blocos da anlise LPC. ....................................................... 38
Figura 4.4 Diagrama de blocos da sntese LPC. ....................................................... 39
Figura 4.5 A escala mel. Segundo Stevens e Volkman (1940). [13] ............................... 40
Figura 4.6 Diagrama de blocos da anlise MFCC. ..................................................... 41
Figura 4.7 Diagrama de blocos da sntese MFCC. ..................................................... 41
Figura 4.8 Diagrama de blocos da anlise PLP. ....................................................... 43
Figura 4.9 Diagrama de blocos da sntese PLP. ....................................................... 44
vii
viii
ix
Lista de tabelas
Tabela 3.1 - Alfabeto fontico ARPAbet. [3] ........................................................... 13
xi
Abreviaturas e Smbolos
Lista de abreviaturas
DCT
Discrete Cosine Transform
DFT
Discrete Fourier Transform
FEUP
Faculdade de Engenharia da Universidade do Porto
FFT
Fast Fourier Transform
IDCT
Ineverse Discrete Cosine Transform
IDFT
Inverse Discrete Fourier Transform
IFFT
Inverse Fast Fourier Transform
LP
Linear Prediction
LPC
Linear Predictive Coding
MFC
Mel Frequency Cepstral
MFCC
Mel Frequency Cepstral Coefficients
ODFT
Odd Discrete Fourier Transform
PLP
Perceptual Linear Prediction
Lista de smbolos
xii
ak
Coeficiente LPC
Hz
Herz
ms
milissegundo
dB
deciBel
log
logaritmo
rad/s
radianos por segundo
xiii
Captulo 1
Introduo
A descaracterizao da assinatura vocal consiste na extraco das caractersticas do sinal
de voz que contm informao sobre a identidade do orador. A assinatura vocal tem uma
enorme importncia para um vasto leque de aplicaes. Sistemas de identificao do
utilizador baseados na assinatura vocal podem ser implementados em simultneo com os
actuais sistemas de leituras biomtricas, como a leitura da ris ou de impresses digitais, para
garantir um aumento extra da segurana, ou mesmo ser implementados isoladamente, dado
que a sua utilizao mais prtica do que os sistemas de leituras biomtricas. Sabendo
identificar claramente as caractersticas do sinal de voz que identificam o orador e aquelas
responsveis pela compreenso do contedo lingustico possvel tambm melhorar os
actuais sistemas de leitura automtica de texto, de escrita automtica de fala e os sistemas
de distoro de voz, utilizados para ocultar a identidade de um orador sem que a percepo
do contedo do seu discurso seja alterada.
Para proceder descaracterizao da assinatura vocal necessrio conhecer
detalhadamente o processo fonatrio, bem como perceber o funcionamento e as
particularidades dos mtodos de extraco de caractersticas da fala humana.
Erro! A origem da referncia no foi encontrada.

2 Introduo
Captulo 2
Processo fonatrio
A fala a mais importante forma de comunicao entre humanos. A produo da fala tem
por base o desejo do orador em transmitir uma mensagem a um ou vrios ouvintes. Para que
tal acontea uma srie de processos neurolgicos e musculares so desencadeados para
produzir a onda sonora que transmite a mensagem. Do lado do ouvinte a onda sonora
captada e transformada pelo sistema auditivo em sinais neurolgicos que so enviados para o
crebro para que a mensagem possa ser interpretada.
Para que possa haver comunicao entre o orador e o ouvinte, o primeiro tem que
converter as suas ideias para uma lngua que ambos percebam, utilizando palavras e
formando frases, que respeitem as regras gramaticais da lngua escolhida. O orador pode
tambm utilizar entoao ou acentuar palavras para enfatizar determinados segmentos da
mensagem.
2.1
Aparelho fontico
Este captulo centra-se no processo fonatrio. Na grande maioria das lnguas existentes a
produo do sinal de fala inicia-se com o diafragma a comprimir os pulmes, obrigando os
alvolos pulmonares e brnquios a expelirem ar atravs da traqueia, que faz a interligao
entre o pulmo esquerdo e o direito, para a laringe. O fluxo de ar passa depois pela cavidade
farngea para a cavidade bucal e/ou nasal, acabando por sair pela boca e/ou narinas.
Do ponto de vista da engenharia a produo da fala vista como uma operao de
filtragem acstica. O filtro principal usado nesse sistema acstico constitudo pelo tracto
vocal (cavidade larngea e cavidade bucal) e pelo tracto nasal (cavidade nasal). O filtro
acstico normalmente excitado pelos rgos localizados abaixo dessas cavidades e tem por
carga uma impedncia de radiao devido aos lbios. A separao entre o tracto vocal e o
nasal feita pelo palato, que constitudo pelo palato duro na parte anterior e pelo palato
mole ou vu palatino na parte posterior. O palato mole termina na vula. O comprimento
mdio do tracto vocal num homem adulto cerca de 17 cm, enquanto que numa mulher
adulta cerca de 14 cm e numa criana cerca de 10 cm. Ao longo do tracto vocal a seco do
mesmo pode variar entre 20 cm2 e 0 cm2. Esta variao da seco do tracto vocal
3

4 Processo fonatrio
conseguida devido mobilidade das pregas vocais, do palato mole ou vu palatino, da lngua,
da mandbula e dentes e dos lbios, que com alteraes das suas posies conseguem alterar
as dimenses do tracto vocal e assim alterar as propriedades acsticas do som emitido. O
tracto nasal tem cerca de 12 cm num homem adulto e a ligao ao tracto vocal feita por
uma abertura controlada pelo palato mole. Quando o vu palatino est para baixo h ligao
entre o tracto vocal e o nasal e a ligao entre ambos pode atingir os 5 cm 2 num homem
adulto. Quando est levantado e encostado cavidade farngea a ligao fica completamente
fechada e o fluxo de ar atravessa apenas o trato vocal. O facto dos dois tractos estarem
isolados crucial para o som que libertado, no s porque o fluxo de ar deixa de passar
pelo tracto nasal, mas tambm porque altera significativamente as propriedades do som
radiado pelos lbios.
Figura 2.1 Seco sagital mdia do aparelho vocal. [3]
2.2
Tipos de excitao dos sinais de fala
O tipo de excitao uma das mais importantes caractersticas sonoras dos sinais de fala.
Existem seis tipos de excitao: vozeado, no vozeado, misto, plosivo, sussurro e silncio,
sendo que as duas primeiras so as mais relevantes.
O vozeamento dos sinais de fala acontece quando o fluxo de ar vindo dos pulmes passa
pela laringe e as pregas vocais interrompem esse fluxo de uma forma quase peridica,
excitando assim o tracto vocal.
Na parte interior da laringe encontram-se as pregas vocais (ou cordas vocais), que so
constitudas por ligamentos e msculos e ao espao entre as duas pregas vocais (esquerda e
direita) d-se o nome de glote.
Figura 2.2 - Seces da laringe. [3]
As pregas vocais so responsveis pelo vozeamento dos sinais de fala, ao abrir e fechar
rapidamente a passagem do ar vindo dos pulmes. A juno das pregas vocais cria presso do
ar subglotal que vai aumentando at vencer a resistncia das pregas vocais que se comeam a
separar uma da outra. Quando as pregas vocais se afastam, o fluxo de ar passa pela glote, o
que origina um decrscimo da presso de ar subglotal. A glote continua a abrir-se at atingir
o seu mximo, quando a tenso natural das pregas vocais igual fora de separao
causada pela presso de ar e a partir desse momento a glote comea-se a fechar. A fora
elstica das pregas vocais aumenta a velocidade de fecho da glote e quando a glote est
suficientemente fechada verifica-se um efeito de suco causado pela fora de Bernoulli, que
fecha a glote de forma abrupta. A presso do ar subglotal volta a aumentar e o ciclo repetese.

6 Processo fonatrio
Figura 2.3 - Representao de um ciclo vibratrio das pregas vocais. [3]
Ao tempo entre duas sucessivas aberturas da glote chama-se perodo fundamental (To) e
frequncia a que decorrem essas aberturas d-se o nome de frequncia fundamental Fo =
1/To. Habitualmente a frequncia fundamental de homens adultos est compreendida entre
os 50 e os 250 Hz e a de mulheres adultas entre 120 e 350 Hz. A frequncia fundamental varia
consoante o comprimento, largura e a tenso das pregas vocais, a poro membranosa das
mesmas, a cartilagem tiroideia e a largura da cavidade larngea, o que origina que a
frequncia tpica de uma pessoa varia tambm com a idade do indivduo.
Durante a produo dos sinais de fala no vozeados as pregas vocais no vibram. Estes
sinais no vozeados so gerados posicionando os diferentes articuladores nas posies
desejadas e forando o fluxo de ar vindo dos pulmes a atravessar o tracto vocal, provocando
desse modo turbulncia. As diferenas entre os diferentes sons no vozeados dependem do
tipo de obstruo no tracto vocal. Essas obstrues variam consoante o posicionamento dos
diferentes articuladores, que alterando os tamanhos e as localizaes das mesmas, modificam
as caractersticas frequenciais dos sinais de fala.
Aos sinais de fala que tm simultaneamente caractersticas de sinais vozeados e de sinais
no vozeados chamam-se sinais de fala mistos.
Aos sons constitudos por uma primeira fase de silncio seguido por uma fase vozeada,
no vozeada ou mista d-se o nome de sons plosivos. Estes sinais de fala so gerados
fechando completamente os lbios durante a fase de silncio, retendo desse modo o fluxo de
ar vindo dos pulmes e aumentando a presso do ar junto dos lbios. O fluxo de ar libertado
abruptamente durante a segunda fase dos sinais plosivos, formando a fase vozeada, no
vozeada ou mista.
A frequncia fundamental dos sinais vozeados apresenta uma fase transitria quando
precedidos por segmentos no vozeados ou de silncio, pois devido inrcia das pregas vocais
a frequncia fundamental no atingida instantaneamente.
s frequncias favorecidas pelos tractos nasal e vocal d-se o nome de frequncias
formantes, ou simplesmente formantes. Por vezes a passagem de algumas frequncias
desfavorecida, especialmente pela cavidade nasal, criando-se anti-ressonncias, tambm
conhecidas por anti-formantes. Certos fonemas, como ser demonstrado mais abaixo,
6
possuem formantes e/ou anti-formantes caractersticas que os diferenciam de todos os outros

fonemas e que so de grande importncia na anlise de sinais de fala.
2.3
Aparelho auditivo
2.3.1 Anatomia do ouvido

O ouvido humano est dividido em trs sub-regies o ouvido externo (orelha e canal
auditivo), o ouvido mdio (tmpano e os ossculos martelo, bigorna e estribo) e o ouvido
interno (cclea e nervos auditivos).
Figura 2.4 - Representao do ouvido humano. [14]
A onda sonora captada pela orelha e transmitida pelo canal auditivo at ao tmpano,
pondo-o em oscilao. O tmpano transmite a energia mecnica atravs de trs ossculos
(martelo, bigorna e estribo) a uma membrana, designada de janela oval que comunica as
oscilaes a um meio aquoso. A relao de impedncias entre os dois meios obtida atravs
do efeito de alavanca proporcionado pelos ossculos e a relao de reas entre o tmpano e a
janela oval. Os ossculos tambm protegem o ouvido, pois na presena de intensidades
sonoros demasiado elevadas os pequenos msculos que controlam os ossculos conseguem
reduzir o ganho de transmisso da energia acstica. [11] A cclea uma estrutura rgida
(ssea) em forma de caracol e possui trs canais paralelos e enrolados, chamados rampa
vestibular, ducto coclear e rampa timpnica. Estes canais esto preenchidos com lquido e
separados entre si por membranas elsticas. A rampa vestibular comea na janela oval e tem
ligao com a rampa timpnica no outro extremo da cclea. O outro extremo da rampa
timpnica uma membrana, a janela redonda, que a separa do ouvido mdio. na cclea

8 Processo fonatrio
que a energia mecnica convertida nos impulsos nervosos que so posteriormente enviados
para o crebro. Essa converso realizada por milhares de clulas ciliadas distribudas ao
longo de uma membrana flexvel, a membrana basilar, que separa a rampa timpnica do
ducto coclear. A membrana basilar tem cerca de 35mm de comprimento e a sua rigidez e
grossura variam ao longo do seu comprimento, sendo a extremidade junto janela oval a
mais fina e a mais rgida e a extremidade oposta mais grossa e flexvel. As diferenas das
propriedades mecnicas ao longo da membrana basilar fazem com que a zona estimulada
esteja dependente da frequncia do som recebido. A membrana basilar efectua, portanto,
uma anlise espectral onda sonora captada. As variaes de presso criadas por um sinal
sonoro e comunicadas ao interior da cclea atravs da janela oval, escapam-se para janela
redonda escolhendo o ponto da membrana basilar de menor impedncia (Fig. 2.5). As clulas
ciliadas presentes na zona da membrana basilar mais estimulada geram os impulsos nervosos
a uma cadncia superior e esses impulsos so depois transmitidos atravs do nervo auditivo
ao crebro.
Figura 2.5 - Representao do interior da cclea. [14]
2.3.2 Efeito de mscara ou mascaramento

As caractersticas principais para a percepo de um som so a sua frequncia e
intensidade. A intensidade sonora mede-se habitualmente em dB SPL (deciBel Sound Presure
Level), que corresponde ao logaritmo da relao entre a presso acstica e o valor de
referncia 20Pa (ou 1012 W/m2).
= 20 log 0
(2.1)
onde LSPL a intensidade o SPL de um estimulo, p a presso acstica do estimulo em Pascals

e p0 o nvel de referncia standard (20Pa).
intensidade sonora mnima de um som a uma determinada frequncia para que seja
perceptvel ao ouvido de um humano d-se o nome de limiar absoluto de audio. Sons com
intensidades superiores do limiar de dor provocam sofrimento ao ouvinte e podem causar
perdas auditivas permanentes.
Na Figura 2.6 esto representadas vrias curvas de idntica sonoridade ou equal-loudness
contours, bem como as curvas representativas do limiar de audibilidade e limiar de dor. As
curvas de idntica sonoridade so obtidas ajustando a intensidade sonora de um sinal com
8
uma determinada frequncia, at que, perceptivamente, este possua a mesma intensidade

de um tom puro (i.e., um sinal de uma s frequncia, ou frequncia pura) de 1000Hz,
regulado para uma dada presso acstica em dB SPL. [11]
O limiar absoluto de audio caracteriza a quantidade de energia necessria num tom
para que possa ser detectado por um ouvinte num ambiente silencioso [10] e um caso
especial de uma curva de idntica sonoridade. O limiar de audibilidade pode ser aproximado
pela equao (2.2).
= 3.64
1000
0.8
6.5 0.6
3.3
1000
+ 103
1000
( )
(2.2)
A sonoridade ou loudness tem como unidade de medio o Phon.

Observando a Figura 2.6 possvel retirar algumas concluses a propsito da sensibilidade
auditiva humana. O ouvido humano mais apurado para frequncias entre os 2 e os 5 kHz
(regio preta). Para frequncias inferiores a 100 Hz e superiores a 10 kHz, o ouvido humano
perde rapidamente sensibilidade, sendo naturalmente surdo a sinais de frequncia inferior a
20 Hz (infra-sons) e a sinais de frequncia superior a 20 kHz (ultra-sons). [11] A regio
cinzento-claro assinala a regio que o ouvido humana perde significativamente
sensibilidade a frequncias inferiores a 100 Hz. Por fim, a regio cinzento-escuro indica a
gama de frequncias e intensidades da fala.
Figura 2.6 Grfico Intensidade-Frequncia sobreposto com diversas curvas de idntica sonoridade.
Adaptado de [3]
O efeito de mscara ou mascaramento consiste na influncia que uma dada componente

de som (mascarante) exerce na audibilidade de uma outra componente de som (mascarada)
na vizinhana da primeira. O mascaramento depende da intensidade, da frequncia e do local
e tempo da ocorrncia das duas componentes de som. O mascaramento pode ser parcial,
quando o som mascarante reduz a audibilidade do som mascarado ou total, quando
impossvel ouvir o som mascarado. [11]

10 Processo fonatrio
O termo banda crtica est ligado a um estudo, realizado por Harvey Fletcher em 1940,
sobre a capacidade de uma banda estreita de rudo mascarar um tom puro. O tom puro
posto no limiar do mascaramento total. Qualquer pequeno aumento da intensidade do tom
puro faz com que ele passe a ser audvel e para que este volte a estar completamente
mascarado necessrio que a largura de banda do rudo seja aumentada. Mas a partir de uma
determinado valor impossvel compensar o aumento da intensidade do tom puro com um
aumento da largura da banda do rudo. Para essa largura de banda em que o tom puro ainda
se encontra totalmente mascarado d-se o nome de banda crtica.
A largura das bandas crticas depende da frequncia. A largura de banda das bandas
crticas de aproximadamente 100 Hz at aos 500 Hz, crescendo a partir dessa frequncia
para cerca de 20 por cento da frequncia central. [11] Devido sua importncia criou-se uma
nova escala de frequncias para representar o espectro audvel para os humanos, em que
cada unidade representa uma banda crtica e tem como unidade de medio o Bark. A gama
de frequncias audveis (at aos 20 kHz) composta por cerca de 25 Bark (Fig. 2.7).
Figura 2.7 Correspondncia entre as escalas de frequncias Hertz e Bark ( esquerda) e largura de
banda da escala Bark ( direita). [11]
A forma das curvas de mascaramento depende de diversos factores, incluindo a

intensidade e frequncia, apesar disso na escala Bark a forma da curva pode ser aproximada
pelo modelo apresentado na Figura 2.8.
10
11
Figura 2.8 Modelo da curva de mascaramento na escala Bark. Ilustra-se a utilizao desta curva
para calcular o limiar de mascaramento frequncia zB, devido a um tom puro mascarante
frequncia zC. [11]
A equao (2.3) relaciona o valor z, em Bark, com a frequncia f em Hz.

= 13 arctan
76
10 5
+ 3.5
7500
(2.3)
Na Figura 2.8 est representado o limiar de mascaramento devido a um tom puro de

intensidade S dB e frequncia zC Bark. A curva de mascaramento a proposta por
Schroeder, Atal e Hall
= 15.81 + 7.5(z + 0.474) 17.5 1 + (z + 0.474)2
(2.4)
Como possvel observar o efeito de mscara devido ao tom puro assimtrico,

influenciando mais as frequncias superiores sua.
Apesar da maioria dos estudos se debruar sobre os efeitos de mascaramento dentro da
mesma banda crtica, os efeitos do mesmo fazem-se sentir a frequncias fora dessa banda
crtica.
O efeito de mscara ou mascaramento pode ser classificado quanto relao temporal da
ocorrncia das componentes do som. Este pode ser simultneo, quando as componentes
mascarante
mascarada
coexistem
temporalmente,
pr-mascaramento,
quando
componente mascarada ocorre antes da componente mascarante ou ps-mascaramento,

quando a componente mascarada ocorre depois da componente mascarante.
O efeito de mascaramento mximo quando o sinal mascarante e mascarado coincidem
temporalmente (mascaramento simultneo) e o seu efeito decresce rapidamente com o
aumento do intervalo temporal entre os dois acontecimentos. Apesar da intensidade do efeito
de mscara variar muito com a natureza dos sinais mascarante e mascarado diversos estudos
realizados indicam que os efeitos do ps-mascaramento so mais prolongados que os do prmascaramento.
12
Captulo 3
Critrios utilizados na classificao
fontica
A forma da onda dos sinais de fala reais varia com o tempo, ou seja, os sinais de fala so
no-estacionrios. Devido s rpidas alteraes das propriedades acsticas e espectrais
destes sinais num curto espao de tempo necessrio subdividir estes sinais de fala em
segmentos de curta durao que tenham caractersticas semelhantes para que estas possam
ser eficazmente analisadas.
Na lingustica os fonemas so a unidade elementar da fala e as suas caractersticas
acsticas e espectrais diferem de lngua para lngua. Um fone o som efectivamente
produzido na realizao de um fonema. Essa realizao difere consoante diversos factores,
como por exemplo, sexo, idade e regio de um indivduo. Assim, associado a cada fonema
est um conjunto de fones com ligeiras variaes acsticas, sendo que a essa coleco de
fones se d o nome de alofones. A maioria das palavras composta por mais do que um
fonema e cada fonema difere dos restantes na durao, no tipo de excitao e no
posicionamento dos diferentes articuladores durante a sua produo. A transio na mesma
palavra de um fonema para o outro feita de forma contnua, o que implica que a transio
entre fonemas das propriedades acsticas e espectrais tambm varia continuamente. As fases
de transio entre fonemas acontecem, porque ao transitar de um fonema para outro
necessrio rearranjar o posicionamento dos articuladores de modo a alterar o formato do
tracto vocal para produzir o novo fonema e como esses reajustamentos so feitos por
msculos impossvel realiz-los instantaneamente. Por este motivo o mesmo fonema
inserido em duas palavras distintas pode no ter exactamente nem a mesma durao, nem as
mesmas caractersticas sonoras e espectrais, pois essas mesmas caractersticas esto
dependentes do fonema anterior e do fonema posterior. Nos sinais de fala reais, quando se
fala depressa e os fones so de muito curta durao, por vezes d-se o caso, do
posicionamento final normal dos articuladores ao produzir um determinado fonema no
chegar a ser atingido, pois a fase de transio desse fonema com o fonema anterior e com o
fonema seguinte esto parcialmente sobrepostas. Aps a fase de transio as diferenas entre
fonemas iguais de palavras distintas produzidos por o mesmo indivduo em circunstncias
parecidas so normalmente reduzidas.
12
13
3.1
Tipos de fonemas
As letras do alfabeto no so a melhor forma de representar um fonema, pois

normalmente no existe uma correspondncia directa entre uma letra e as caractersticas
acsticas da mesma quando est inserida numa determinada palavra. Para que no houvesse
ambiguidades quanto sonoridade das palavras foram criados diferentes alfabetos
fonticos, estes alfabetos consistem em associar um smbolo diferente a cada fonema
utilizado na produo da fala. O primeiro alfabeto fontico foi criado em 1888 na Europa e
recebeu o nome de International Phonetic Alphabet (IPA). A verso completa do alfabeto IPA
contm os fonemas de todas as lnguas faladas no mundo. O alfabeto IPA no pode ser escrito
numa mquina de escrever ou computador e por esse motivo ao longo dos anos foram
surgindo novos alfabetos fonticos que no tivessem essas limitaes. Entre esses est o
alfabeto fontico ARPAbet desenvolvido pela United States Advanced Research Projects
Agency (ARPA). Existem duas verses do ARPAbet, mas neste texto apenas foi usada a verso
que utiliza um s smbolo na representao de cada fonema. Como parte desses smbolos
usados no ARPA so tambm letras do alfabeto quando estas representarem um fonema sero
delimitadas com o smbolo /, deste modo evita-se que haja confuso entre a palavra e e
o fonema /e/. As duas verses existentes do alfabeto fontico ARPA podem ser consultadas
na Tabela 3.1. O nmero de fonemas usados numa determinada lngua depende do alfabeto
fontico utilizado, mas tanto a lngua inglesa como a portuguesa so normalmente
representadas por cerca de 40 fonemas.
Tabela 3.1 - Alfabeto fontico ARPAbet. [3]
ARPAbet
IPA
Exemplo
ARPAbet
IPA
Exemplo

14 Critrios utilizados na classificao fontica
Existem diversas formas de classificar fonemas. Esses critrios podem-se agrupar em duas
grandes categorias, os que utilizam caractersticas acsticas e os que usam caractersticas
articulatrias para analisar os fonemas. Os critrios que analisam os fonemas quanto ao tipo
de excitao, modo de articulao, ponto de articulao e estacionaridade do sinal de fala
so critrios articulatrios. Este ltimo simultaneamente um critrio acstico. Os outros
critrios acsticos focam a sua anlise dos sinais de fala nas suas caractersticas no domnio
dos tempos ou nas suas caractersticas no domnio das frequncias.
Na Figura 3.1 possvel ver uma classificao em forma de rvore de todos os fonemas
representados no ARPAbet do ingls americano. A primeira separao da rvore consiste na
utilizao do critrio da estacionaridade do fonema. No grupo dos fonemas no-contnuos
esto os fonemas que para serem gerados necessitam que os articuladores modifiquem a
configurao do tracto vocal de forma significativa, pois para a sua produo contribuem
mais do que um estado sonoro, enquanto que os restantes fonemas so produzidos com os
articuladores numa posio esttica ou com movimentaes muito ligeiras durante a
passagem do fluxo de ar. Os fonemas no-contnuos diferem dos fonemas contnuos, pois para
serem produzidos obrigatrio movimentar um ou vrios articuladores para seja possvel
proceder s alteraes necessrias na configurao do tracto vocal. Estes fonemas so
habitualmente mais difceis de caracterizar e modelar do que os fonemas contnuos devido s
transies que apresentam ao longo do seu tempo de produo. O subgrupo dos fonemas
contnuos posteriormente novamente dividido em dois grandes grupos: o grupo das vogais e
o grupo das consoantes.
14
15
Figura 3.1 - Classificao de fonemas ingleses ARPAbet. [13]
3.1.1 Vogais
As vogais so fonemas diferentes de todos os outros, pois tm somente uma reduzida
obstruo ao longo de todo o tracto vocal, para alm de serem todas vozeadas e da onda do
seu sinal ter maior amplitude que os restantes. As vogais so posteriormente repartidas em
trs subgrupos tendo em conta o seu ponto de articulao, que no caso das vogais consiste
principalmente na posio da lngua, que tanto pode estar frente, como atrs ou ento
numa posio intermdia.
3.1.2 Consoantes
As consoantes contnuas tm uma maior obstruo do tracto vocal do que as vogais e por
esse motivo apresentam uma menor amplitude na onda do seu sinal. Estas consoantes esto
subdivididas em fricativas, aspiradas, africadas e nasais.
As consoantes fricativas so geradas excitando o tracto vocal com um fluxo constante de
ar, que se torna turbulento ao passar pela zona parcialmente obstruda. As fricativas so

divididas em fricativas no-vozeadas, quando o fluxo de ar contnuo, ou vozeadas, quando

esse fluxo se ar quase periodicamente interrompido pela vibrao das pregas vocais.
Existe apenas uma consoante aspirada, o fonema /h/, que no existe na lngua
portuguesa. Este fonema quando est presente obrigatoriamente no incio de uma palavra,
por exemplo na palavra inglesa head ou na palavra alem Hamburg.
As consoantes africadas so constitudas transitando de uma consoante plosiva para uma
fricativa. As consoantes africadas ao contrrio do portugus do Brasil ou da lngua inglesa,
no existem no portugus europeu. Estas consoantes africadas tanto podem ser novozeadas, por exemplo o fonema /C/, que consiste na transio da consoante plosiva novozeada /t/ para a consoante fricativa no-vozeada /S/, como vozeadas, por exemplo o
fonema /J/, que composto pela passagem da consoante plosiva vozeada /d/ para a
consoante fricativa vozeada /Z/.
As consoantes nasais so fonemas vozeados em que a passagem do fluxo de ar pela boca
est completamente obstrudo, esta obstruo pode ser causada pelos lbios ou pela lngua.
Como a passagem do ar pela boca no possvel e o palato mole ou vu palatino est
completamente aberto, o fluxo de ar passa exclusivamente pelo caminho alternativo, ou
seja, segue pelo tracto nasal at ser libertado nas narinas.
3.1.3 Ditongos
Os fonemas no-contnuos esto agrupados em ditongos, semivogais e consoantes
plosivas. Os ditongos so fonemas vozeados gerados transitando deliberadamente e de forma
fluida de uma vogal para outra. Existe alguma ambiguidade na distino entre um ditongo e
um conjunto formado por duas vogais seguidas, devido ao facto de em ambos os casos ser
necessrio movimentar os articuladores de modo a passar do som de uma vogal para o som de
outra. Uma definio possvel para diferenciar um ditongo de um conjunto de duas vogais
dizer que um ditongo formado por uma transio intencional do estado inicial de uma vogal
para o estado final de outra vogal em que a durao que se permanece na vogal inicial
normalmente superior ao da vogal de destino e que o tempo que decorre durante a transio
sempre superior ao tempo que se permanece em qualquer uma das vogais alvo. Na Figura
3.2 esto representados num mapa que relaciona as frequncias das duas primeiras
formantes, que so as mais importantes, as vogais e os ditongos do ingls americano. Como
seria de esperar a localizao das vogais neste mapa esttica enquanto que a dos ditongos
mvel, correspondendo aproximadamente deslocao entre uma vogal inicial e uma final. O
sentido dessa mesma deslocao est assinalado com uma seta.
16
17
Figura 3.2 - Mapeamento da localizao das vogais e dos ditongos do ingls americano tendo em
considerao as primeiras duas formantes que os constituem. [13]
3.1.4 Semivogais
O grupo das semivogais composto pelas lquidas e pelas glides. As lquidas tm
semelhanas espectrais com as vogais, mas so normalmente mais fracas por causa do maior
estrangulamento do tracto vocal durante a sua gerao. As glides so um ncleo silbico
voclico constitudo por uma posio alvo e que tm transies de formantes de e para essa
mesma posio alvo. As glides podem ser portanto vistas como fonemas de transio, pois
permanecem no estado alvo muito menos tempo do que durante a fase de transio.
3.1.5 Plosivas
As consoantes plosivas tm algumas parecenas com as consoantes nasais, pela forma
como so produzidas, pois ambas tm durante a fase inicial a passagem do fluxo de ar pela
boca completamente obstrudas, mas no caso das consoantes plosivas o caminho alternativo
pelo tracto nasal tambm est fechado, pois o palato mole ou vu palatino est encostado
cavidade larngea. Como ambos os trajectos esto tapados, o ar vindo dos pulmes

acumulado junto obstruo, que tanto pode ser nos lbios como na lngua. Na segunda fase
da produo do fonema a presso acumulada libertada, aquando da desobstruo do tracto
vocal. As consoantes plosivas tanto podem ser vozeadas como no-vozeadas dependendo da
vibrao ou no-vibrao das pregas voclicas durante a segunda fase do fonema.
3.2 - Formantes tpicas dos fonemas

Existem 13 vogais no ingls americano, sendo que uma delas uma vogal degenerada,
Na Figura 3.1 e na Figura 3.3 essa vogal degenerada, tambm conhecida como vogal schwa,
est representada como /x/. A vogal schwa surge quando o orador pronuncia, por vezes, uma
das restantes 12 vogais demasiado depressa e os articuladores no tm tempo para
alcanarem a sua posio de destino, ficando numa posio intermdia em que o tracto vocal
se assemelha a um tubo uniforme. A vogal schwa tem como caractersticas ser mais curta em
durao e ter uma amplitude de sinal inferior do que as outras vogais.
3.2.1 Formantes das vogais

As vogais distinguem-se dos restantes fonemas do ingls americano por normalmente
terem uma durao mais longa, entre 40 e 400 milissegundos, por serem todas vozeadas e por
possurem uma maior amplitude de sinal que os outros fonemas. Essa maior amplitude tem
como origem o facto da obstruo do tracto vocal ser menos acentuado nas vogais. Essa
obstruo, que sempre determinada pela posio da lngua, a principal caracterstica
diferenciadora entre as vogais. Pode ser frente, no meio e atrs e pode ser mais ou menos
pronunciada. A distribuio das 13 vogais presentes no ingls americano segundo esses dois
critrios pode ser visualizada na Figura 3.3. A variao da rea de corte transversal
determina os formantes de uma vogal.
Figura 3.3 Diagrama que mostra a localizao e o grau de obstruo provocado pela lngua para as
diferentes vogais do ingls americano. [13]
18
19
A configurao do tracto vocal, a resposta no domnio dos tempos e a resposta no domnio

das frequncias durante a produo das 12 principais vogais do ingls americano podem ser
comparadas, respectivamente, nas colunas (a), (b) e (c) da Figura 3.4. O funcionamento
cclico das pregas vocais, que excita o tracto vocal durante o vozeamento, est presente no
grfico do domnio dos tempos de todas as 12 vogais, pois todas elas representam ondas
quase peridicas. Observando os grficos da coluna (b) tambm possvel verificar que a
estrutura ressonante do tracto vocal varia com a localizao e o grau de estreitamento do
tracto vocal. Essa variao tambm confirma-se com os grficos da coluna (c), que
demonstram que a localizao das frequncias formantes e a sua largura de banda se alteram
conforme a configurao da estrutura ressonante.
Figura 3.4 Representa para as 12 principais vogais do ingls americano, um esquema da localizao dos
articuladores, na coluna (a), um grfico com a resposta no domnio dos tempos, na coluna (b), e um
grfico com a resposta no domnio das frequncias, na coluna (c). [13]

Figura 3.4 (continuao)
Os trs principais factores para a alterao das frequncias formantes das vogais so o
comprimento total do tracto vocal e a localizao e grau da obstruo do mesmo. A
localizao dessas frequncias formantes, especialmente das trs primeiras, normalmente
suficiente para identificar as vogais. Quanto maior for o comprimento total do tracto vocal
menor a mdia das frequncias das formantes da vogal em questo. Por essa razo as
crianas tm, em mdia, as frequncias das formantes mais altas do que oradores adultos e
os adultos do sexo masculino terem essas frequncias mais baixas do que de oradores adultos
do sexo feminino. Esta correlao entre o comprimento do tracto vocal e a localizao das
frequncias das formantes e do espaamento entre elas menos notrio para as primeiras
duas formantes, pois estas tm uma dependncia mais forte com o local e o grau da
obstruo ao longo do tracto vocal.
20
21
A frequncia da primeira formante mais baixa se o estreitamento for na metade da

frente da cavidade oral e tanto menor quanto maior for essa obstruo. Se a obstruo for
na cavidade farngea a primeira formante tem uma frequncia mais alta e quanto maior for
essa obstruo mais elevada a frequncia. Por seu lado, a frequncia da segunda formante
tem a tendncia a baixar se o estreitamento for provocado pela parte de trs da lngua e a
aumentar se for a parte da frente da lngua e em ambos os casos essa tendncia
intensificada pelo aumento do grau de obstruo. Outra concluso que se retira que quanto
mais arredondados forem os lbios na produo da vogal, mais baixas so as frequncias de
todas as formantes.
Observando com ateno a coluna (a) da Figura 3.4 repara-se que a sequncia das vogais
/i/, /I/, /e/, /E/ e /@/ alcanada com a lngua a obstruir a parte frontal da cavidade bocal
e que essa obstruo progressivamente menos acentuada quando se passa o primeiro
fonema da sequncia para o ltimo. Nota-se tambm que as duas vogais finais tm muito
mais estreitamento na cavidade farngea do que as primeiras. No portanto de estranhar
que medida que se avana na sequncia o espaamento entre a primeira e a segunda
formante, que no incio grande, seja cada vez mais pequena, com uma contnua diminuio
da frequncia da segunda formante e um aumento tambm contnuo da primeira. A vogal
posterior /u/ gerada com os lbios muito mais arredondados do que o fonema /o/ e tem a
lngua mais prxima do palato que a vogal /U/. Comparando as vogais posteriores /o/, /c/ e
/a/ repara-se que o estreitamento farngeo progressivamente mais pronunciado e que as
duas ltimas tm os lbios muito menos arredondados que o fonema /o/. Quando existe mais
do que uma alterao simultnea da posio dos articuladores, nem sempre fcil identificar
que consequncias que ter no grfico da resposta no domnio das frequncias, pois uma
das alteraes pode ter um efeito superior do que a outra no resultado final. Estas ltimas
observaes confirmam isso mesmo, por esse motivo para confirmar estas ltimas afirmaes
o melhor extrair as concluses da Figura 3.5, que representa um resumo de um estudo
realizado por Peterson e Barney em 1952 que estudou a localizao das frequncias das trs
primeiras formantes, bem como a amplitude relativa das mesmas para 10 das vogais do ingls
americano num universo de 33 oradores masculinos. Apesar deste estudo no conter dados
sobre o fonema /o/, as informaes extradas sobre as outras vogais vm de encontro ao que
foi afirmado anteriormente, ou seja, a reduo contnua da obstruo no palato para
pronunciar a sequncia de vogais /i/, /I/, /E/ e /@/ faz com que o espaamento entre as
frequncias da primeira e segunda formantes seja cada vez mais pequena, com um aumento
progressivo da primeira formante e uma reduo igualmente progressiva da segunda.
Comparando as vogais posteriores /u/ e /U/ verifica-se que devido ao maior estreitamento
de /u/ a frequncia da sua segunda formante mais baixa. O fonema /a/ tem uma maior
obstruo da cavidade farngea do que a vogal /c/ e, por isso, a frequncia da sua primeira
formante mais elevada. Observando a amplitude relativa entre as diferentes vogais da
Figura 3.5 conclui-se que para todas as vogais a amplitude sempre mais elevada na primeira
formante e que a da segunda tambm sempre superior da terceira.

Figura 3.5 Representa as frequncias mdias e a amplitude mdia relativa das trs primeiras
formantes de 10 das principais vogais do ingls americano. [13]
A Figura 3.6 relaciona as diferentes larguras de banda das primeiras trs formantes das
mesmas 10 vogais mencionadas na Figura 3.5. Estas diferenas podem ser usadas para
distinguir entre as diferentes vogais. Os resultados expostos na Figura 3.6 foram retirados do
estudo realizado por Dunn em 1961 e teve a participao de 20 oradores masculinos que
repetiram cada vogal por duas vezes. A localizao das frequncias das formantes em relao
largura de banda mostrada na parte superior da Figura 3.6. Observando os resultados
verifica-se a tendncia da largura de banda aumentar com o aumento da frequncia central
da formante e que esse comportamento bastante mais acentuado para a terceira formante.
Conclui-se portanto que a comparao entre larguras de banda de diferentes vogais ajuda na
diferenciao entre elas, no tendo no entanto a mesma preciso que a observao da
localizao das trs primeiras formantes.
22
23
Figura 3.6 Representa a largura de banda em relao s frequncias mdias das trs primeiras
formantes de 10 das principais vogais do ingls americano. [13]
3.2.2 Formantes das semivogais

A Figura 3.7 permite tirar algumas concluses sobre as semivogais lquidas e as semivogais
glides. O grfico da resposta no domnio dos tempos demonstra que estas se assemelham a
vogais, pois apesar de terem uma amplitude inferior a estas a quase periodicidade do seu
sinal tambm est presente. Observando a resposta em frequncia repara-se que, tal como
nas vogais, as principais componentes de frequncia esto localizadas at aos 2000 Hz. Os
articuladores para a gerao das glides /w/ e /y/ esto numa posio parecida com as vogais
/u/ e /i/ e tal como estas apresentam um espectrograma no primeiro caso com maior relevo

entre os 300 e os 900 Hz e no segundo caso com as componentes mais importantes a

situarem-se por volta dos 250 e 2100 Hz.
Figura 3.7 Representa das quatro semivogais do ingls americano, um esquema da localizao dos
articuladores durante a sua produo, na coluna (a), um grfico com a resposta no domnio dos tempos,
na coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c). [13]
3.2.3 Formantes das fricativas no-vozeadas

Na Figura 3.8 esto representadas caractersticas das quatro fricativas no-vozeadas e da
consoante aspirada /h/. A consoante aspirada /h/ por vezes considerada uma fricativa
glotal no-vozeada. Como possvel identificar a resposta no domnio dos tempos para
qualquer uma delas semelhante ao grfico de um sinal de rudo e a sua amplitude
relativamente baixa comparando com a amplitude das vogais. Comparando as respostas no
domnio das frequncias de notar que tambm estas apresentam caractersticas de rudo
branco, ou seja, respostas em frequncia semelhantes em praticamente todo o espectro
analisado. As fricativas no-vozeadas, ao contrrio das vogais, no apresentam uma maior
predominncia de contedo s baixas frequncias, nem evidenciam um comportamento quase
peridico no domnio dos tempos.
24
25
Figura 3.8 Representa das quatro fricativas no-vozeadas e da consoante aspirada /h/ do ingls
americano, um esquema da localizao dos articuladores durante a sua produo, na coluna (a), um
grfico com a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta no domnio
das frequncias, na coluna (c). [13]
3.2.4 Formantes das fricativas vozeadas

As fricativas vozeadas /v/, /D/, /z/ e /Z/ diferem apenas no vozeamento das consoantes
fricativas no-vozeadas /f/, /T/, /s/ e /S/, respectivamente. Analisando os grficos da
resposta temporal das fricativas vozeadas da Figura 3.9 verifica-se que as fricativas vozeadas
so fonemas com excitao mista, pois possuem caractersticas de vozeamento, como a quase
periodicidade do sinal, e caractersticas de no-vozeamento, que as torna semelhantes a
rudo. Estas caractersticas de fonemas de excitao mista afectam estas fricativas vozeadas
de forma desigual, sendo que a fricativa vozeada labiodental /v/ tem caractersticas mais e
de fonema vozeado, com a resposta temporal claramente quase peridica e uma maior
componente espectral s baixas frequncias, enquanto que as fricativas interdental /D/,
alveolar /z/ e palatal /Z/ apresentam maiores semelhanas com fonemas no-vozeados,
como uma maior parecena com rudo e um contedo distribudo mais uniformemente ao
longo do espectro.

Figura 3.9 Representa das quatro fricativas vozeadas do ingls americano, um esquema da localizao
dos articuladores durante a sua produo, na coluna (a), um grfico com a resposta no domnio dos
tempos, na coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c). [13]
3.2.5 Formantes das plosivas

As consoantes plosivas tal como as fricativas podem ser classificadas como no-vozeadas
ou vozeadas e tal como nas fricativas a diferena entre as no-vozeadas, /p/, /t/ e /k/ e as
vozeadas /b/, /d/ e /g/ apenas o vozeamento, pois a posio dos articuladores durante a
fase de obstruo total do tracto vocal e a movimentao dos mesmos articuladores durante
a fase de libertao da presso de ar a mesma. A localizao da obstruo total do tracto
vocal nos fonemas plosivos pode ser bilabial (/p/ e /b/), alveolar (/t/ e /d/) ou velar (/k/ e
/g/). A Figura 3.10 demonstra algumas caractersticas das diferentes plosivas. Apesar de no
ser perceptvel, na maioria dos casos, um comportamento quase peridico das plosivas
vozeadas por causa dos movimentos cclicos das pregas vocais fcil distinguir entre as
plosivas no-vozeadas e as vozeadas, pois as ltimas mesmo durante a fase de aumento da
presso de ar no ponto da obstruo tem as suas pregas vocais a trabalhar ciclicamente e
apesar de no haver radiao de ar pela boca nem pelas narinas existe uma radiao de
energia reduzida pelas paredes da garganta. Esta radiao apesar de pequena perceptvel
durante a fase de acumulao de presso e identificvel tanto no grfico temporal atravs de
uma perturbao no residual da onda, que no exemplo do fonema /b/ at se distingue a
componente quase peridica da onda, como no grfico do domnio das frequncias que
detecta algumas componente espectrais de baixa amplitude.
26
27
Figura 3.10 Representa das trs plosivas no-vozeadas e das trs plosivas vozeadas do ingls
americano, um esquema da localizao dos articuladores durante a sua produo, na coluna (a), um
grfico com a resposta no domnio dos tempos, na coluna (b), e um grfico com a resposta no domnio
das frequncias, na coluna (c). [13]
Apesar de por vezes at ser possvel distinguir entre uma plosiva no-vozeada e uma
plosiva vozeada, analisando tanto o grfico temporal como o espectral praticamente
impossvel fazer a distino entre plosivas no-vozeadas ou entre plosivas vozeadas, devido
caracterstica explosiva da fase de libertao do ar. Este tipo de excitao (plosiva)
semelhante a uma consoante fricativa, pois tambm neste caso o fluxo de ar ao passar pelo
estreitamento do tracto vocal fica com caractersticas turbulentas, ou seja, semelhantes a
rudo e isto identificvel tanto no grfico temporal como no espectral atravs da

distribuio relativamente uniforme a todas as frequncias. A identificao tambm

dificultada por causa da segunda fase de uma consoante plosiva ser de durao bastante
reduzida. Para alm das razes j mencionadas existem outras que acentuam ainda mais a
dificuldade em identificas as consoantes plosivas, como o facto das suas caractersticas
variarem bastante consoante a sua posio na palavra ou frase. A maioria das plosivas no
chega sequer a ser devidamente produzidas quando ocorrem no final de uma slaba, isto
acontece porque no final de uma slaba a presso pulmonar inferior e reduz a presso na
obstruo do tracto vocal que necessria para a produo correcta de uma plosiva. Por
vezes as plosivas tambm so alteradas quando ocorrem entre duas vogais. Por todos estes
motivos as plosivas so os fonemas mais difceis de identificar.
3.2.6 Formantes das nasais

As consoantes nasais so geradas atravs de excitao glotal em que a abertura entre a
cavidade oral e nasal est completamente aberta e a passagem do fluxo de ar pela boca
impossvel devido a uma obstruo algures na cavidade oral. Essa obstruo pode ser bilabial
(/m/), alveolar (/n/) ou velar (/G/). A onda de um sinal de uma consoante nasal parecida
com o das vogais, mas mais fraco devido limitao da cavidade nasal em radiar som,
comparativamente capacidade da cavidade oral. A cavidade oral durante a produo de
consoantes nasais apesar de completamente fechada continua acusticamente acoplada s
cavidades farngea e nasal, prendendo energia a determinadas frequncias e alterando assim
a resposta no domnio das frequncias, que passa a conter anti-ressonncias. Devido
obstruo completa da cavidade oral e da consequente reduo do comprimento dessa
cavidade a localizao das formantes diferente. O espaamento entre formantes para as
consoantes nasais aproximadamente 850 Hz em vez dos 1 kHz habituais. A largura de banda
das formantes que compem as consoantes nasais normalmente maior do que as vogais, isto
acontece porque a parte interna da cavidade nasal tem uma rea grande o que implica que
h uma maior perda de energia. As vogais que antecedem consoantes nasais tm a tendncia
a tornarem-se nasaladas, devido abertura do vu palatino em antecipao consoante
nasal que se segue. Tal como nas consoantes nasais estas vogais nasaladas tm uma
amplitude mais reduzida e uma largura de banda superior da primeira formante do que as
vogais no-nasaladas, devido s perdas causadas pela abertura da cavidade nasal. Na Figura
3.11 podem ser visualizadas algumas caractersticas das consoantes nasais e as semelhanas
que possuem com as vogais.
28
29
Figura 3.11 Representa das trs consoantes nasais do ingls americano, um esquema da localizao
dos articuladores durante a sua produo, na coluna (a), um grfico com a resposta no domnio dos
tempos, na coluna (b), e um grfico com a resposta no domnio das frequncias, na coluna (c). [13]
3.3 Fonemas do portugus europeu

O portugus europeu difere do ingls americano nalguns aspectos importantes. As
diferenas mais relevantes prendem-se com o facto de no portugus europeu no existirem
nem consoantes aspiradas, nem consoantes africadas. A correspondncia entre grafemas e a
fontica tambm nem sempre a mesma entre as duas lnguas.
Todos os grafemas simples do portugus europeu esto representados na primeira coluna
da Figura 3.12. Na coluna seguinte esto as vrias correspondncias fonticas que cada um
desses fonemas pode ter no Alfabeto Fontico Internacional (IPA) e por fim na ltima so
indicados alguns exemplos para cada um dos fonemas.

Figura 3.12 Exemplos de correspondncias entre smbolos grficos e sons na ortografia do portugus
europeu padro. Na primeira coluna esto representados todos os grafemas simples, na segunda coluna
as suas correspondncias fonticas de acordo com o alfabeto Fontico Internacional e na terceira coluna
so indicados alguns exemplos de palavras portuguesas para cada um dos fonemas. Em cada palavra o
fonema que se pretende exemplificar est a escrito a negrito.
No portugus europeu existem fonemas que so representados por sequncias de

grafemas ou por grafemas compostos. Essa lista est representada na Figura 3.13. Alguns
destes fonemas no existem no ingls americano, como o caso dos fonemas representados
pelos dgrafos <lh>, <nh> e <rr>.
30
31
Figura 3.13 Exemplos de correspondncias entre smbolos grficos e sons na ortografia do portugus
europeu padro. Na primeira coluna esto representados as sequncias de grafemas e grafemas
compostos, na segunda coluna as suas correspondncias fonticas de acordo com o alfabeto Fontico
Internacional e na terceira coluna so indicados alguns exemplos de palavras portuguesas para cada um
dos fonemas. Em cada palavra o fonema que se pretende exemplificar est a escrito a negrito.
32
Captulo 4
Mtodos de extraco de caractersticas
do sinal de voz
4.1 Introduo extraco de caractersticas do sinal de voz
Os sinais de fala so sinais no-estacionrios, ou seja, ao longo do tempo a sua forma de
onda est permanentemente a ser alterada. Estas modificaes das propriedades dos sinais
de fala so realizadas pelos diferentes articuladores envolvidos no processo fonatrio. As
ferramentas matemticas utilizadas no processamento de sinais requerem que estes
permaneam
invariantes
no
tempo
para
que
as
suas
caractersticas
possam
ser
convenientemente analisadas. Na produo da fala esto envolvidos diferentes rgos, ossos

e msculos e devido inrcia destes articuladores no possvel alterar as suas posies de
forma abrupta nem instantaneamente. Modificar o posicionamento dos diversos articuladores
e consequentemente alterar a forma do tracto vocal , portanto, um processo contnuo e
com alteraes relativamente suaves. Por esse motivo, se um sinal de fala for dividido em
partes de durao suficientemente curtas (aproximadamente 20ms), estes novos sinais de
durao curta podem ser considerados quase estacionrios, pois durante a sua durao os
articuladores movem-se suficientemente pouco e devagar para que as caractersticas
acsticas do novo sinal de voz possam ser consideradas praticamente invariantes no tempo.
Neste trabalho sero apresentados diversos mtodos de extraco de caractersticas de
sinais de voz e para todos eles necessrio efectuar primeiro a segmentao dos sinais de
fala em partes de durao suficientemente curtas. Para que os sinais de fala possam ser
processados necessrio proceder amostragem e quantizao do mesmo, neste trabalho
todos os sinais de voz foram amostrados a 32.000 amostras por segundo e a quantizao dos
mesmos foi de 16 bit por amostra. A segmentao do sinal de fala conseguida aplicando
uma janela deslizante ao sinal de voz completo. Para todos os mtodos e experincias
realizadas neste trabalho foram utilizadas na segmentao janelas Hanning com sobreposio
de 50% entre segmentos. A cada um destes segmentos, que se obtm multiplicando a
sequncia de voz com a janela de Hanning chama-se frame. A segmentao do sinal de voz
feita multiplicando a janela de Hanning com a sequncia da fala, ou seja, se a janela de
Hanning tiver N pontos a primeira frame, (1; ), constituda multiplicando um a um os
primeiros N pontos da sequncia de voz com os pontos da janela. A frame criada tem,
32
33
portanto, o mesmo nmero de pontos da janela utilizada na segmentao. A segunda frame

gerada deslizando a janela de Hanning sobre a sequncia da fala e realizando o mesmo
processo, ou seja, multiplicando a janela com a sequncia de pontos do sinal de fala que se
inicia na amostra /2 + 1at amostra + /2, (/2 + 1; + /2), resultando numa
sobreposio entre frames consecutivas de 50%. As frames seguintes so construdas da
mesma forma at se atingir o fim da sequncia de fala total. A definio de uma frame de um
sinal de fala :
; ( )
(4.1)
Sendo () o sinal de fala total e ( ) a janela deslizante.

H vrios mtodos que permitem extrair diversas caractersticas de um sinal de voz.
Neste trabalho sero abordados os mtodos: Linear Predictive Coding (LPC), Perceptual
Linear Prediction (PLP), Mel-Frequency Cepstral Coefficients (MFCC) e o mtodo das
sinusides.
4.2 Mtodo LPC

Um esquema de um modelo linear de tempo discreto razoavelmente geral utilizado para
representar a produo da fala est apresentado na Figura 4.1. Este modelo tem o nome de
modelo terminal analgico e representa o processo de produo de um sinal de fala tendo
como base as suas caractersticas de sada. Neste modelo terminal analgico o modelo do
tracto vocal H(z) e o modelo de radiao R(z) so excitados por um sinal glotal de tempo
discreto u(n) = uglotis(n). Para produzir um sinal de fala vozeado utilizada uma estimativa do
pitch que serve como parmetro de entrada a um gerador de trens de impulsos. Estes
impulsos so modelados posteriormente por um modelo de pulso glotal antes de passarem
para o modelo do tracto vocal. Na produo da fala no-vozeada a fonte de excitao um
gerador de rudo aleatrio. Este modelo limitado na sua representao da produo da fala,
pois no permite mais do que uma fonte de excitao. Os fonemas de excitao mista, como
por exemplo as fricativas vozeadas, so deste modo mal caracterizadas.

34 Mtodos de extraco de caractersticas do sinal de voz
Figura 4.1 Modelo genrico de tempo discreto da produo de fala. Segundo Rabiner and Schafer
(1978) [13]
A funo de transferncia do modelo do tracto vocal usada no modelo :

=
1
=1
(4.2)
Ho um ganho geral e pk a localizao complexa dos plos no plano-z. Como j foi referido
este modelo tem limitaes para alguns tipos de fonemas, mas mesmo assim
frequentemente utilizado para modelar todo o tipo de fonemas, pois h vrios mtodos
analticos poderosos que dependem da sua utilizao. Cada par de plos complexos
conjugados localizados no plano-z corresponde aproximadamente a uma formante no
espectro de H(z) e como H(z) um sistema estvel, todos os plos esto localizados no
interior do seu crculo unitrio.
No caso da fala vozeada para algumas aplicaes utilizado para o filtro G(z), que
pretende simular o comportamento da laringe, um modelo s de plos semelhante ao usado
como modelo do tracto vocal. Por vezes usado o modelo com dois plos,
= ,
< < 1,
(4.3)
mas este modelo no consegue reproduzir de forma realista a resposta impulsional observada
em muitas experincias, pois com um modelo s com plos impossvel que a fase de
abertura seja mais lenta do que a fase de fechamento. Por esse motivo um modelo mais
usual
1
2
0,
( )
,
2(
(4.4)
no qual P corresponde ao tempo de pico do impulso e K ao tempo de fechamento completo.

O modelo de radiao R(z) pode ser modelado por
34
35
= 1 0 1 ,
0 1,
0 < 1,
(4.5)
mas a equao pode ser reescrita na forma

= 1 0 1 =
1

=0 0
(4.6)
com K teoricamente infinito, mas na prtica finito, pois 0 < 1.

A produo da fala pode ser modelada recorrendo apenas a filtros s com plos. Na
produo da fala no-vozeada o sinal de sada constitudo pela filtragem do sinal de
excitao recorrendo a dois filtros lineares e independentes um do outro,
= ,
(4.7)
enquanto que a produo da fala vozeada recorre a trs filtros lineares e independentes
entre si,
= .
(4.8)
Apesar de algumas limitaes os filtros s com plos so frequentemente usados na

reproduo da fala, pois estes permitem a utilizao de uma tcnica simples e bastante til,
a anlise de predio linear.
Como foi referido anteriormente o mtodo mais correcto para modelar a produo de fala
requer a utilizao de um modelo de plos e zeros, mas se for usado um modelo s com plos
os resultados obtidos so tambm razoavelmente bons. Para a percepo do contedo da fala
as relaes de fase entre as componentes da mesma no tm praticamente nenhuma
importncia (Carlyon, 1988). Se no for necessrio preservar as relaes de fase entre
componentes da fala durante a anlise, possvel obter os mesmos resultados com o modelo
s com plos que com o modelo com plos e zeros recorrendo anlise de predio linear
(anlise LP).
Qualquer sistema causal e racional do tipo
= 0
1+ =1
1
=1
(4.9)
pode ser alterado para a forma

= 0 () ()
(4.10)
onde tem fase mnima e () um passa-tudo, ou seja, ( ) = 1 e 0

uma constante relacionada com 0 e com as singularidades de . [13]
A componente de fase mnima pode ser expressa como um sistema s com plos,
=
1
1 =1 ()
(4.11)
com I, apesar de teoricamente infinito, na prtica um inteiro relativamente pequeno

(e.g., 14).
O sistema com plos e zeros inicial (4.9) pode ser ento reescrito como

= 0
e como () = 1 , ento
1
()
1 =1 ()
(4.12)
= 0 () . O que se perde ao passar de (4.9)
para (4.12) a informao sobre a fase, o que no muito relevante para a percepo do
contedo da fala.
Uma sequncia de fala pode ser vista como
= = 0 ()
(4.13)
onde S(z) a transformada z da sequncia de fala de sada e E(z) a sequncia de

excitao de entrada e definida como:
()
(4.14)
No domnio temporal fica:
1 + 0
(4.15)
=1
com excepo do termo 0 , que o sinal excitador com a fase modificada, a

sequncia de fala de sada pode ser predita atravs da combinao linear dos seus I valores
passados, por este motivo este modelo tambm conhecido como modelo autoregressivo
(modelo AR). Na anlise de predio linear resolvem-se as equaes para determinar os
parmetros a(i), tambm conhecidos como coeficientes LPC (Linear Predictive Coding), pois
os coeficientes LPC passam a determinar a sequncia de sada e como o nmero de
coeficientes reduzido (cerca de 14 por frame), relativamente ao nmero de amostras por
frame, existe uma codificao da sequncia.
Um sinal de fala corresponde a uma sequncia de excitao convolvida com a resposta
impulsional do sistema vocal. Por vezes conveniente separar as duas componentes, para
que seja possvel manipular apenas uma das partes, mas este processo no trivial. A anlise
cepstral foi desenvolvida para resolver este problema.
A anlise cepstral representa (idealmente) uma transformao do sinal de fala com duas
propriedades importantes:
As representaes das componentes do sinal estaro separadas no cepstrum.
As representaes das componentes de sinal no cepstrum vo corresponder a uma
combinao linear. [13]
Depois do sinal de fala estar representado no cepstrum possvel seleccionar
determinadas componentes do cepstrum, aplicando um filtro linear para remover as partes
indesejadas. s componentes que no foram eliminadas aplica-se uma transformao inversa
da produo do cepstrum. Todo este processo respeita o princpio da sobreposio, que no
caso da convoluo :

36
= 1 2
= 1
[2 ()]
(4.1)
37
Aos sistemas que obedecem ao princpio da sobreposio para a convoluo chamam-se

de sistemas homomrficos.
Qualquer sistema homomrfico pode ser representado por trs sistemas homomrficos,
como demonstrado na Figura 4.2.
Figura 4.2 Forma cannica para um sistema para desconvoluo homomrfica. [16]
O primeiro sistema recebe na entrada sinais combinados por convoluo e transforma-os

numa soma de termos. O segundo sistema um sistema linear, que obedece ao princpio da
sobreposio e o terceiro sistema realiza o inverso do primeiro sistema. Ao primeiro sistema
chama-se sistema caracterstico da desconvoluo e na forma cannica fixo, tal como o
terceiro sistema, ou seja, s o sistema linear que difere entre sistemas homomrficos. [16]
O sistema caracterstico da desconvoluo homomrfica transforma a convoluo na entrada
numa soma na sada. Se o sinal de entrada de um sistema homomrfico for a convoluo
= 1 2 ()
(4.2)
ento aplicando a transformada-z, a entrada passa a ser a multiplicao das respectivas

transformadas-z
= 1 2 ()
(4.3)
A passagem para o soma final conseguida com o recurso a uma funo logartmica, pois
o logaritmo de um produto igual soma dos respectivos logaritmos. A soma pode ento ser
manipulada por um sistema linear. O inverso do sistema caracterstico da desconvoluo
homomrfica utiliza a funo exponencial e depois a transformada-z inversa para passar a
soma para um produto e por fim para uma convoluo.
A um cepstrum construdo com base num processo homomrfico d-se o nome de
cepstrum complexo, que difere do cepstrum ou cepstrum real pois ao utilizar um logaritmo
complexo no descarta as relaes de fase. A maioria das anlises cepstrais no entanto utiliza
um cepstrum real, pois bastante mais simples e a perda da informao sobre a fase no
relevante para muitas aplicaes.
4.2.1 Mtodo LPC utilizado nas experincias

A anlise LPC efectuada pelo programa Matlab proclpc.m [7] e inicia-se com a prnfase do sinal de fala. A pr-nfase do sinal de fala consiste em aumentar a energia relativa
do sinal de fala s altas frequncias. Existem duas razes para se realizar a filtragem de prnfase. Primeiro, porque a filtragem de pr-nfase introduz um zero perto de z=1, que em

conjunto com o zero introduzido pelo modelo de radiao labial igualmente perto de z=1,
cancelam os dois plos em z=1 da componente de fase mnima do modelo glotal. Em segundo
lugar, porque previne a instabilidade numrica, que pode acontecer com o mtodo da
autocorrelao, mas tambm com o da covarincia [13]. Aps esta filtragem segmenta-se o
sinal completo da fala em frames de 25 ms recorrendo a um janelamento rectangular e um
incremento entre frames de 12,5 ms, ou seja, uma sobreposio de 50%. Para cada frame
utiliza-se o mtodo de Levinson (autocorrelao) para determinar os coeficientes LPC e os
coeficientes PARCOR. Os coeficientes LPC correspondem aos parmetros a(i) que minimizam
o erro, ou seja, que minimizam a diferena entre a sequncia de entrada do filtro (frame do
sinal) e a sequncia de sada do filtro (sequncia predita). Depois calcula-se a ganho de cada
frame e verifica-se se corresponde a um segmento de fala vozeada. Caso corresponda
calcula-se o valor do pitch dessa frame, caso contrrio atribui-se o valor zero a essa frame.
Por fim calcula-se o resduo de cada frame do sinal, que o vector do erro do filtro, ou seja,
a diferena entre a frame de entrada do filtro e a sequncia predita e constri-se o stream. O
stream construdo aplicando uma janela triangular a cada frame do resduo e depois
juntando as frames sucessivas com sobreposio de 50%, eliminando deste modo a
sobreposio tambm de 50% utilizada no incio da anlise aquando da segmentao do sinal
de fala. Depois de analisar todas as frames e do vector stream estar completo procede-se
de-nfase do stream. A de-nfase realiza a filtragem inversa da pr-nfase, de modo a
eliminar os efeitos da mesma e assim retomar a relao de energia entre as diferentes
frequncias aos valores do sinal de fala original.
Figura 4.3 Diagrama de blocos da anlise LPC.
O programa Matlab synlpc.m, que realiza a sntese LPC, comea por identificar se os
dados de entrada so do tipo stream (um vector contnuo) ou do tipo resduo (uma
matriz). Caso sejam do tipo stream necessrio segmentar o sinal com um janelamento
rectangular e de acordo com os parmetros de entrada, ou seja, frames de 25 ms com
sobreposio de 50%, portanto, incrementos entre frames de 12,5 ms. Depois sintetizam-se as
frames a partir da matriz de coeficientes LPC e da matriz do resduo e cria-se o sinal de fala
completo aplicando uma janela triangular a essas frames e sobrepondo as frames
consecutivas em 50%, eliminando assim a sobreposio usada durante a fase inicial. Por fim,
se os dados de entrado foram do tipo resduo, utiliza-se a de-nfase na sequncia
sintetizada final. Como a sntese do sinal de fala original obtida tambm com o recurso ao
resduo resultante da anlise LPC, ou seja, com o recurso matriz dos erros de predio, o
sinal resultante da sntese LPC uma rplica exacta do sinal de fala original.
38
39
Figura 4.4 Diagrama de blocos da sntese LPC.
4.3 Mtodo MFCC

O Mel-Cepstrum uma variao do cepstrum normal, que tira proveito da percepo
auditiva humana. A verdadeira frequncia de um som e a percepo que um humano tem
dessa frequncia no tm uma correspondncia linear. A frequncia percebida pelos
humanos, tambm conhecida como pitch, tem como unidade de medio o mel. Na Figura 4.3
est representada a escala mel, criada por Stevens e Volkman em 1940 e que relaciona o
pitch com a frequncia real. A relao entre as duas praticamente linear at aos 1000 Hz,
ficando depois logartmica para frequncias superiores a esse valor. Tambm se descobriu
que a percepo que se tem de uma determinada frequncia influenciada pela energia de
uma banda crtica de frequncias em torno dessa mesma frequncia (Schoroeder, 1977;
Allen, 1985; OShaughnessy, 1987) e que a largura de banda dessas bandas crticas varia com
a frequncia. Com base nestas descobertas foram desenvolvidos novos mtodos de anlise de
sinais de fala.

Figura 4.5 A escala mel. Segundo Stevens e Volkman (1940). [13]
4.3.1 Mtodo MFCC utilizado nas experincias

A anlise MFCC realizada pelo programa Matlab melfcc.m [17] tem como nico
parmetro de entrada obrigatrio os dados do ficheiro de voz (samples). A anlise MFCC
comea com a pr-nfase do sinal de fala (preemph 0.97). Aps esta filtragem segmenta-se
o sinal completo da fala em frames de 25 ms (wintime 0,025), recorrendo a um
janelamento Hamming e um incremento entre frames de 12,5 ms (hoptime 0,0125), ou
seja, uma sobreposio de 50%. Calcula-se depois o espectro de potncia com FFTs de 512
pontos. A anlise de banda crtica feita de uma frequncia mnima da banda de frequncia
mais baixa (minfreq - 0) at frequncia mxima de metade da frequncia de amostragem
(maxfreq sr/2) e so usados 80 filtros Mel (fbtype mel) para a sua realizao (nbands 80). As larguras de banda desses filtros relativamente aos valores de referncia permanecem
iguais (bwidth 1.0). Como a flag sumpower tem o valor 1 (sumpower -1), o mapeamento
das potncias do espectro para a escala Mel feita multiplicando as potncias do espectro
com uma matriz de pesos. Depois de realizada a anlise de banda crtica so extrados os 13
coeficientes MFCC (numcep - 13), aplicando a funo logaritmo s diferentes frames e depois
retirando a DCT (transformada discreta de cosseno), que neste caso ortogonal e de norma
unitria (dcttype - 2). Por fim realizado o liftering das frames (lifterexp 0.6).
O nico parmetro de sada obrigatrio a matriz cepstra, em que as colunas
representam as frames analisadas e as linhas representam os coeficientes calculados. Para
alm do parmetro de sada obrigatrio possvel obter a matriz aspectrum e a matriz
40
41
pspectrum, que representam resultados intermdios do programa melfcc.m, a primeira o

resultado aps a realizao da anlise de banda crtica e a segunda o resultado aps o
espectro de potncia FFT.
Figura 4.6 Diagrama de blocos da anlise MFCC.
A ressntese do sinal udio a partir da matriz cepstra aps a anlise MFCC feita pelo
programa Matlab invmelfcc.m [17]. Os argumentos da funo invmelfcc so a matriz do
cepstrum e os argumentos utilizados durante a anlise mfcc com os mesmos valores, para que
o resultado final da ressntese seja o mais prximo possvel do ficheiro udio original.
Inicialmente inverte-se o liftering e depois converte-se o cepstrum em espectro,
multiplicando o cepstrum com a IDCT (transformada discreta de cosseno inversa) e usando o
resultado como argumento da funo exponencial. A fase seguinte consiste em tentar
eliminar os efeitos da realizao da anlise de banda crtica, para tal multiplica-se o
resultado com o inverso da matriz de pesos, invertendo assim o mapeamento para a escala
Mel. Os valores desta matriz so utilizados para modelar um espectrograma de rudo branco.
Cada frame do espectrograma convertida numa poro da onda do sinal udio usando uma
IFFT e depois acrescentada ao vector final sobrepondo os segmentos. Por fim realiza-se a
de-nfase do sinal ressintetizado.
Figura 4.7 Diagrama de blocos da sntese MFCC.
4.4 Mtodo PLP

A anlise de predio linear perceptual (PLP) foi desenvolvida por Hermansky em 1989.
Esta tcnica utiliza trs conceitos da psicoacstica, ou seja, do estudo subjectivo das
caractersticas sonoras, para criar um espectro auditivo. A primeira a resoluo espectral

das bandas crticas, a segunda uma curva de igualizao de sonoridade e a terceira a lei
da potncia intensidade-sonoridade. O espectro auditivo depois aproximado por um modelo
autorregressivo s com plos. [4]
A anlise PLP proposta por Hermansky consiste em segmentar o sinal de fala usando um
janelamento de Hamming, com janelas de aproximadamente 20ms. A transio para o
domnio das frequncias feita usando a transformada discreta de Fourier, normalmente a
FFT de 256 pontos para uma frequncia de amostragem de 10kHz. O espectro de potncia de
termo curto obtido somando o quadrado das componentes real e imaginria do espectro de
sinal de termo curto.
2
= ()
+ ()
(4.4)
O espectro P(w) distorcido ao longo do seu eixo de frequncia w para o eixo de

frequncias Bark , de acordo com a relao
+[
1200
1200
= 6
+ 1]0.5
(4.5)
onde w a frequncia angular em rad/s. Convolui-se depois o espectro resultante com um

espectro de potncia de uma curva de mascaramento de banda crtica () simulado. A curva
de mascaramento tem a forma
102.5
10
< 1.3,
1.3 0.5,
0.5 0.5,
0.5 2.5,
> 2.5.
+0.5
1.0 0.5
(4.6)
A convoluo dos dois espectros permite uma reamostragem a intervalos de

aproximadamente um Bark. O sinal reamostrado depois pr-enfatizado pela curva de
igualizao de sonoridade
= [ 2 + 56,8 106 ) 4 ]/[ 2 + 6,3 106
( 2 + 0,38 109 )]
(4.7)
resultando no sinal
() = [()]
(4.8)
Por fim utiliza-se uma compresso de raiz cbica para simular a relao no-linear entre
a intensidade de um determinado som e a percepo da sonoridade do mesmo pelo ouvido
humano.
=
(4.9)
O sinal () aproximado pelo espectro de um modelo autorregressivo s com plos

usando o mtodo da autocorrelao e no final possvel extrair determinadas caractersticas,
como o caso dos coeficientes do modelo autorregressivo ou coeficientes cepstrais.
42
43
4.4.1 Mtodo PLP utilizado nas experincias

A anlise PLP comea com a pr-nfase do sinal de fala. Aps esta filtragem segmenta-se
o sinal completo da fala em frames de 25 ms recorrendo a um janelamento Hamming e um
incremento entre frames de 12,5 ms, ou seja, uma sobreposio de 50%. Calcula-se o
espectro de potncia com o recurso a FFTs (transformada rpida de Fourier) de 512 pontos.
A anlise PLP realizada, tal como a anlise MFCC, pelo programa Matlab melfcc.m
retirada de [17] e tem como nico parmetro de entrada obrigatrio os dados do ficheiro de
voz (samples). A anlise MFCC comea com a pr-nfase do sinal de fala (preemph 0.97).
Aps esta filtragem segmenta-se o sinal completo da fala em frames de 25 ms (wintime
0,025), recorrendo a um janelamento Hamming e um incremento entre frames de 12,5 ms
(hoptime 0,0125), ou seja, uma sobreposio de 50%. Calcula-se o espectro de potncia
com FFT de 512 pontos. A anlise de banda crtica feita de uma frequncia mnima da
banda de frequncia mais baixa (minfreq - 0) at frequncia mxima de metade da
frequncia de amostragem (maxfreq sr/2) e so usados 80 filtros Mel (fbtype mel) para
a sua realizao (nbands - 80). As larguras de banda desses filtros relativamente aos valores
de referncia permanecem iguais (bwidth 1.0). Como a flag sumpower tem o valor 1
(sumpower -1), o mapeamento das potncias do espectro para a escala Mel feita
multiplicando as potncias do espectro com uma matriz de pesos. Depois de realizada a
anlise de banda crtica so extrados os coeficientes LPC utilizando o mtodo recursivo de
Levinson-Durbin usando um modelo de ordem oito. Os coeficientes LPC extrados so depois
convertidos em coeficientes cepstrais (numcep - 13). Por fim realizado o liftering das
frames (lifterexp 0.6).
O nico parmetro de sada obrigatrio a matriz cepstra, em que as colunas
representam as frames analisadas e as linhas representam os coeficientes calculados. Para
alm do parmetro de sada obrigatrio possvel obter a matriz aspectrum e a matriz
pspectrum, que representam resultados intermdios do programa melfcc.m, a primeira o
resultado aps a realizao da anlise de banda crtica e a segunda o resultado aps o
espectro de potncia FFT.
Figura 4.8 Diagrama de blocos da anlise PLP.
A ressntese do sinal udio a partir da matriz cepstra aps a anlise PLP feita pelo
programa Matlab invmelfcc.m [17]. Os argumentos da funo invmelfcc so a matriz do
cepstrum e os argumentos utilizados durante a anlise plp com os mesmos valores, para que o
resultado final da ressntese seja o mais prximo possvel do ficheiro udio original.
Inicialmente inverte-se o liftering e depois converte-se o cepstrum em espectro,

multiplicando o cepstrum com a IDCT (transformada discreta de cosseno inversa) e usando o

resultado como argumento da funo exponencial. A fase seguinte consiste em tentar
eliminar os efeitos da realizao da anlise de banda crtica, para tal multiplica-se o
resultado com o inverso da matriz de pesos, invertendo assim o mapeamento para a escala
Mel. Os valores desta matriz so utilizados para modelar um espectrograma de rudo branco.
Cada frame do espectrograma convertida numa poro da onda do sinal udio usando uma
IFFT e depois acrescentada ao vector final sobrepondo os segmentos. Por fim realiza-se a
de-nfase do sinal ressintetizado.
Figura 4.9 Diagrama de blocos da sntese PLP.
44
45
Referncias
[1] Guimares, I. A Cincia e a Arte da Voz Humana, ESSA Escola Superior de Sade do
Alcoito, 2007
[2] Teixeira, J. P. Modelizao Paramtrica de Sinais para Aplicao em Sistemas de
Converso Texto-Fala, 1995
[3] Apontamentos da disciplina processamento da fala do mestrado integrado em engenharia
electrotcnica e de computadores ano lectivo 2008/2009
[4] Hermansky, H. Perceptual Linear Predictive (PLP) Analysis of Speech, J. Acoust. Soc.
Am., Abril 1990
[5] Florian Hnig, Georg Stemmer, Christian Hacker, Fabio Brugnara, Revising Perceptual
Linear Prediction (PLP)
[6] Help do Matlab 2008a
[7] Malcolm
Slaney
Auditory
Toolbox
version
http://cobweb.ecn.purdue.edu/~malcolm/interval/1998-010/.
2.
Disponvel
em
Acesso
em
02/Fevereiro/2009
[8] Melvyn J. Hunt, Spectral Signal Processing for ASR
[9] Joo Canas Ferreira, Joo Correia Lopes Jos Machado da Silva, Norma de Formatao e
Orientaes para a Escrita de Dissertaes ou Relatrios de Projecto do MIEEC, Maio de
2008
[10]Andreas Spanias, Ted Painter, Venkatraman Atti, Audio Signal Processing and Coding,
John Wiley & Sons, Inc., Hoboken, New Jersey, 2007Sdfsd
[11]Anbal Ferreira, Carlos Salema, Fernando Pereira, Isabel Trancoso, Paulo Lobato Correia,
Pedro Assuno, Srgio Faria, Comunicaes Audiovisuais: Tecnologias, Normas e
Aplicaes, IST Press, Julho de 2009
[12] Maria Helena Mira Mateus, Isabel Fal, Maria Joo Freitas, Fontica e Fonologia do
Portugus Lisboa. Universidade Aberta, 2005
[13]John R. Deller Jr., John H. L. Hansen, John G. Proakis, Discrete-Time Processing of
Speech Signals, New York: IEEE, 2000
[14]Arthur C. Guyton, John E. Hall, Textbook of Medical Physiology, Eleventh Edition,
Elsevier Saunders
[15]http://www.l2f.inesc-id.pt/~lco/ptsam/ptsam.pdf. Acesso em 02/Fevereiro/2009

[16]Lawrence R. Rabiner, Ronald W. Schafer, Digital Processing os Speech Signals,

Englewodd Cliffs: Prentice-Hall, 1978
[17]http://labrosa.ee.columbia.edu/matlab/rastamat/, Acesso em 31/Outubro/2009
[18]Anbal J. S. Ferreira, Accurate estimation in the ODFT domain of the frequency, phase
and magnitude of stationary sinusoids
46

Descaracterização Da Assinatura Vocal

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Descaracterização Da Assinatura Vocal

Загружено:

Авторское право:

Доступные форматы

Faculdade de Engenharia da Universidade do Porto

Descaracterizao da Assinatura Vocal

Dissertao realizada no mbito do

Brtolo Maia, 2009

3.2.5 Formantes das plosivas ........................................................................... 26

Figura 2.1 Seco sagital mdia do aparelho vocal. [3] .............................................. 4

Tabela 3.1 - Alfabeto fontico ARPAbet. [3] ........................................................... 13

Discrete Cosine Transform

Discrete Fourier Transform

Faculdade de Engenharia da Universidade do Porto

Fast Fourier Transform

Ineverse Discrete Cosine Transform

Inverse Discrete Fourier Transform

Inverse Fast Fourier Transform

Linear Predictive Coding

Mel Frequency Cepstral

Mel Frequency Cepstral Coefficients

Odd Discrete Fourier Transform

Perceptual Linear Prediction

radianos por segundo

Erro! A origem da referncia no foi encontrada.

Erro! A origem da referncia no foi encontrada.

Figura 2.1 Seco sagital mdia do aparelho vocal. [3]

Tipos de excitao dos sinais de fala

Figura 2.2 - Seces da laringe. [3]

Erro! A origem da referncia no foi encontrada.

Figura 2.3 - Representao de um ciclo vibratrio das pregas vocais. [3]

possuem formantes e/ou anti-formantes caractersticas que os diferenciam de todos os outros

2.3.1 Anatomia do ouvido

Figura 2.4 - Representao do ouvido humano. [14]

Erro! A origem da referncia no foi encontrada.

Figura 2.5 - Representao do interior da cclea. [14]

2.3.2 Efeito de mscara ou mascaramento

onde LSPL a intensidade o SPL de um estimulo, p a presso acstica do estimulo em Pascals

uma determinada frequncia, at que, perceptivamente, este possua a mesma intensidade

A sonoridade ou loudness tem como unidade de medio o Phon.

O efeito de mscara ou mascaramento consiste na influncia que uma dada componente

Erro! A origem da referncia no foi encontrada.

A forma das curvas de mascaramento depende de diversos factores, incluindo a

A equao (2.3) relaciona o valor z, em Bark, com a frequncia f em Hz.

Na Figura 2.8 est representado o limiar de mascaramento devido a um tom puro de

Como possvel observar o efeito de mscara devido ao tom puro assimtrico,

componente mascarada ocorre antes da componente mascarante ou ps-mascaramento,

As letras do alfabeto no so a melhor forma de representar um fonema, pois

Tabela 3.1 - Alfabeto fontico ARPAbet. [3]

Erro! A origem da referncia no foi encontrada.

Figura 3.1 - Classificao de fonemas ingleses ARPAbet. [13]

Erro! A origem da referncia no foi encontrada.

divididas em fricativas no-vozeadas, quando o fluxo de ar contnuo, ou vozeadas, quando

Erro! A origem da referncia no foi encontrada.

3.2 - Formantes tpicas dos fonemas

3.2.1 Formantes das vogais

A configurao do tracto vocal, a resposta no domnio dos tempos e a resposta no domnio

Erro! A origem da referncia no foi encontrada.

Figura 3.4 (continuao)

A frequncia da primeira formante mais baixa se o estreitamento for na metade da

Erro! A origem da referncia no foi encontrada.

3.2.2 Formantes das semivogais

Erro! A origem da referncia no foi encontrada.

entre os 300 e os 900 Hz e no segundo caso com as componentes mais importantes a

3.2.3 Formantes das fricativas no-vozeadas

3.2.4 Formantes das fricativas vozeadas

Erro! A origem da referncia no foi encontrada.