Вы находитесь на странице: 1из 118

SUBSECRETARA DE EDUCACIN SUPERIOR

DIRECCIN GENERAL DE EDUCACIN SUPERIOR


TECNOLGICA

INSTITUTO TECNOLGICO
DE MORELIA

INSTITUTO TECNOLGICO DE MORELIA


DIVISIN DE ESTUDIOS PROFESIONALES
DEPARTAMENTO DE INGENIERA ELECTRNICA

MONOGRAFA

APLICACIONES DE LAS
REPRESENTACIONES TIEMPO
FRECUENCIA EN PROCESAMIENTO DE VOZ

QUE PARA OBTENER EL TTULO DE:


INGENIERO EN ELECTRNICA

PRESENTA:
JESS VLADIMIR ALVARADO MAGDALENO

ASESOR:
M.C. JULIO CSAR HERRERA GARCA

MORELIA, MICHOACN

ABRIL DEL 2010

AGRADECIMIENTOS

A ti pap, por haberme dado los consejos y el nimo necesario para ir viviendo
cada etapa de mi vida. Por tu enseanza de saber disfrutar y buscar las cosas
que verdaderamente son importantes en la vida.

A ti mam, por demostrarme la fuerza y el nimo incansable para hacer


siempre bien las cosas. Por la preocupacin y el nimo que nos das para
vernos volar en grande.

A ustedes Nathaly y Sofi, por la confianza y el apoyo que siempre he tenido de


su parte, por la enseanza que en ocasiones, sin querer, me brindan.

A ti Eli, por ser la persona que ha vivido ms cercano el proceso de lograr este
proyecto, por los tiempos que se sacrificaron, por el apoyo y compresin que
siempre me has dado. Te amo.

A mis amigos y compaeros de estudio, por el hecho de estar siempre cerca,


de apoyarnos mutuamente en todo.

A mis tas, Loren y Elena, que s que les hubiera encantado estar aqu, junto a
mi, pero que s que donde quiera que se encuentren estarn muy felices de
verme terminar este proceso

A toda mi familia, que siempre unida, se apoya los unos a los otros. A la familia
Alvarado Gonzlez, y la familia Magdaleno Martnez.

NDICE

RESUMEN

iv

OBJETIVOS

JUSTIFICACIN

vi

MOTIVACIN

vii

INTRODUCCIN

CAPTULO 1 CONCEPTOS DE PROCESAMIENTO DE SEALES

1.1 SEALES
1.1.1 Tipos de seales
1.1.2 Seales continuas y discretas
1.1.3 Sistemas discretos

2
3
4
6

1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO


1.2.1 Discretos
1.2.2 Continuos
1.2.3 Propiedades de los sistemas lti

6
7
8
10

1.3 LA TRANSFORMADA CONTINUA DE FOURIER


1.3.1 Representacin de seales aperidicas
1.3.2 La transformada de Fourier para seales peridicas
1.3.3 Propiedades de la transformada continua de Fourier

12
13
19
20

1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO


1.4.1 Representacin de seales aperidicas
1.4.2 La transformada de Fourier de tiempo discreto para
seales peridicas
1.4.3 Propiedades de la transformada de Fourier de tiempo discreto

26
26
31
33

CAPTULO 2 CARACTERIZACIN EN TIEMPO Y FRECUENCIA


2.1 CONCEPTO DE TIEMPO FRECUENCIA

36

2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO

39

2.3 DISTRIBUCIN WIGNER VILLE

42

2.4 TRANSFORMADA DE GABOR


2.4.1 Ventanas comnmente utilizadas
2.4.2 Ejemplo de anlisis de voz

47
49
51

2.5 TRANSFORMADA WAVELET

53

ii

CAPTULO 3

APLICACIONES DE PROCESAMIENTO DE VOZ

3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT


3.1.1 CSLU Toolkit
3.1.2 MatLab

57
57
60

3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS


3.2.1 Sistema de reconocimiento de voz mediante el anlisis
de espectrograma.
3.2.2 Mtodos de identificacin usando anlisis de voz

64

3.3 APLICACIONES USANDO WAVELETS


3.3.1 Procedimiento y dispositivo de clasificacin de las seales
del habla.
3.3.2 Mtodo para la extraccin de caractersticas de seales
de voz y sistema relacionado con el reconocimiento de voz.
3.4 APLICACIONES USANDO OTRAS DISTRIBUCIONES
TIEMPO FRECUENCIA
3.4.1 Anlisis de palabras utilizando la transformada de Gabor.
3.4.2 Anlisis tiempo- frecuencia para reconocimiento de voz
utilizando la distribucin Wigner Ville suavizada.

64
71
77
77
86

93
93
97

CONCLUSIONES

102

LISTA DE FIGURAS

104

REFERENCIAS

106

iii

RESUMEN

En este trabajo de investigacin se vern las principales funciones matemticas


en el procesamiento de voz. Todo descrito de una manera simple y detallada,
hablando de diversos temas, desde la transformada de Fourier hasta los
mtodos que se utilizan para trabajar con el anlisis tiempo frecuencia, tales
como la transformada de Gabor y la transformada Wavelets, sus anlisis
matemticos, propiedades y la utilizacin ms frecuente que se les da a dichas
transformadas. Tambin se tendr la oportunidad de analizar diferentes tipos
de aplicaciones relacionadas con el reconocimiento de voz, los cuales utilizan
todas las herramientas descritas anteriormente.

iv

OBJETIVOS

El objetivo general de esta monografa consiste en presentar de una manera


global las aplicaciones que tiene en el mundo actual el procesamiento de voz y
conocer las herramientas matemticas necesarias para poder capturar y
procesar los sonidos.

Tambin podemos delimitar algunos objetivos particulares:

Explicar las nociones bsicas acerca del procesamiento de seales.

Explicar y analizar la Transformada, continua y discreta, de Fourier. En


cada una presentar el caso de aplicarla en seales peridicas y
aperidicas, as como sus propiedades.

Hablar sobre la caracterizacin Tiempo Frecuencia y conocer las


diferentes funciones que nos ayudan a dicha caracterizacin.

Mostrar algunas de las aplicaciones actuales de las representaciones


Tiempo Frecuencia en el tema de procesamiento de voz, cules son
sus funciones y de qu manera aplican el procesamiento de voz.

JUSTIFICACIN

Los avances tecnolgicos en el mundo actual crecen de una manera


impresionante da a da, y las empresas de diferentes rubros se han
concentrado en realizar equipos con reconocimiento de voz. Es por eso que es
importante realizar un documento donde se estudien las bases, las funciones
matemticas y las aplicaciones que se le da a este tema. Tambin es
importante que generaciones futuras cuenten con un documento de consulta
donde se puedan informar del avance tecnolgico y los pasos que ha tomado
el reconocimiento de voz.

vi

MOTIVACIN

Se eligi este tema debido al gran inters de mi parte hacia todo lo nuevo que
nos presenta la tecnologa, en especial en el campo de lo acstico, incluyendo
voz y msica. Me interes porque es un tema actual, con aplicaciones en
diversos sistemas para diferentes fines, desde un telfono celular, hasta un
sistema de seguridad para casa o empresa. Un tema que da a da ir
evolucionando y que los interesados en l tendremos que actualizarnos
constantemente.

vii

INTRODUCCIN

En este tiempo en el que la carrera tecnolgica avanza cada vez a pasos


ms agigantados, es indispensable que las personas y profesionistas que
pertenecen al mundo de la tecnologa, se mantengan al da y actualizados con
los diferentes procesos y proyectos que se desarrollan da a da alrededor del
mundo.

Los procesos en los que el ser humano puede ser capaz de controlar
diferentes dispositivos mediante la voz han tomado un auge importante en los
ltimos aos, debido a que es muy extensa la lista de cosas que se pueden
hacer con tales desarrollos. Solo hay que observar con cuidado a nuestro
alrededor para saber que la industria del procesamiento de voz es cada vez
ms extensa, se pueden controlar los equipos de comunicacin mvil mediante
el uso de la voz, se le puede hacer dictados a las computadora para evitar
usar el teclado, se puede tener un sistema de seguridad en el hogar o en la
industria que se base en el reconocimiento de voz.

Todas estas aplicaciones se basan en un principio: poder procesar la


voz. Este proceso comienza desde el momento en que se captura los datos,
aplicar diferentes frmulas y aplicaciones matemticas para poder conocer los
datos importantes de la voz, tales como frecuencia, duracin, separacin de
palabras.

En esta investigacin se tomarn los temas acerca de la relacin tiempo


frecuencia y las herramientas matemticas que nos ayudan a obtener la
informacin necesaria acerca del sonido y su procesamiento.
1

Captulo 1. Conceptos de Procesamiento de Seales

CAPTULO 1. CONCEPTOS DE PROCESAMIENTO DE SEALES

1.1

SEALES

Los conceptos de seales [22], surgen de una gran variedad de eventos. La


obtencin, representacin e interpretacin de dichas seales juegan un papel
trascendental en la ciencia y tecnologa, incluyendo todas sus ramas como las
comunicaciones, la electrnica, la acstica, la sismologa, el diseo de circuitos
y equipos, la ingeniera biomdica y el procesamiento de voz entre otros.
Aunque las seales pueden representarse de diferentes maneras, en todos los
casos la informacin de una seal est contenida en un patrn de variaciones
que representan una forma determinada [5]. Por ejemplo, si tomamos el circuito
de la figura 1.1, las seales que obtendramos seran los patrones que tiene la
variacin en el tiempo de los voltajes Vs y Vc [1]; otro ejemplo podra ser la voz
humana, ya que aqu encontramos dos variables, la frecuencia y el tiempo, las
cuales se representaran de la forma ilustrada en la figura 1.2

Fig. 1.1 Circuito RC sencillo con voltaje en la fuente Vs y voltaje del capacitor Vc [4].

Fig. 1.2 Representacin grfica de una palabra en funcin del tiempo [2].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

1.1.1 Clasificacin de las seales [21]

Existen cuatro tipos de seales:

Analgicas

Digitales

Muestreadas

Cuantizadas

Clasificacin de seales de acuerdo a su duracin:

Causales

Anticausales

No causales

Continuas

Peridicas

Clasificacin de seales basadas en simetras

Simetra Par

Simetra Impar

Asimtrica

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Clasificacin de seales basadas en Energa y Potencia

Seales de Energa

Seales de Potencia

Ejemplos de seales

Escaln unidad

Rampa

Pulso

Triangular

Sinc

Impulso

1.1.2 Seales Continuas y Discretas

En las seales continuas la variable independiente tiene un valor determinado


para cada momento del tiempo, por lo tanto se puede definir para una sucesin
continua de puntos de la variable independiente [22]. Por ejemplo, en la figura
1.3 se tiene un ejemplo tpico del tiempo de carga de un capacitor en un circuito
RC.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Fig. 1.3 Perfil tpico del tiempo de carga de un capacitor.

En las seales discretas la variable independiente solamente se encuentra


definida en tiempos discretos y, por lo tanto, para estas seales la variable
independiente solamente toma valores discretos. La densidad de poblacin con
respecto a cada una de las ciudades del pas y la seal de voz como funcin
del tiempo son ejemplos de seales discretas [22]. Otros ejemplos seran: el
ndice semanal de la Bolsa Mexicana de Valores, ingreso promedio de las
familias en una ciudad, el ndice de criminalidad por ciudad.

Para diferencias a las seales continuas de las discretas en una grfica, se


utiliza el smbolo t para denominar a la variable independiente continua y n para
denominar a la variable independiente discreta [21].

1.1.3 Sistemas Discretos

Un sistema es una transformacin aplicada a una seal de entrada x) para


obtener una seal de salida y [5]. A dicha transformacin se le denomina
funcin de transferencia, y habitualmente se representa mediante una T. Los
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

sistemas discretos son aquellos que trabajan con seales discretas. En la


figura se muestra el diagrama de bloques de este tipo de sistemas.

Fig. 1.4 Diagrama de Bloques. Sistema Discreto [22].

1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO (LIT)

Las propiedades bsicas de los sistemas de seales, como la linealidad y la


invariancia en el tiempo tienen una importancia muy grande en el anlisis de
las seales y sistemas, por dos razones [11]. La primera, demasiados procesos
fsicos poseen stas mismas propiedades, por lo que pueden modelarse como
sistemas lineales e invariantes en el tiempo (LIT). Adems es importante decir
que los sistemas LIT se pueden analizar con mucho detalle para proporcionar
el conocimiento de sus propiedades, as como un conjunto de variadas
herramientas que forman el ncleo del anlisis de seales y sistemas [12].

1.2.1 LIT DISCRETOS (SUMA DE CONVOLUCIN)

La idea de visualizar cmo el impulso unitario discreto se puede utilizar para


construir cualquier seal discreta consiste en pensar en una seal discreta
como una sucesin de impulsos individuales.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Suponiendo un sistema LIT cualquiera con las propiedades citadas, como se


muestra en la figura 1.4, se cumple la expresin [22].

Ec. 1.1

Por la propiedad de la linealidad se obtiene:

Ec. 1.2

Y ahora considerando
=

respuesta al impulso unitario

Se puede representar la funcin de transferencia del sistema como:

Ec. 1.3

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

La funcin de transferencia de un sistema LIT podr ser formulado mediante su


respuesta el impulso, representada por h(n). Y la operacin mostrada en la
ecuacin, que relaciona dicha respuesta al impulso y la entrada al sistema, se
le atribuye el nombre de suma de convolucin [22].

1.2.2 LIT CONTINUOS (INTEGRAL DE CONVOLUCIN)

Como se vio en el sistema discreto, la clave para el desarrollo de la suma de


convolucin fue la propiedad de representar matemticamente una seal como
la superposicin de funciones impulso unitario escaladas y desplazadas. En el
caso de los LIT continuos no existe una secuencia discreta de valores de
entrada [23]. Sin embargo, al pensar en el impulso unitario como la idealizacin
de un pulso tan corto que su duracin no tiene consecuencias en un sistema
fsico real, se puede realizar y desarrollar una representacin para seales
continuas arbitrarias en trminos de stos pulsos idealizados con una duracin
pequea que tiende a desaparecer [12].
Para esta seccin tomamos como base una seal & ' que representa a la
suma de versiones escaladas y desplazadas de la seal pulso bsico
lo tanto la respuesta & '

, por

de un sistema lineal a esta seal ser la

superposicin de las respuestas a las versiones escaladas y desplazadas de


)

[22]. Se define a *

' .

' como la respuesta de un sistema LIT a la entrada

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Entonces, suponiendo un sistema lineal de tiempo continuo, vemos que:

& ' =

'

Ec. 1.4

Dado que el pulso

' corresponde a un impulso unitario desplazado

conforme 0, la respuesta *

' a este pulso de entrada se convierte en la

respuesta a un impulso en el lmite. Por lo tanto, se hace , ' denote la


respuesta en el tiempo t a un impulso unitario

-, entonces

' = lim

' - localizado en el tiempo

'

Ec. 1.5

[22] Conforme 0, la sumatoria del lado de derecho se convierte en una


integral, por tanto,
' =0

- , ' 1-

Ec. 1.6

Quitando el subndice y definiendo la respuesta al impulso unitario h(t) como


' = . '
Ec. 1.7

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

Captulo 1. Conceptos de Procesamiento de Seales

Es decir, h(t) es la respuesta a

' . En este caso la ecuacin se vuelve:

' =0

- ' - 1Ec. 1.8

A sta ecuacin se le conoce como integral de convolucin, y corresponde a


la representacin de un sistema LIT continuo en trminos de su respuesta a un
impulso unitario [5]. La convolucin de dos seales x(t) y h(t) se representa
simblicamente como
' =

' '
Ec. 1.9

1.2.3 Propiedades de los sistemas LIT

Los sistemas LIT tiene varias propiedades que no poseen otros sistemas, en
esta seccin se explorarn algunas de las ms importantes y bsicas de estas
propiedades, las cuales se separan en discretas y continuas para poder
observar cada uno de los tipos de LIT por separado [11].

Propiedad Conmutativa
Una propiedad bsica de la convolucin tanto continua como discreta,
consiste en que es una operacin conmutativa.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

10

Captulo 1. Conceptos de Procesamiento de Seales

Caso discreto:

Ec. 1.10

Caso continuo:

' ' = '

' =0 -

' - 1-

Ec. 1.11

Propiedad Distributiva
Otra propiedad bsica de la convolucin es la propiedad distributiva. La
convolucin se distribuye a travs de la adicin [21].

Caso Discreto:
2

+ 4

Ec. 1.12

Caso Continuo:

' 2 ' + 4 '

' 2 ' +

' 4 '

Ec. 1.13

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

11

Captulo 1. Conceptos de Procesamiento de Seales

Propiedad asociativa
Otra propiedad importante y til de la convolucin es la asociativa [22].

Caso Discreto:
2

' 2 '

4 '

Ec. 1.14

Caso Continuo:
' 2 ' 4 '

Ec. 1.15

1.3 LA TRANSFORMADA CONTINUA DE FOURIER

La representacin de seales no peridicas se puede lograr mediante una


combinacin lineal de exponenciales complejas [12]. Mientras que para las
seales peridicas las exponenciales complejas que las constituyen estn
relacionadas

armnicamente,

para

las

seales

aperidicas

estn

infinitesimalmente cercanas en frecuencia, y la representacin en trminos de


una combinacin lineal adopta la forma de una integral, en lugar de una suma.
El espectro de coeficientes resultante en esta representacin se conoce como
transformada de Fourier, y la integral de sntesis por s misma, la cual usa
estos coeficientes para representar la seal como una combinacin lineal de
exponenciales complejas, se llama la transformada inversa de Fourier [11].
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

12

Captulo 1. Conceptos de Procesamiento de Seales

1.3.1 Representacin de seales aperidicas

Para tener una idea sobre le representacin de la transformada de Fourier,


comenzaremos por definir la representacin de la transformada de Fourier de
una onda peridica cuadrada continua sobre un periodo de tiempo [5].
1, |'| <

' =5
0,

< |'| <

Para esta forma, los coeficientes de la serie de Fourier ; para esta onda
cuadrada son

; =

2<=

>.

>?

Ec. 1.16

donde >. =

4@
A

. Una forma alternativa de representar la ecuacin 1.16 es en

forma de muestras de una funcin envolvente, resultando

; =

2<= B
B

CD

Ec. 1.17

Esto es, tomando a B como una variable continua, la funcin (2senB

/B

representa la envolvente de ; , y los coeficientes ; son muestras igualmente


espaciadas de esta envolvente. Para un valor fijo de

la envolvente de ; es

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

13

Captulo 1. Conceptos de Procesamiento de Seales

independiente de T [22]. Se deduce que a medida que T se incrementa, o a


medida que la frecuencia fundamental B. = 2F/ disminuye, la envolvente se

muestrea con un espaciamiento cada vez ms estrecho. Por otro lado,


conforme T incrementa, la onda cuadrada peridica original se aproxima a un
pulso rectangular. As mismo, los coeficientes de la serie de Fourier,
multiplicados por T, resultan en muestras de la envolvente con un
espaciamiento cada vez ms estrecho; de alguna manera el conjunto de
coeficientes de la serie de Fourier se aproxima a la funcin de la envolvente a
medida que

[11].

Este ejemplo muestra la idea bsica que permiti a Fourier el desarrollo de una
representacin para seales aperidicas. En forma especfica, se piensa en
una seal aperidica como el lmite de una seal peridica cuando el periodo
se hace excesivamente grande, y se examina el comportamiento limitante de la
representacin de la serie de Fourier para esta seal [23]. Ahora se considera
una seal x(t) con duracin finita, para un nmero de

2,

' = 0 <H |'| >

2,

como se ilustra en la imagen 1.5(a). A partir de esta seal aperidica podemos


construir una seal peridica & ' para la cual x(t) sea un periodo, como se
muestra en la figura 1.5(b). Como se ha escogido el periodo T de tal manera
que sea grande, & ' es igual x(t) sobre un intervalo largo, y conforme
& ' es igual x(t) para cualquier valor finito de t [22].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

14

Captulo 1. Conceptos de Procesamiento de Seales

Fig. 1.5 (a) Seal aperidica x(t) (b) Seal peridica & ' construida para que sea igual a x(t)
en un periodo [22].

Se examina ahora el efecto de esto sobre la representacin en serie de Fourier


de & ' , sobre el intervalo /2 K ' K /2 tenemos

& '

; =L

CD )

Ec.1.18

A
4

0& ' =
A
4

L CD )

1'

Ec. 1.19

donde B.

2F/ [11]. Ya que & '

' para |'| 9 /2, y tambin, ya que

x(t)=0 fuera de dicho intervalo, la ecuacin 1.19 se puede escribir como

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

15

Captulo 1. Conceptos de Procesamiento de Seales

; =

A/4

A/4

' =

L CD )
1'

' =

L CD )
1'

Ec. 1.20

Por lo tanto, se define la envolvente M NB de ; como

M NB = 0

' =

L CD )

1'

Ec. 1.21

Tenemos para los coeficientes ; ,

; =

M N B.

Ec. 1.22

Combinando las ecuaciones 1.22 y 1.18 se puede expresar en trminos de


M NB como

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

16

Captulo 1. Conceptos de Procesamiento de Seales

& ' =

M N B. = L

CD )

Ec. 1.23

O de manera equivalente, ya que

& '

4@
A

1
2F

B. ,

M N B. = L

CD )

B.

Ec. 1.24

Cuando

, & ' se aproxima a

' y en consecuencia, la ecuacin 1.24 en

el lmite se convierte en una representacin de


conforme

' [22]. Adems, B. 0

, y el miembro derecho de la ecuacin 1.24 se vuelve una

integral. Esto se puede ver al considerar la interpretacin grfica de la ecuacin


que se muestra en la figura 1.6.

Fig. 1.6 Representacin grfica de la ecuacin 1.24 [22].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

17

Captulo 1. Conceptos de Procesamiento de Seales

Cada trmino en la sumatoria en el miembro derecho es el rea de un


rectngulo de altura M N B. = L

CD )

y ancho B. . Conforme B. 0, la sumatoria

converge a la integral de M NB = LC) . Por lo tanto, como & '

' conforme

, se puede ver que las ecuaciones 1.24 y 1.21 se convierten

respectivamente [5].

' =

1
0 M NB = LC) 1B
2F
Ec. 1.25

M NB = 0

' =

LC)

1'

Ec. 1.26

Las ecuaciones 1.25 y 1.26 son conocidas como el par de transformadas de

Fourier cuya funcin M NB se conocer como transformada de Fourier o integral


de Fourier de x(t), y la ecuacin 1.25 como la ecuacin de la transformada
inversa de Fourier [12]. La ecuacin, en las seales aperidicas, representan la
seal como una combinacin lineal de exponenciales complejas. La
transformada M NB de una seal aperidica
el espectro de
describir a

'

' se conoce comnmente como

' , ya que nos proporciona la informacin necesaria para

como una combinacin lineal de seales senoidales a

diferentes frecuencias.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

18

Captulo 1. Conceptos de Procesamiento de Seales

1.3.2 LA TRANSFORMADA DE FOURIER PARA SEALES PERIDICAS

En la seccin anterior se desarroll la representacin de la transformada de


Fourier, ah se enfoc sobre todo en las seales aperidicas, pero se pudo
tambin desarrollar las representaciones de la transformada de Fourier para
seales peridicas. Se puede construir de forma directa la transformada de
Fourier de una seal peridica a partir de su representacin en serie de
Fourier. La transformada resultante consistir en un tren de impulsos en el
dominio de la frecuencia, con las reas de los impulsos proporcionales a los
coeficientes de la serie de Fourier [22].
' con transformada de Fourier M NB que consiste

Se considera una seal

en un solo impulso de rea 2F en B = B. ; esto es,


M NB = 2F

B B.

Ec. 1.27

Para determinar la seal

' de la cual sta es la transformada de Fourier

podemos aplicar la relacin de la transformada inversa, ecuacin 1.25, para


obtener

' =

1
0 2F
2F

B B. = LC) 1B

Ec 1.28

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

19

Captulo 1. Conceptos de Procesamiento de Seales

De manera ms general, si M NB es de la forma de una combinacin lineal de


impulsos igualmente espaciados en frecuencia, esto sera

M NB =

2F;

B B.

Ec. 1.29

Entonces la aplicacin de la ecuacin 1.25 nos da

' =

; =L

CD )

Ec. 1.30

Vemos que la ecuacin 1.30 corresponde exactamente a la representacin de


la serie de Fourier de una seal peridica. Por lo tanto, la transformada de
Fourier de una seal peridica con coeficientes de la serie de Fourier ;

se

pueden interpretar como un tren de impulsos que ocurren a las frecuencias


relacionadas armnicamente y para las cuales el rea del impulso en la kesima
frecuencia armnica

Fourier ; [11].

B. es 2F veces el k-simo coeficiente de la serie de

1.3.3 PROPIEDADES DE LA TRANSFORMADA CONTINUA DE FOURIER

En esta seccin se consideran varias propiedades de la transformada de


Fourier. Las propiedades de la transformada de Fourier proporcionan un gran
conocimiento acerca de la transformada y de la relacin que existe entre las
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

20

Captulo 1. Conceptos de Procesamiento de Seales

descripciones de una seal en los dominios del tiempo y de la frecuencia [12].


Adems, la mayora de estas propiedades son tiles para reducir la
complejidad en la evaluacin de las transformadas o de las transformadas
inversas de Fourier. Existe mucha relacin entre las representaciones de la
serie de Fourier y de la transformada de Fourier de una seal peridica, por lo
tanto, haciendo uso de esta relacin es posible trasladar muchas de las
propiedades de las transformadas de Fourier hacia las propiedades
correspondientes de las series de Fourier [23].

Durante el anlisis de las propiedades, se remitir con frecuencia a funciones


de tiempo y sus transformadas de Fourier, por lo cual se usar una notacin
sinttica para indicar la relacin entre una seal y su transformada. Una seal
'

y su transformada de Fourier M NB

estn relacionadas mediante las

ecuaciones de sntesis (Ec. 1.25) y de anlisis (Ec. 1.26) de la transformada de


Fourier [11].
' =

1
0 M NB = LC) 1B
2F
Ec. 1.31

M NB = 0

' =

LC)

1'

Ec. 1.32

Tambin se podr aludir a M NB mediante la notacin O| ' | y a

notacin de O

2 |M

NB |. Tambin se referir a

' con la

' y M NB como un par de

transformadas de Fourier mediante la notacin:

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

21

Captulo 1. Conceptos de Procesamiento de Seales


P

' M NB

Linealidad [22]

Si
P

' M NB
y
P

' R NB
entonces
P

; ' + S ' ;M NB + SR NB
Ec. 1.33

Desplazamiento del tiempo [11]

Si
P

' M NB
Entonces
P

' '. =

LC)D

M NB

Ec. 1.34

Para establecer esta propiedad se considera la ecuacin 1.31:


' =

1
0 M NB = LC) 1B
2F

Reemplazando t con ' '. en esta ecuacin, se obtiene:


' '. =

1
0 M NB = LC
2F

) )D

1B

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

22

Captulo 1. Conceptos de Procesamiento de Seales

1
0
2F

LC)D

M NB = LC) 1B

Se reconoce en sta como la ecuacin de sntesis para


concluye que

' '.

==

LC)D

' '. , se

M NB

Una consecuencia de la propiedad de desplazamiento es que una seal


que es desplazada en tiempo, no tendra alterada la magnitud de su
transformada de Fourier [22]. Por lo tanto, un efecto de un
desplazamiento en el tiempo de una seal es introducir en su

transformada un desplazamiento de fase, esto es, B'. , la cual es una


funcin de B.

Diferenciacin e integracin

Sea

'

una seal con una transformada de Fourier M NB . [23]

Entonces, al diferenciar ambos miembros de la ecuacin de sntesis (Ec.


1.31) de la transformada de Fourier, se obtiene:
1 '
1
=
0 NBM NB = LC) 1B
1'
2F

Por tanto

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

23

Captulo 1. Conceptos de Procesamiento de Seales

1 ' P
NBM NB
1'
Ec. 1.35

sta es una propiedad de particular importancia, ya que reemplaza la


operacin de diferenciacin en el dominio del tiempo con la de
multiplicacin por NB en el dominio de la frecuencia.

Escalamiento de tiempo y frecuencia [22]

Si
P

' M NB

Entonces
P

;'

1
NB
M
|;|
;

Ec. 1.36

Donde ; es una constante real. Esta propiedad se obtiene directamente


de la definicin de la transformada de Fourier. Especficamente,

OT ;' U = 0

;' =

LC)

1'

Usando la sustitucin de variables - = ;', se obtiene:

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

24

Captulo 1. Conceptos de Procesamiento de Seales

OT ;' U =

Y 1 0
W ;
X 1
W ; 0
V

- =

- =

C
LZ \,
[ 1-, ;

C
LZ \,
[ 1-, ;

>0

>0

La cual corresponde a la ecuacin 1.36. Entonces, adems del factor de


amplitud de 1/|;|, el escalamiento lineal en tiempo por un factor a

corresponde a un escalamiento lineal en frecuencia por un factor 1/;, y

viceversa.
Tambin, considerando que ; = 1, en la ecuacin 1.36 se tiene:
P

' M NB
Ec. 1.37

Esto es, al invertir una seal en el tiempo tambin se invierte su


transformada de Fourier.

Un ejemplo de la ecuacin 1.36 es el efecto en el contenido de la


frecuencia que resulta cuando una cinta de audio se graba a una
velocidad y se reproduce a diferente velocidad. Si la velocidad de
reproduccin es mayor que la velocidad de grabacin, corresponde a
una compresin en tiempo (; > 1), entonces el espectro se expande en
frecuencia y el efecto auditivo consiste en que las frecuencias de la
reproduccin son ms altas [12]. De manera contraria, la seal tendr

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

25

Captulo 1. Conceptos de Procesamiento de Seales

frecuencias ms bajas si la velocidad de reproduccin es ms lenta que


la velocidad de grabacin (0 < ;).

La propiedad de escalamiento es un ejemplo de la relacin inversa entre


el tiempo y la frecuencia. Por ejemplo, conforme se incrementa el
periodo de una seal senoidal, disminuimos su frecuencia [11].

La relacin inversa entre el dominio del tiempo y de la frecuencia es de


gran importancia dentro de una amplia variedad de contextos de seales
y sistemas, incluyendo el filtrado y diseo de filtros.

1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO

En las secciones anteriores se pudo ver que existen muchas similitudes y un


marcado paralelismo en el anlisis de las seales continuas y discretas, pero
tambin se observ que existen diferencias importantes, por ejemplo, la
representacin en serie de Fourier de una seal peridica discreta es una serie
finita, opuesta a la representacin en serie infinita requerida para las seales
peridicas continuas [22].

Existen diferencias que son correspondientes en las transformadas de Fourier


continua y de tiempo discreto.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

26

Captulo 1. Conceptos de Procesamiento de Seales

1.4.1 Representacin de seales aperidicas

En la seccin 1.3.1 se estableci que los coeficientes de la serie de Fourier


para una onda cuadrada peridica continua se pueden considerar como las
muestras de una funcin envolvente y que, conforme el periodo de la onda
cuadrada se incrementa, estas muestras llegan a estar cada vez ms cercanas
unas de otras [11]. Esta propiedad sugiri la representacin para una seal
aperidica

' construyendo primero una seal peridica ] ' que igualara a

' sobre un periodo. Entonces conforme este periodo se aproximaba a infinito

] ' era igual a

' sobre intervalos de tiempo cada vez ms grandes, y la

representacin en serie de Fourier para ] ' se aproximaba a la representacin


de la transformada de Fourier de

' [22]. Ahora se aplicar un procedimiento

anlogo a las seales discretas para desarrollar la representacin de la


transformada de Fourier para secuencias aperidicas discretas.

Se considera una secuencia general

^ _ que tiene duracin finita. Esto es,

para algunos enteros `2 y `4 , ^ _ = 0 fuera del intervalo `2

`4 . En la

figura (a) se muestra una seal de este tipo [23]. A partir de esta seal
aperidica podemos construir una secuencia peridica ]

para la cual ^ _

sea un periodo, como se ilustra en la figura (b). Cuando se hace que el periodo
sea ms grande, ]
conforme ` , ]

es idntica a

^ _ sobre un intervalo ms grande, y

para cualquier valor finito de n.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

27

Captulo 1. Conceptos de Procesamiento de Seales

Fig. 1.7 (a) Seal x[n] de duracin finita. (b) seal peridica ]

construida para que sea

igualada a x[n] en un periodo [22].

Se examina la representacin en serie de Fourier de ]


]

; =

L Z

, se tiene:

4@
\b
a

Ec. 1.38

; =

1
`

L Z

4@
\b
a

Ec. 1.39

Puesto que

sobre un periodo que incluye el intervalo `2 K

K `4 ,

es conveniente seleccionar un intervalo de la sumatoria en la ecuacin 1.39


que incluya este intervalo, de manera que ]

pueda reemplazarse por x[n] en

la sumatoria [11]. Por lo tanto,

1
`

ac
b

ad

L Z

4@
\b
a

1
`

L Z

4@
\b
a

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

28

Captulo 1. Conceptos de Procesamiento de Seales


Ec. 1.40

donde en la segunda igualdad nos hemos valido del hecho de que x[n] es cero
fuera del intervalo `2

`4 . Definiendo la funcin

Me= LC f =

LCb

Ec. 1.41

Se puede observar que los coeficientes ; son proporcionales a las muestras

de M = LC , es decir,

; =

1
M =L
`

CD

Ec. 1.42

Donde B. = 2F/` es el espaciamiento de las muestras en el dominio de la


frecuencia [22]. Al combinar las ecuaciones 1.38 y 1.42 se obtiene

1
M =L
`

CD

=L

CD b

Ec. 1.43

Ya que B. = 2F/` o de manera equivalente, 1/N = B. /2F, la ecuacin 1.43 se


puede reescribir como

1
2F

M =L

CD

=L

CD b

B.

Ec. 1.44

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

29

Captulo 1. Conceptos de Procesamiento de Seales

Conforme N aumenta, B. disminuye, y conforme ` la ecuacin 1.44 se


vuelve una integral. Para ver esto ms claramente, se considera que se
representa M = LC = LCb como el trazo de la figura 1.8. De la ecuacin 1.41 se
puede ver que M = LC es peridica en B con periodo 2F y tambin lo es = LCb .
Entonces el producto M = LC = LCb tambin ser peridico [12].

Fig. 1.8 Representacin grfica de la ecuacin 1.44 [22].

Como hemos representado en la figura, cada trmino en la sumatoria de la


ecuacin 1.44 representa el rea de un rectngulo de altura M = L

CD

= LCD b y

ancho B. . A medida que B. 0, la sumatoria se vuelve una integral. Debido a


que la sumatoria se realiza sobre N intervalos consecutivos de ancho
B.

2F/`, el intervalo total de integracin siempre tendr un ancho de 2F [23].

Por lo tanto, medida que ` , ]

, y la ecuacin 1.44 se convierte en

1
0 M = LC = LCb 1B
2F 4@
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

30

Captulo 1. Conceptos de Procesamiento de Seales

donde, debido a que M = LC = LCb es peridica con periodo 2F, el intervalo de

integracin se puede tomar como cualquier intervalo de longitud 2F [12] . Se

tiene as el siguiente par de ecuaciones:


=

1
0 M = LC = LCb 1B
2F 4@
Ec. 1.45

Me= LC f =

LCb

Ec. 1.46

Las ecuaciones (1.45) y (1.46) son la contraparte discreta de las ecuaciones de


(1.25) y (1.26). La funcin M = LC so conoce como la transformada de Fourier

de tiempo discreto y el par de ecuaciones se conocen como el par de


transformada de Fourier. La ecuacin 1.45 es la ecuacin de sntesis y la
ecuacin 1.46 es la ecuacin de anlisis [22]. La ecuacin de sntesis es una
representacin de x[n] como una combinacin lineal de exponenciales
complejas muy cercanas en frecuencia y con amplitudes Me= LC f

gC
4@

. Es por

esto, igual que en el caso continuo, que regularmente se hace referencia a la


transformada Me= LC f como el espectro de x[n], ya que proporciona la

informacin acerca de cmo x[n] est compuesta de exponenciales complejas


a frecuencias diferentes.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

31

Captulo 1. Conceptos de Procesamiento de Seales

1.4.2 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO PARA


SEALES PERIDICAS.

Como en el caso continuo [11], las seales peridicas discretas se pueden


incorporar dentro del marco de referencia de la transformada de Fourier de
tiempo discreto cuando se interpreta la transformada de una seal peridica
como un tren de pulsos en el domino de la frecuencia. Para deducir la forma de
esta representacin, se considera la seal
= = LCD b
Ec. 1.47

En el caso continuo se vio que la transformada de Fourier de = LCD ) se puede

interpretar como un impulso en B = B. . Por lo tanto, se espera que resulte el

mismo tipo de transformada para la seal discreta de la ecuacin 1.47. Sin


embargo, la transformada de Fourier de tiempo discreto debe ser peridica en

B con periodo de 2F [22]. Esto nos seala entonces que la transformada de


Fourier de x[n] en la ecuacin 1.47 debe tener impulsos en B. , B. 2F,

B. 4F y as sucesivamente.

Esto nos da la transformada de Fourier de x[n] como un tren de impulsos que


se muestra en la figura 1.9

Me= LC f =

2F B B. 2Fj
Ec. 1.48

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

32

Captulo 1. Conceptos de Procesamiento de Seales

= = LCD b [22].

Fig. 1.9Transformada de Fourier de

Se observa que cualquier intervalo de longitud 2F incluye exactamente un


impulso en la sumatoria expresada en la ecuacin 1.48.

1.4.3 PROPIEDADES DE LA TRANSFORMADA DE FOURIER DE TIEMPO


DISCRETO

Justo como ocurre con la transformada continua de Fourier, existen una gran
variedad de propiedades de la transformada de Fourier de tiempo discreto, esto
proporciona un mayor conocimiento de la transformada, lo cual es muy til
conocer para reducir la complejidad de la evaluacin de las transformadas y las
transformadas inversas [23]. Es importante conocer que existe una estrecha
relacin entre la serie de Fourier y la transformada de Fourier, por lo cual
muchas propiedades de la transformada se derivan de las propiedades
correspondientes de la serie de Fourier de tiempo discreto.
Es conveniente utilizar una notacin especfica para indicar el par de una seal
y su transformada. Esto es,
Me= LC f
O

OT
2

lM = LC m

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

33

Captulo 1. Conceptos de Procesamiento de Seales


P

M = LC

Periodicidad de la transformada de Fourier de tiempo discreto

Como se analiz anteriormente, la transformada de Fourier de tiempo


discreto siempre es peridica en B con un periodo 2F; es decir,
Me= L

Cn4@

f = M = LC

Ec. 1.49

Esta expresin contrasta con la transformada continua de Fourier, la


cual en general es no peridica [11].

Linealidad de la transformada de Fourier [12]

Si
P

M2 = LC

M4 = LC

Y
P

Entonces
;

+S

;M2 e= LC f + SM4 = LC
Ec. 1.50

Desplazamiento de tiempo y desplazamiento de frecuencia [22]


Si
P

M = LC
Entonces

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

34

Captulo 1. Conceptos de Procesamiento de Seales

LCbD

Me= LC f

Ec. 1.51

Y
= LCD b

M =L

C CD

Ec. 1.52

La ecuacin 1.51 se puede obtener mediante la sustitucin directa de

en la ecuacin de anlisis (1.46), mientras que la ecuacin

1.52 se deduce al sustituir M = L

C CD

en la ecuacin de sntesis (1.45).

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

35

Captulo 2. Caracterizacin en tiempo y frecuencia

CAPTULO 2. CARACTERIZACIN EN TIEMPO Y FRECUENCIA

Los campos de aplicacin de las representaciones Tiempo Frecuencia son


cada vez ms amplios, pues se ha comprobado que mejoran los resultados de
los mtodos espectrales y temporales clsicos al ser capaces de reflejar
cambios en frecuencia con respecto al tiempo (transitorio espectrales), cosa
que en un anlisis espectral clsico no se puede detectar, por lo que la
clasificacin o deteccin de determinadas propiedades de la seal analizada se
mejora [6]. Anlogamente, los mtodos basados en caractersticas temporales
no consiguen detectar caractersticas esenciales de la seal que son las que
muestran con certeza su naturaleza. Por ello, un uso combinado de ambos
dominios resulta en el aprovechamiento de caractersticas tiles presentes en
ambos dominios para as realizar diagnsticos ms fiables [10]. Inicialmente se
aplic en la deteccin por radar y reconocimiento del habla, pero hoy en da se
aplica en casi todos los campos de tratamiento digital de seales.

2.1 CONCEPTO DE TIEMPO - FRECUENCIA

Especificar la representacin en dominio del tiempo o de la frecuencia a una


seal cualquiera, no es necesariamente el primer paso de un anlisis tiempo
frecuencia. De hecho, las limitaciones de estas representaciones pueden
obstaculizar en gran medida nuestra comprensin de las propiedades de la
seal [23]. En una seal musical, el odo humano la interpreta como una serie
de notas, una serie de tomos de sonido apareciendo a determinados

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

36

Captulo 2. Caracterizacin en tiempo y frecuencia

tiempos, cada nota tiene una duracin finita y determinada altura (la frecuencia
del tono). Si la seal contiene una nota, por ejemplo LA, una representacin de
Fourier de la seal mostrar un pico en la frecuencia correspondiente, sin
ninguna indicacin de la duracin. La msica generalmente se representa en
una partitura. Y se sabe que la relacin tiempo frecuencia es precisamente la
informacin que est codificada en la notacin musical (Ver Fig. 2.1). Por ello,
se puede decir que la notacin musical es el prototipo de la representacin
tiempo frecuencia de las seales [30].

Fig. 2.1. Partitura de un arpegio [23].

(a)

(b)
Fig. 2.2. Seal (a) y Espectro de Fourier (b) del arpegio [23].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

37

Captulo 2. Caracterizacin en tiempo y frecuencia

Fig. 2.3. Representacin Tiempo Frecuencia del arpegio [23].

Cuando la seal mostrada en la Fig. 2.1 es tocada con algn instrumento como
una flauta, es difcil de detectar su estructura matemtica De hecho, la
representacin grfica de la seal y su espectro de Fourier (Fig. 2.2) no son
capaces de revelar dicha estructura [7]. Por el contrario, el hecho de que es un
arpegio es mucho ms claro en una representacin tiempo frecuencia como
la representada en la Fig. 2.3, en la cual el tiempo y la frecuencia se
representan simultneamente. Se puede ver claramente que la representacin
tiempo frecuencia de la seal se localiza alrededor de cierto nmero de
puntos, y es posible asociar dichos puntos con las notas individuales (o sus
armnicos). Tambin se puede seguir la evolucin de la frecuencia
fundamental de la seal [23]. En la Fig. 2.3 se observa que la seal sigue una
curva que corresponde con la partitura de la Fig. 2.1.

En este captulo se hablar de algunos mtodos matemticos usados en la


representacin tiempo frecuencia de seales, tambin es necesario
mencionar alguno de las caractersticas principales de las representaciones
tiempo frecuencia,

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

38

Captulo 2. Caracterizacin en tiempo y frecuencia

No existe un solo mtodo para la representacin tiempo frecuencia:


Existen diferentes maneras de describir el contenido tiempo
frecuencia de una seal.

Para una determinada representacin tiempo frecuencia, es imposible


lograr una localizacin tiempo frecuencia perfecta. Debido al principio
de incertidumbre de Heisenberg. Esto significa que siempre se debe
suponer un pequeo error entre la localizacin del tiempo y la
localizacin de la frecuencia [8].

2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO (STFT)

Como primera aproximacin a las transformadas tiempo frecuencia, una


posibilidad consiste en analizar la seal con transformadas de Fourier de
tiempo corto. As, tomando pequeas ventanas de la seal se apreciar que la
distribucin espectral de cada una de ellas vara con el tiempo, pudiendo
conocer con ms precisin la evolucin de las componentes espectrales [15].

La transformada corta de Fourier ha sido muy utilizada en diferentes


aplicaciones debido a su sencillez de implementacin, pero dada su baja
resolucin espectral y temporal se tiende a dejar de utilizarla a favor de otros
mtodos. Es empleada frecuentemente para el anlisis de voz, y en el campo
de las seales biomdicas para deteccin de FV [10].

Si para una seal de larga duracin se toman pequeos tramos de ella


realizando un enventanado, y se calcula la transformada de Fourier de ese

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

39

Captulo 2. Caracterizacin en tiempo y frecuencia

tramo, podremos conocer las componentes frecuenciales de cada tramo en una


ventana de tiempo pequea. As, analizando cada transformada de Fourier se
observa el cambio de dichas componentes frecuenciales [18]. La transformada
de Fourier de tiempo corto se define como:

Ec. 2.1

La eleccin del tamao de la ventana

es crtica a la hora de obtener buena

resolucin. Si lo que se desea es obtener una resolucin grande en el dominio


temporal elegiremos una ventana de poca longitud, en cambio, la distribucin
espectral estar muy dispersa y no podremos conocer con exactitud sus
componentes. Por el contrario, la eleccin de una ventana grande nos mostrar
con ms precisin las componentes en frecuencia, pero se perder la idea del
momento en que se produjeron cada una de ellas [30].

La ventana de anlisis que se haya escogido para trabajar suprime a toda la


seal fuera de sta, el resultado es un espectro local alrededor de t.

Se toma como ejemplo la palabra GABOR, la cual se muestra su grfica de


tiempo y su densidad espectral de energa en la Fig. 2.4.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

40

Captulo 2. Caracterizacin en tiempo y frecuencia

Fig 2.4. Seal de voz correspondiente a la palabra GABOR. Seal en el tiempo y su densidad
espectral de energa [6].

En la Fig. 2.4 se puede observar que existen componentes principales a


diferentes frecuencias, pero no se puede especificar en que momento
ocurrieron [6].

Despus de utilizar la Transformada de Fourier de Tiempo Corto, se grafica la


magnitud al cuadrado utilizando una ventana de anlisis de Hamming de 85
puntos. El resultado se muestra en la Fig. 2.5.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

41

Captulo 2. Caracterizacin en tiempo y frecuencia

Fig. 2.5. Seal de voz analizada en el plano tiempo frecuencia [6].

En la Fig. 2.5. se puede observar un primer patrn correspondiente a la slaba


GA, un segundo patrn correspondiente a la slaba BOR y armnicas de
menor amplitud.

Los principales campos de aplicacin dentro del procesado de seales han sido
la identificacin de sistemas, estimacin espectral, deteccin de seales,
estimacin de parmetros y anlisis del habla [6].

2.3 DISTRIBUCIN WIGNER VILLE

La distribucin Wigner - Ville (WVD) data de 1948 y es histricamente la


primera tcnica que busca obtener informacin sobre una seal, consiguiendo
simultneamente una localizacin temporal y frecuencial. Fue propuesta por
J. Ville como una densidad temporal frecuencial. Cuando se la aplica a
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

42

Captulo 2. Caracterizacin en tiempo y frecuencia

oscilaciones

puras,

comportamiento

proporciona

se

mantiene

una

tambin

localizacin
a

ptima.

seales

que

El

son

buen
ciertas

transformaciones simples de una nica oscilacin pura. Pero aparecen


problemas al analizar seales ms complejas, por ejemplo la suma de seales
simples. En estos casos el resultado no es la suma de las WVD de aqullas,
sino que aparecen trminos de interferencia. En definitiva, la WVD no es
lineal [14].

Dada una seal f, su transformada Wigner Ville est definida como

"

Ec. 2.2.

siendo x(t) la seal analtica asociada a la seal original. Es decir:

+ $%
Ec. 2.3

siendo H( f(t) ) la transformada de Hilbert de f(t).

Si denotamos:

Ec. 2.4

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

43

Captulo 2. Caracterizacin en tiempo y frecuencia

a esta funciTrn se le denomina t-autocorrelacin. Siendo su interpretacin


similar a la autocorrelacin pero dando informacin localizada en el instante t
[13].

Como la transformada de Fourier de la autocorrelacin proporciona el mdulo


de la transformada de Fourier de la seal, la distribucin de Wigner Ville se
interpresta como el mdulo de la contribucin para una frecuencia ' en un
instante t de la seal [7].

La sugerencia original de Ville fue considerar la transformada Wigner Ville de


una seal como una probabilidad de medida en el plano tiempo frecuencia.
Esta propuesta demostr ser inadecuada, debido a los valores negativos que
tiene la representacin. Sin embargo, la transformada de Wigner Ville tiene
algunas propiedades interesantes. Entre ellas, las propiedades de localizacin
son consideradas de gran importancia [14]. Ellas expresan que la transformada
se adapta de una manera excelente para algunas clases especficas de
seales; por ejemplo, se puede decir que la Transformada es Fourier es ptima
para sinos y cosenos, tomando en cuenta que toda la energa de la
transformada de Fourier en dichas funciones, est localizada en un solo punto
[7]. Teniendo en cuenta que una localizacin optima para diferentes clases de
seales es una de las metas ms importantes en el anlisis de tiempo
frecuencia, tenemos que:

La transformada de Wigner Ville tiene una localizacin ptima para


seales Dirac.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

44

Captulo 2. Caracterizacin en tiempo y frecuencia

La transformada de Wigner Ville tiene una localizacin ptima en el


dominio de la frecuencia en las ondas monocromticas puras y en las
seales chirp lineales. (Fig. 2.6)

Fig. 2.6. Distribucin Wigner Ville de una seal chirp linear: casi una perfecta localizacin en
el plano tiempo frecuencia [6].

Conservacin de la Energa [13]: Integrando la distribucin Wigner


Ville en todo el plano tiempo frecuencia, se obtiene la energa de x:

() =

Ec. 2.5

Propiedad Marginal: La densidad del expectro de energa y a potencia


instantnea pueden obtenerse como distribuciones marginales de

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

).

45

Captulo 2. Caracterizacin en tiempo y frecuencia

#
#

#
#

= |+

= |

Traduccin de covarianza [14]: La distribucin de Wigner Ville es


covariante en tiempo y frecuencia.

"/

,,

Compatibilidad con filtraciones: Si una seal y es la convolucin de x y h,


la WVD de y es la convolucin del tiempo entre la WVD de h y la WVD
de x.

#
#

#
#

0,

0,

Compatibilidad con modulaciones: Si y es la modulacin de x de una


funcin m, la WVD de y es la convolucin de las frecuencias entre la
WVD de x y la WVD de m.
=2

#
#

, 4

,4

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

46

Captulo 2. Caracterizacin en tiempo y frecuencia

La distribucin Wigner Ville es bastante efectiva en la descomposicin tiempo


frecuencia de seales no estacionarias; su resolucin es mayor comparada a la
resolucin entregada por tcnicas lineales como la STFT, lo que permite una
mejor localizacin de la energa en el espacio tiempo frecuencia [13].

2.4 TRANSFORMADA DE GABOR

Una clase de representaciones tiempo frecuencia ampliamente difundida en


el mbito del procesamiento de seales se basa en el empleo de ventanas
temporales, esto es de funciones suaves y bien localizadas en un intervalo.

La ventana g(t) enmarca una porcin de la seal y permite aplicar localmente la


Transformada de Fourier. De este modo, se releva la informacin en frecuencia
localizada temporalmente en el dominio efectivo de la ventana.

Desplazando temporlamente la ventana se cubre el dominio de la seal


obtenindose la completa informacin tiempo frecuencia de la misma [6]:

05 , 6 =

Ec. 2.6.

Asumiendo que la ventana real g(t) est bien localizada en un intervalo


centrado en t=0, de longitud y que su transformada g(w) est tambin
localizada en una banda centrada en w=0, de ancho 6, las ventanas
desplazadas y moduladas 7

son funciones elementales bien

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

47

Captulo 2. Caracterizacin en tiempo y frecuencia

localizadas en el domunio conjunto tiempo frecuencia. Cada funcin


elemental se localiza en el rectngulo centrdo en el punto

, 6 de dimensin

6.

Por tanto el conjunto de valores :05 , 6 ; nos da un completo mapa en el


dominio tiempo frecuencia que despliega la informacin de la seal. Ms an,
sta puede recuperarse con la frmula de inversin [12]:

1
2=

05 , '

>

'

Ec. 2.7.

La misma sintetiza la seal como la superposicin integral de las funciones


elementales 7

>

. El mapeo sobre dominio tiempo frecuencia, bajo

las condiciones referidas, se conoce como la transformada de Gabor y


representa una atractiva generalizacin de la transformada de Fourier.

Esta transformada se puede reformular considerando ahora el par de ventanas


moduladas reales 7

cos '

y7

sin ' . Estos pares de ventanas

moduladas actan como filtros pasabanda, con definicin de fase. De tal modo
la Transformada de Gabor puede entenderse como un tratamiento localizado
de la seal mediante filtros pasabanda deslizantes, de ancho de banda
constante [18].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

48

Captulo 2. Caracterizacin en tiempo y frecuencia

2.4.1 Ventanas comunmente utilizadas

Cualquier ventana integrable puede utilizarse en la transformada de Gabor,


pero algunas opciones son ms convenientes que otras. La principal
caracterstica de una buena ventana es estar bien definidas en los dominios
del tiempo y la frecuencia. Algunas de las usadas ms comunmente se
muestran en la Fig. 2.7, y los logaritmos de sus transformadas de Fourier se
pueden ver en la Fig. 2.8.

Fig. 2.7. Ventanas comunmente utilizadas en el anlisis de Gabor. La notacin del eje
horizontal debe dividirse entre 512 para coincidir con las frmulas matemticas dadas en la
monografa [23].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

49

Captulo 2. Caracterizacin en tiempo y frecuencia

Fig. 2.8. Grfica del logaritmo ' DE7F, |7

| de las grficas mostradas en la Fig 2.7 [23].

La razn principal para usar estas ventanas es el hecho de que tengan formas
simples y funcionales y que sus transformadas de Fourier estan concentradas
esencialmente alrededor del origen ' = 0, como se ven en la Fig. 2.8. Las
frmulas matemticas que definen a dichas ventanas son las siguientes[18]:

Rectangular
7

=H

1, 0 I I 1/2
0, 1/2 K K 0
Ec. 2.8

Triangular (Bartlett)

2 , 0 I I 1/2
L2 1
, 1/2 K I 1
0, 1 K K 0
Ec. 2.9

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

50

Captulo 2. Caracterizacin en tiempo y frecuencia

Hanning

=H

0.54 0.46 cos 2= , 0


0, 1 <

1
<0

Ec. 2.10

Blackman

0.42 0.5 cos 2= + 0.08 cos 4= , 0


=H
0, 1 <

1
<0

Ec. 2.11

2.4.2 Ejemplo de Anlisis de Voz

Se considera la seal de voz de la Fig. 2.9. Un posible modelo para describir la


seal, al menos en su parte central, est dado por la ecuacin

= R ST
TXF

UE0T

Ec. 2.12

Con frecuencias aproximadamente de la forma YT

DY,

D', , donde ',

es la frecuencia de paso [12].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

51

Captulo 2. Caracterizacin en tiempo y frecuencia

Es claro que si el ancho de banda de la ventana a usarse en este ejemplo


excede ', , cada una de las funciones de Gabor con frecuencia dentro de la
banda de frecuencia de la seal ver varias armnicas de la seal. Esto es
perfectamente visible en la Fig. 2.9(c), donde la transformada de Gabor oscila
en funcin del tiempo con frecuencia igual a la altura de la seal [23].

Fig. 2.9 (a) Seal de Voz How are you, (b) Transformada de Gabor con una ventana estrecha,
(c) Transformada de Gabor con una ventana ms amplia [23].

En contraste, cuando el ancho de banda es ms pequeo que la frecuencia de


corte, no existe la interferencia.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

52

Captulo 2. Caracterizacin en tiempo y frecuencia

2.5 TRANSFORMADA WAVELET

Una alternativa a la transformada de Gabor es la de utilizar ventanas


moduladas, pero de dimensin variable, ajustada a la frecuencia de oscilacin.
Ms precisamente, que mantenga un mismo nmero de oscilaciones en el
dominio de la ventana. Esto sugiere, contar con una nica ventana modulada y
generar una completa familia de funciones elementales mediante sus
dilataciones o contracciones y traslaciones en el tiempo [20]:

\|]|

^
]

Ec. 2.13

Donde ] 0 y b son los parmetros de escala y traslacin. Se preserva la


energa de las funciones mediante un factor de normalizacin.

La funcin [

, debe verificar ciertas condiciones de admisibilidad y se

denomina wavelet madre y el resto de las funciones generadas, simplemente


wavelets [17]. Se denotan las mismas como:

[`,a

\|]|

^
]

Ec. 2.14

Las condiciones de admisibilidad bsicamente requieren que la funcin [

est bien localizada en tiempo, de media nula y que la transformada [b ' sea
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

53

Captulo 2. Caracterizacin en tiempo y frecuencia

un filtro continuo pasa banda, con rpido decaimiento hacia el infinito y hacia
' = 0.

Entonces, dada una seal s(t), de energa finita la Transformada Wavelet


Continua de s se define como:

c0

], ^ =

[`,a

Ec. 2.15

Para cada par de parmetros reales (a,b), ] 0. Si la onda es real, la


definicin se restringe para valores positivos de a [19]. La transformacin as
definida preserva la energa de la seal, y posee una frmula integral de
inversin. Si la wavelet madre es real, la reconstruccin se realiza como:

= dc

#
#

c0

], ^ [`,a

^ ]
]

Ec. 2.16

Donde dc es una constante positiva.

La frmula expresa la sntesis de la seal como la superposicin integral de las


funciones elementales [`,a

El mapeo sobre dominio tiempo frecuencia en (a,b), esto es la Transformada


Wavelet Continua, representa una novedosa alternativa a la Transformada de

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

54

Captulo 2. Caracterizacin en tiempo y frecuencia

Fourier por ventanas. Ella despliega la informacin de la seal en una


estructura radicalmente diferente [6].

Cualquier wavelet real [


centrado en un

,,

, admisible, est bien localizada en un intervalo

de longitud y que su transformada [b ' est localizada

en una banda biltera 0 'F |'| ' , de ancho > . Entonces, las
waveletes [`,a

estn localizadas en el intervalo centrado en ]

+ ^, de

longitud ] en la banda biltera 0 'F /] |'| ' /], de ancho > /].

Se observa que la precisin en tiempo es inversamente proporcional a la


precisin en frecuencia, mantenindose constante la relacin 8 . Esta es la
diferencia fundamental con la Transformada de Gabor [20].

Ms an, para cada valor de a, la familia de wavelets parametrizada por b, se


comporta como una ventana deslizante, de ancho de banda constante, pero el
nmero de oscilaciones de estas ondas elementales es siempre el mismo, en el
marco efectivo de la ventana.

Por otra parte, si la transformada [b ' decae rpidamente a cero en torno de


' = 0, se verifica la propiedad de oscilacin:
#
#

=0

Ec. 2.17

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

55

Captulo 2. Caracterizacin en tiempo y frecuencia

Para k = 0,..,K. Esta importante propiedad, que no posee la Transformada de


Gabor, es trascendente en las aplicaciones de anlisis de seales, para la
deteccin de fenmenos puntuales, como discontinuidades o bruscos cambios
en las derivadas [19].

En efecto, si modelamos apropiadamente la seal fsica, por una funcin s(t),


de modo que las derivadas reflejen los cambios de locales de comportamiento,
en torno de cada punto

`,a

=]

+ ^, de radio , el proceso queda

caracterizado por el correspondiente polinomio de Taylor, hasta cierto orden


K+1. Si el proceso es razonablemente suave en el entorno, la propiedad de
oscilacin nos dice que la magnitud f

c0

], ^ f es no significativa. En

contraposicin, un brusco cambio en el entorno, que se refleja en la derivada


de orden K+1, podr ser bien detectado.

Otra propiedad relevante de la transformada continua es su invariancia


respecto de las traslaciones o cambios de escala de seal. Estructuras
similares, sern detectadas de la misma forma, independientemente de su
localizacin temporal o escala [23].

En suma, por sus propiedades la Transformada Wavelet constituye una


promisoria y ventajosa alternativa para el procesamiento de seales, en
particular las de Emisiones Acsticas.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

56

Captulo 3. Aplicaciones de Procesamiento de Voz.

CAPITULO 3.

APLICACIONES DE PROCESAMIENTO DE VOZ

Las aplicaciones de procesamiento de voz son cada vez ms frecuentes en


todos los mbitos de nuestra vida, las empresas de todos los rubros avanzan a
pasos agigantados en cuanto a tecnologa se refiere y dentro de esta
evolucin, el procesamiento de voz adquiere un papel cada vez ms
importante.

En esta investigacin se advirti que casi todas las aplicaciones utilizan las
mismas bases para aplicar el procesamiento de voz en sus productos. La
relacin tiempo frecuencia. Esto para obtener los espectros de las seales de
audio y compararlos con una base de datos preestablecida para as poder
obtener un resultado deseado.

3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT [25]

3.1.1 CSLU Toolkit


CSLU Toolkit es un programa creado por el Oregon Graduate Institute of
Science & Technology (OGI). Las siglas CSLU corresponden al Center for
Spoken Language Understanding del mismo instituto.

El CSLU Toolkit es una plataforma para la investigacin y desarrollo de


sistemas de lenguaje hablado, la cual incluye herramientas audiovisuales para
el procesamiento y reconocimiento de voz.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

57

Captulo 3. Aplicaciones de Procesamiento de Voz.

Entre estas herramientas tenemos la llamada Speech Viewer.

Fig. 3.1 Anlisis grfico en Speech Viewer [25].

En la Figura 3.1 se muestra el anlisis grfico de la pronunciacin de la letra


a. Este anlisis proporciona la siguiente informacin:

La ventana 1 muestra la forma de onda seleccionada del archivo de


sonido utilizado, el cual fue previamente grabado. Este grfico muestra
dos variables: Amplitud y Tiempo.

La ventana 2 muestra el espectrograma de la forma de onda


seleccionada. En este grfico se manejan tres variables: Frecuencia
(Hz), Tiempo (ms) y Amplitud (dB). Esta ltima variable se mide sobre el
eje z de la grfica. Las zonas rojas representan las frecuencias con
mayor amplitud, en tanto que las zonas verdes y oscuras presentan las
frecuencias con menor amplitud.

Con este programa se puede enfocar a detectar particularidades en los


diferentes sonidos grabados, tanto en el dominio del tiempo, como en el

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

58

Captulo 3. Aplicaciones de Procesamiento de Voz.

dominio de la frecuencia. Estas particularidades nos llevaran a establecer que


es posible diferenciar un sonido de otro, aunque su pronunciacin sea similar.

En las figuras 3.2 y 3.3 se presentan las grficas obtenidas para las
pronunciaciones de 2 vocales ms. Estas grficas muestran la forma de onda
de la voz (sonido) y su espectrograma.

Fig. 3.2 Pronunciacin de la letra E [25].

Fig. 3.3 Pronunciacin de la letra I [25].

Por la tanto se sabe que aunque existen pronunciaciones similares en su forma


de

onda,

presentarn

diferencias

en

su

espectro

de

frecuencias

(espectrograma). Debido a esto, la manera de diferenciar y reconocer los


diferentes sonidos requiere de ms informacin, la cual puede encontrarse en
su representacin en el dominio de la frecuencia.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

59

Captulo 3. Aplicaciones de Procesamiento de Voz.

3.1.2 MatLab
MatLab ofrece los medios necesarios para la implementacin de algoritmos
especializados en el procesamiento digital de seales. En esta etapa se
obtiene, con la misma calidad, los resultados que da Speech Viewer.
Adicionalmente se presentarn las bases para la programacin en Matlab,
como son:

Digitalizacin de un archivo de sonido

Implementacin de la Transformada de Fourier para representar la seal


en el dominio de la frecuencia.

Graficar los resultados

Es necesario convertir la muestra de audio en una serie de datos que se


puedan interpretar. Para esto se graba en la computadora la muestra de sonido
en un archivo con extensin .wav y despus se procesa mediante la
instruccin wavread incluida en Matlab. Esta instruccin nos proporciona dos
parmetros:

Fs= Frecuencia de muestreo en Hz.


s= Vector que contiene los datos obtenidos de la lectura de la muestra.

Debido a que se trabaja en el dominio de la frecuencia, es necesario que el


vector de datos (s) cumpla ciertas condiciones. Para representar la seal en el
dominio de la frecuencia se aplica la Transformada Discreta de Fourier. La
longitud del vector s se representa mediante el parmetro m. Los componentes

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

60

Captulo 3. Aplicaciones de Procesamiento de Voz.

reales e imaginarios resultantes de la DFT del vector s son almacenados en el


vector x, y la magnitud de la DFT(x) se representa por mag.

Se presenta el algoritmo para graficar la representacin del archivo de sonido


en el dominio de la frecuencia.
f=(0:s/2)*Fs/m;
subplot(221), plot(s), axis tight, grid on, title(Seal de Voz);
subplot(222), specgram(s), title(Espectrograma), colorbar;
subplot(223), plot (f,mag(1:m/2+1)), axis ([0 5000 0 10]), grid on, xlabel(Frecuencia (Hz)),
ylabel(Magnitud), title(Representacin en Frecuencia);

Como resultado se obtiene una imagen con los siguientes grficos:

Seal de voz.- Graficacin de los datos del vector s.

Espectrograma.- Espectro de frecuencias del vector s.

Representacin en frecuencia.- Representa los parmetros frecuencia (f)


vs. Magnitud (mag).

En la figura 3.4 se observan los resultados obtenidos con la pronunciacin de la


letra A.

Fig. 3.4 Pronunciacin de la letra A [25]

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

61

Captulo 3. Aplicaciones de Procesamiento de Voz.

La representacin en frecuencia nos muestra diferencias entre sonidos


similares en su forma de onda. Sin embargo los programas como Matlab, tratan
a la voz como una serie de datos, no se le da una interpretacin visual,
originando que puedan existir errores de reconocimiento. El espectro de la
seal presenta valores mximos y mnimos, distribuidos de diferente manera
para cada sonido. Si la intensidad de la seal cambia, tambin lo har la
magnitud del espectro. Aunque la forma de onda se conserva, no as su escala
de valores. Esto provoca la confusin y el no reconocimiento de sonidos, ya
que estos valores pueden caer dentro del rango correspondiente a otro sonido
[25].

Para solucionar el problema de confusin entre sonidos se realiza lo siguiente:

Estabilizacin de la seal. c=s./max(abs(s)); En donde c es el vector


normalizado de s.

Despus de aplicar la DFT de el vector c, se obtiene la magnitud del


mismo y se eleva al cuadrado. mag=(abs(x)).^2; Con esto se mantienen
altos los mximos y mnimos ms significativos, y se mantienen bajos
los menos significativos. De igual manera se establece una diferencia
mayor entre estos valores y los correspondientes a otro sonido. As se
reduce la probabilidad de confusin entre los mismos, ya que esta
diferencia no es lineal.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

62

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig. 3.5 Comparacin entre el espectro original y el espectro Normalizado del fonema EME
[25].

Despus de dicho procedimiento prcticamente ha desaparecido el ruido


presente en las frecuencias mayores a 1KHz. Si se toma como mximo
dominante el pulso que se encuentra dentro del rango de 400 a 700 Hz. Se
encuentra que, en el espectro original, la diferencia entre ellos es muy pequea
(11-10=1). Sin embargo, en el espectro normalizado, la diferencia entre ellos es
mayor (8.5 10

5.5 10

3.3 10 ).Con este procedimiento se pueden

diferenciar mejor los sonidos y evitar las confusiones en el procedimiento de


lectura de datos y mejorar notablemente el reconocimiento de voz.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

63

Captulo 3. Aplicaciones de Procesamiento de Voz.

3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS

3.2.1

Sistema

de

reconocimiento

de

voz

mediante

anlisis

de

espectrograma.
(Pat. US 2002/0128834 A1, 12/Sep/2002)

El reconocimiento de elementos conocidos del habla humana (fonemas, grupos


de fonemas, slabas, palabras o frases) en los sonidos de una pronunciacin
humana es fundamental para cualquier aplicacin computacional donde la
operacin de dicha computadora dependa en lo que el usuario diga [33]. Tales
aplicaciones incluyen, por ejemplo, sistemas de dictado, donde el texto
pronunciado por un usuario es procesado en la computadora en forma textual.
Otra de las aplicaciones es el sistema de comandos, en el cual el texto
pronunciado por el usuario forma un comando que deber realizar la
computadora.

La figura 3.6 ilustra una red de computadoras 610 en la cual la presente


invencin se ha implementado. Un usuario (620) proporciona el procesamiento,
guardado, dispositivos de entrada y salida para proveer el procesamiento de
voz. El usuario puede estar tambin conectado a una red de comunicaciones
(610) en la cual tiene acceso a otros dispositivos computacionales, incluidos los
servidores de las computadoras (630 y 632). La red de comunicaciones puede
ser parte de Internet y utilizar protocolos TCP/IP para comunicarse con otros
equipos.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

64

Captulo 3. Aplicaciones de Procesamiento de Voz.

Un usuario proporciona la grabacin de voz mediante algn hardware


(micrfono) en una forma aceptable de pronunciacin del lenguaje (602) y lo
guarda en una forma digital (604). El sonido digitalizado tambin se puede
obtener de un archivo (606) o a travs de la red (610). El sistema
computacional de procesamiento de voz (660) recibe la informacin de un
diccionario (603).

Fig. 3.6 Sistema de computadoras donde se implementa la invencin [33].

La figura 3.7 ilustra la estructura interna de una computadora de la red, donde


se muestran el sistema de bus (700), interfaces de entrada y salida para
conectar los dispositivos a la computadora tales como micrfonos y bocinas
(702) , interfaces de red (706) , memoria voltil (708), memoria de disco o no
voltil (710), una Unidad Central de Proceso (704). Todo esto utilizado con la
finalidad de procesar el sonido de la pronunciacin humana.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

65

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig 3.7 Estructura interna de la computadora [33].

La figura 3.8 muestra la estructura de uno de los diccionarios utilizados en la


presente invencin. Cada diccionario contiene diversos segmentos que ayudan
en el procesamiento de las muestras de voz.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

66

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig. 3.8 Estructura interna de un diccionario [33].

Los segmentos pertenecen a diferentes tipos: vocales acentuadas, vocales no


acentuadas, consonantes sonoras adyacentes, sonido sordo, sonido no sordo,
pausas e irreconocibles (este ltimo se utiliza si el segmento no puede ser
reconocido dentro de ninguno de los segmentos). En consecuencia, cualquier
diccionario incluye diversos segmentos como los mencionados anteriormente,
para as clasificar lo que el usuario dice. Adicionalmente, un diccionario puede
contener alguna informacin suprasegmental, que describe por ejemplo, la
fuerza o la duracin de las palabras dichas. Tambin puede contener algunos
algoritmos creados especficamente para detectar la pronunciacin humana.
Estos algoritmos pueden asociarse a cualquiera de los segmentos ya
mencionados.

El diccionario se puede cargar usando un proceso manual o un proceso


interactivo. El proceso incluye analizar el espectrograma de la muestra de voz
para as determinar crestas. Las crestas son utilizadas para distinguir e
identificar formantes reales en las muestras de sonidos externos. Esto permite
capturar la informacin en sonidos de vocales, que es especialmente
importante. La informacin de los formantes se pueden guardar en el
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

67

Captulo 3. Aplicaciones de Procesamiento de Voz.

diccionario para ser usados de manera posterior en comparacin de segmentos


de voces.

En la presente invencin, algunos segmentos son de expresin continua. La


figura 3.9 ilustra la estructura de un segmento de expresin continua en una
entrada de diccionario.

Fig. 3.9 Estructura de un segmento de voz continua dentro de una entrada de diccionario [33].

La figura 3.9 muestra la informacin contenida en uno de los diferentes


diccionarios, para un segmento de expresin continua (802). Cada persona
mediante su voz, y la duracin del segmento hablado produce al menos un pico
prominente en el espectrograma. Este pico se le llama formante. La
informacin contiene los contornos para cada formante (805, 506, 807), la
duracin del segmento (815) y el tiempo promedio de la frecuencia para cada
formante (808, 809, 810). Tambin incluye los corredores 811, 812 u 813,
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

68

Captulo 3. Aplicaciones de Procesamiento de Voz.

dentro de los cuales contiene la frecuencia promedio del correspondiente


formante cuando el segmento es pronunciado. Cada corredor es un intervalo
definido por dos frecuencias: la ms alta y la ms baja. Dentro del sistema
tambin pueden existir algunos algoritmos optimizados especficamente para la
deteccin de ste segmento dentro de la pronunciacin humana.

El Mtodo ptimo de Inversin, es la operacin de la presente invencin en la


forma de una operacin para emparejar diccionarios, el cual trabaja sobre una
grabacin de sonido digitalizada. El mtodo se divide en una secuencia de
segmentos 901-905. Los segmentos 802, 803 y 804 de la entrada de
diccionario se comparan primero con los segmentos 901, 902, 903, despus
con los segmentos 902, 903, 904 y finalmente con los segmentos 903, 904 y
905. El nmero de segmentos a compararse debe de ser igual a los de la
entrada de diccionario. Al resultado de las comparaciones se le llama
Secuencias de Segmentos Probadas.

Debido a que el tema de esta monografa es la relacin tiempo frecuencia


omitir las siguientes explicaciones hasta llegar a la caracterizacin de los
espectrogramas que son la parte fundamental de esta invencin y de esta
monografa.

El sonido de la voz humana tiene un espectro discreto de armnicos. Un


espectrograma normalmente se obtiene mediante un arreglo de frecuencias. El
principal objetivo de los mtodos de la obtencin de espectrograma es crearlo
mediante la captura de la mayor parte de los armnicos del sonido de voz, y

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

69

Captulo 3. Aplicaciones de Procesamiento de Voz.

tomar lo menos posible el ruido inevitablemente presente en cualquier


grabacin de sonido. Estos mtodos estn diseados para trabajar con
diferentes usuarios, y tambin con el mismo usuario en tiempos diferentes.

Fig. 3.10 Mtodo de Transformada de Tiempo Triple [33].

En la figura 3.10 se ilustra el mtodo de la Transformada de Tiempo Triple


usado para obtener un espectrograma (1006) de un segmento de voz continua
(900). Despus de que se determina la frecuencia de tono bsico. La
frecuencia del tono bsico es la frecuencia del menor de los armnicos dentro
de un segmento de voz continua. (1001), la grabacin de sonido se escala
como se muestra en 1003. Esta grabacin de sonido escalada se procesa,
1004, utilizando un grupo de frecuencias 1002 para obtener un espectrograma
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

70

Captulo 3. Aplicaciones de Procesamiento de Voz.

intermedio, 1005. El espectrograma intermedio tiene que ser ahora escalado en


la dimensin de tiempo para restablecer la duracin original del segmento y en
la dimensin de frecuencia para tomar en cuenta la distorsin que se provoc
en el primer escalamiento 1003.

Despus de pasar por sta etapa, los datos del ltimo espectrograma son los
que van directamente hacia alguno de los diccionarios, para ah hacer la
comparacin con los datos que ya contienen dichos diccionarios, y as poder
saber o conocer que fonema, grupo de fonemas, palabra o frase est siendo
utilizada.

3.2.2 Mtodos de identificacin usando anlisis de voz.


(Pat. US 2009/0326942 A1, 31/Dic/2009)

La presente invencin [34] se trata de los mtodos utilizados para identificar a


un usuario, basndose en los patrones distintivos e individuales de la
caracterstica de voz. Ms especficamente en la utilizacin de espectrogramas
de la pronunciacin de palabras, tomando sus caractersticas y comparndolos
con una segunda pronunciacin de palabras. La presente invencin utiliza el
espectrograma tiempo frecuencia de un sonido de voz. Un espectrograma de
la voz de una persona, analizada mediante computadora, tendr ciertos
parmetros en particular para as establecer un patrn nico para cada
persona. A esto se le llama Espectrograma Fontico Biomtrico y puede
utilizarse para la comparacin o identificacin de personas.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

71

Captulo 3. Aplicaciones de Procesamiento de Voz.

Para obtener dicho Espectrograma para un determinado usuario, primero se


analiza una pequea muestra, entre 25 a 50 ms de duracin. Este pequeo
sonido generalmente ser de una vocal pronunciada por el usuario durante una
pltica comn, pero cualquier vibracin vocal puede ser utilizada. Las cuerdas
vocales del usuario deben estar vibrando durante el sonido seleccionado. El
inventor de este sistema encontr que la imagen detallada de un proceso de
fonacin de un usuario, obtenida mediante los mtodos de sta invencin,
revela patrones individuales y caractersticos en el plano tiempo frecuencia.
Lo cual nos indica que la anatoma de la laringe, cuerdas vocales y proceso de
fonacin son diferentes para cada persona.

Fig. 3.11 Diagrama de flujo de la presente invencin [34].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

72

Captulo 3. Aplicaciones de Procesamiento de Voz.

La figura 3.11 muestra un diagrama de flujo donde se explica en general el


funcionamiento de dicha invencin. Se puede notar que todos los segmentos
desde el 1 hasta el 3, estn divididos en A y B, esto es as ya que se necesitan
dos muestras, la primera para reconocer a la persona y la segunda para
comparar y comprobar que es el mismo usuario que en la primera muestra.

Fig. 3.12 Espectrogramas de un usuario predeterminado [34].

La figura 3.12 muestra el mtodo para seleccionar porciones de sonidos


utilizables para la voz biomtrica desde una pronunciacin del usuario. El panel
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

73

Captulo 3. Aplicaciones de Procesamiento de Voz.

1 muestra una onda de forma de un usuario diciendo secure Access, creative


thought. Esta pronunuciacin fue grabada con un micrfono de baja fidelidad
usando una frecuencia de muestreo de 44.1 KHz. El panel 2 muestra la silaba
[ac] que corresponde a la palabra access, mientras el panel 3 muestra una
porcin de 39 ms de esta vocal escogida para crear el espectrograma fontico
biomtrico que se muestra en el panel 4. Para procesar este espectrograma, se
usaron marcos de anlisis de 5 ms con una superposicin de 45
microsegundos.

Fig. 3.13 Comparacin de 3 diferentes tipos de espectrogramas [34].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

74

Captulo 3. Aplicaciones de Procesamiento de Voz.

La figura 3.13 nos muestra una comparacin de tres diferentes tipos de


espectrogramas del mismo segmente de habla. Algunos pulsos de las cuerdas
vocales se muestran de la vocal [ac] como ocurre en una pronunciacin natural
incluyendo la palabra access. El panel 1 muestra un ejemplo convencional de
espectrograma de este segmento de palabra. El panel 2 muestra un
espectrograma del panel 1, y el panel 3 muestra un espectrograma del panel 2
despus de un corte selectivo de los puntos que no cumplen con el umbral de
la derivacin de segundo orden, o que no cumplen con el rango necesario. La
pronunciacin fue de una mujer en un micrfono de laptop con un muestreo de
44.1 KHz. Se usaron marcos de anlisis de 4 ms para estos espectrogramas,
con marcos superpuestos de 45 microsegundos. Para el panel 3, los puntos del
panel dos no fueron graficados a menos que sus derivadas de segundo orden
estuvieran dentro de los rangos de -0.25 y 0.25 para los componentes y entre
0.75 y 1.25 para los impulsos.

Fig. 3.14 Espectrogramas de la vocal a para


compararse con los espectrogramas en la
figura 3.15 [34].

La figura 3.14 muestra los espectrogramas obtenidos de la vocal a en la


palabra cuando, son los espectrogramas obtenidos en la primera muestra de
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

75

Captulo 3. Aplicaciones de Procesamiento de Voz.

dos, ya que stos se compararn con los obtenidos en la figura 3.13. Se puede
notar que estn hechos para 3 diferentes usuarios, se notan las diferencias
entre cada uno de los espectrogramas, debido a que cada usuario, aunque
pronuncia la misma palabra y se toma la misma vocal, tiene una frecuencia y
un tiempo diferentes. Esto se utiliza para poder identificar a los usuarios
mediante su voz. As, con esta invencin queda demostrado que cada quien
tendr espectrogramas diferentes de su voz, no importando que se mencione la
misma palabra o la misma frase, incluso la misma letra.

Fig. 3.15 Espectrogramas de la segunda


muestra de voz [34].

Es importante notar que los tres espectrogramas tienen la misma dimensin en


tiempo y en frecuencia, pero los resultados obtenidos, tal como se esperaba,
son diferentes para cada uno de los 3 usuarios.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

76

Captulo 3. Aplicaciones de Procesamiento de Voz.

3.3 APLICACIONES USANDO WAVELETS

3.3.1 Procedimiento y dispositivo de clasificacin de las seales del habla


(Publicacin 2 165 933, patente europea, 01/04/2002)

La invencin se refiere a un procedimiento para clasificar las seales de habla,


as como a una disposicin de circuitos para llevar a cabo el procedimiento
[31].

Cada vez son ms importantes los procedimientos de codificacin del habla y


disposiciones de circuitos respectivos con el fin de clarificar seales de habla
con una velocidad por debajo de 8 kbits por segundo.

Las aplicaciones principales a tal objeto se pueden encontrar, entre otras, en la


transmisin multiplex para redes fijas existentes y en los sistemas de telegrafa
mvil de tercera generacin. Adems, los procedimientos de codificacin del
habla en ese mbito de velocidad son necesarios a la hora de disponer
servicios como, por ejemplo, la videofona.

La mayora de los procedimientos de codificacin del habla de alta calidad


conocidos en la actualidad calculan el resultado de la clasificacin de
parmetros conseguidos mediante el clculo de valores temporales medios a
travs de una ventana de longitud constante. Por consiguiente, la resolucin
temporal se predetermina de forma fija al elegir la longitud de la ventana. Si se
reduce la longitud de la ventana, tambin desciende la exactitud de los valores

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

77

Captulo 3. Aplicaciones de Procesamiento de Voz.

medios. Si, en cambio, se aumenta la longitud de dicha ventana, el transcurso


temporal de los valores medios ya no puede seguir la seal de habla no
uniforme. Esto es vlido particularmente, para los pasos fuertemente no
uniformes de las secciones del habla sordas y sonoras. Sin embargo, es la
reproduccin temporal correcta de la posicin de los primeros impulsos
significativos de las secciones sonoras la que es importante para la evaluacin
subjetiva de un procedimiento de codificacin. Otras desventajas de los
procedimientos de clasificacin convencionales radican a menudo en una alta
complejidad o una fuerte dependencia de los ruidos de fondo que en la prctica
siempre estn presentes.

La invencin tiene como objeto crear un procedimiento y un clasificador de


seales de habla para un mando adaptado a las seales de procedimientos de
codificacin del habla para disminuir la velocidad con una calidad del habla
invariante y para aumentar la calidad con la misma velocidad clasificando la
seal de transformacin de wavelet para cada periodo temporal, con lo cual se
debe conseguir una alta resolucin tanto en lo referente a la gama temporal
como en lo referente a la gama de frecuencias.

En este prrafo se describe un procedimiento y una disposicin para clasificar


la seal de habla basndose en la transformacin de wavelet para cada
intervalo temporal. Por ellos, se puede conseguir, conforme a los requisitos de
la seal de habla, una alta resolucin tanto en la gama temporal (localizacin
de impulsos) como en la gama de frecuencias (buenos valores medios). Por
eso, la clasificacin est indicada particularmente para un mando y la eleccin

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

78

Captulo 3. Aplicaciones de Procesamiento de Voz.

de libros de cdigos en un codificador de habla de baja velocidad. En la


transformacin wavelet se trata, de modo parecido a lo que ocurre en la
transformacin de Fourier, de un procedimiento matemtico para crear un
modelo de una seal o sistema. Sin embargo, al contrario que en la
transformacin de Fourier, la resolucin se puede adaptar correspondiente de
manera flexible a las exigencias en el mbito del tiempo y de la frecuencia, por
ejemplo, en el mbito de las escalas. Las funciones bsicas de la
transformacin de wavelet se crean a travs de la escala y el desplazamiento
de un llamado Mother Wavelet (Wavelet madre) y presentan un carcter de
pasabanda. Por consiguiente, la transformacin de wavelet slo se define
unvocamente a travs de la indicacin del Mother Wavelet respectivo.

Debido a sus caractersticas, la transformacin de wavelet presta un buen


servicio en el anlisis de seales no uniformes. Otra ventaja es la existencia de
algoritmos rpidos con los cuales se puede realizar un clculo eficiente de la
transformacin de wavelet. Existen aplicaciones exitosas en el rea del
procesamiento de seales, entre otras cosas, en la codificacin de imgenes,
con los procedimientos de correlacin de banda ancha (por ejemplo, para el
radar) as como para calcular la frecuencia bsica del habla.

A continuacin, se describir la invencin con ms detalle a travs de un


ejemplo de realizacin. Para describir el procedimiento se debe emplear la
estructura principal de un clasificador segn la figura 3.16. En primer lugar se
lleva a cabo la segmentacin de la seal del habla. La seal del habla se divide
en segmentos de longitud constante, con lo cual la longitud de los segmentos

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

79

Captulo 3. Aplicaciones de Procesamiento de Voz.

debe ser de entre 5mS y 40mS. Para evitar los efectos secundarios en la
transformacin sucesiva se puede emplear una de las tres tcnicas siguientes:

El segmento se refleja en los lmites.

La transformacin de wavelet se calcula a intervalos ms pequeos (L/2,


N-L/2), y el intervalo slo se desplaza debido al desplazamiento
constante L/2, de modo que los segmentos se superpongan. Con ello, L
es la longitud de un wavelet centrado en el origen temporal, con lo cual
debe tener validez la condicin N>L.

En los bordes del segmento se recarga con los valores de exploracin


anteriores y posteriores.

Fig. 3.16 Estructura principal de un clasificador [31].

Despus se efecta una transformacin de wavelet discreta. Para este


segmento s(k) se calcula una Transformada Wavelets de Tiempo Discreto

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

80

Captulo 3. Aplicaciones de Procesamiento de Voz.

(DWT).

( , ) respecto a una wavelet h(k) con los parmetros enteros escala

m y cambio temporal n. Esta transformacin se define mediante


( , )
Donde

( )(

, representan el lmite inferior y superior del ndice de tiempo k

predeterminado a travs de la segmentacin elegida. Slo hay que calcular la


transformacin del mbito de escala 0<m<M y la gama temporal del intervalo
(0,N), mientras que la constante M en funcin de

debe elegirse de forma qe

sea tan grande que las frecuencias de seales ms bajas en el mbito de


transformacin se representen lo suficientemente bien.

Por lo general, para clasificar las seales de habla es suficiente contemplar la


seal respecto a las escalas didicas (potencias de dos) (

2). Si el wavelet

h(k) se puede representar a travs de un llamado Anlisis Multiresolucin


segn Rioul, Vetterli mediante un banco de filtros iterativo, se pueden emplear
algoritmos recursivos eficientes e indicados en la literatura para calcular la
transformacin de Wavelet. En este caso (

2) es suficiente para una

descomposicin hasta un mximo de M=6. Para la clasificacin sirven


particularmente los Wavelets con pocos ciclos de oscilacin significantes. Por
ejemplo, se pueden emplear los Spline-Wavelets cbicos o los DaubechiesWavelets ortogonales de longitud pequea.

Despus se lleva a cabo la clasificacin. El segmento de habla se divide en


clases en base a los coeficientes de transformacin. Para obtener una
resolucin de tiempo suficientemente adecuada, el segmento tambin se divide

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

81

Captulo 3. Aplicaciones de Procesamiento de Voz.

en sub intervalos P, de modo que se obtiene un resultado de clasificacin para


cada sub intervalo. Para su uso en procedimientos de codificacin del habla de
baja proporcin se llev a cabo la distincin entre las siguientes clases:

Ruido de fondo / sordo.

Transiciones de seal / voicing onsets.

Peridico / sonoro.

En su uso en determinados procedimientos de codificacin puede ser


conveniente subdividir la clase peridica an ms, por ejemplo, en secciones
con una energa principalmente de baja frecuencia o con una energa
distribuida de manera ms bien uniforme. Por eso, se puede realizar
opcionalmente una distincin en ms de tres clases.

A continuacin se lleva a cabo el clculo de parmetros en un procesador


correspondiente. En primer lugar, se determina una serie de parmetros a partir
de los coeficientes de transformacin

( , ), mediante lo cual se puede

efectuar la clasificacin definitiva a continuacin. Con ellos, la eleccin de los


parmetros dimensin diferencial de escala (#$ ), la dimensin diferencial
temporal (#% ) y la dimensin de periodicidad (#& ) mostraron ser particularmente
favorables.

Para #$ se calcula la varianza de la energa de los coeficientes de


transformacin DWT respecto a todos los mbitos de escala. En base a este
parmetro se puede constatar a intervalos, es decir, a travs de un retculo de
tiempo relativamente grueso si la seal es sorda o si slo presenta ruido de
fondo.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

82

Captulo 3. Aplicaciones de Procesamiento de Voz.

Para determinar #% , se calcula en primer lugar la diferencia energtica


intermedia de los coeficientes de transformacin entre el intervalo actual y el
intervalo anterior. A continuacin se determinan a travs de los coeficientes de
transformacin con fase de escala fina (m pequeo) las diferencias energticas
entre los sub intervalos contiguos y se comparan con la diferencia energtica
del intervalo total. Por ello, se puede determinar una medida para la
probabilidad de una transicin de seal (por ejemplo, sorda a sonora) para
cada sub intervalo, es decir, para un retculo de tiempo fino.

Para #& se controlan y determinan a intervalos los mximos locales de


coeficientes de transformacin de fase de escala gruesa (m cerca de M) en
caso de que stos aparezcan a intervalos regulares. Se denominan mximos
locales los picos que exceden cierto porcentaje T del mximo global del
intervalo.

Los niveles determinados necesarios para estos clculos de parmetros se


controlan de forma que se adapten dependiendo del nivel actual del ruido de
fondo, con lo que se aumenta la insensibilidad del procedimiento en un
ambiente ruidoso.

Despus se lleva a cabo la evaluacin. Los tres parmetros se transmiten a la


unidad de evaluacin en forma de probabilidades (cantidades reproducidas en
el mbito de valores (0.1)). La unidad de evaluacin misma determina el
resultado de la clasificacin definitiva para cada sub intervalo en base a un

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

83

Captulo 3. Aplicaciones de Procesamiento de Voz.

modelo de estado. A travs de esto, se tiene en cuenta la memoria de las


decisiones tomadas para los sub intervalos anteriores. Adems no se permiten
las transiciones significativas, por ejemplo, el salto directo de sordo a
sonoro. Finalmente, se da como resultado un vector con componentes P que
contenga el resultado de clasificacin para los sub intervalos P.

En las figuras 3.17 y 3.18 se representan de forma ejemplar los resultados de


clasificacin para el segmento del habla parcel, Id like de una hablante
inglesa. Con ello, los intervalos del habla de 20ms de longitud se dividen en
cuatro subintervalos equidistantes cada uno de 5ms. La DWT slo se calcula
para los pasos de escala diticos y se implementa a base de Spline Wavelets
cbicos con la ayuda de un banco de filtros. Las tres clases de seal se
denominan 0,1,2 en el mismo orden que constan arriba. Para la figura 3.17 se
utiliz el lenguaje de la banda telefnica (200Hz hasta 3400Hz) sin ruidos,
mientras que para la figura 3.18 se superpusieron adicionalmente ruidos de
vehculos con una razn de seal ruido media de 10 dB.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

84

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig 3.17 Clasificacin del habla sin ruidos externos [31].

Fig. 3.18 Clasificacin del habla con ruido externo de 10dB [31].

La comparacin de las dos ilustraciones muestra que el resultado de


clasificacin es aproximadamente independiente del nivel de ruido. A excepcin

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

85

Captulo 3. Aplicaciones de Procesamiento de Voz.

de pequeas diferencias irrelevantes en cuanto a las aplicaciones en la


codificacin del habla se puede localizar bien las secciones peridicas
perceptivamente importantes as como sus puntos iniciales y sus puntos finales
en ambos casos. A partir de la evaluacin de una gran variedad de material de
habla result que el error de clasificacin situado claramente por debajo del 5%
se encuentra en las razones sealruido superiores a 10 dB.

3.3.2 Mtodo para la extraccin de caractersticas de seales de voz y


sistema relacionado con el reconocimiento de voz.
(Pat. US 2003/0191640 A1, 9 de Octubre del 2003)

Segn la invencin [32], una muestra de seal de voz est sujeta a


transformarla en el dominio del tiempo y frecuencia por medio de una
estructura particular de filtros digitales, despus de los cuales se extrae un
conjunto de parmetros significantes de las caractersticas de la seal.

Un mtodo para la extraccin de caractersticas de una seal de voz


especfica,

para

un

sistema

de

reconocimiento

de

voz

automtico

esencialmente se compone de los siguientes pasos:

Descomponer la seal de muestra de voz para descomponer la seal en


una variedad de sub bandas por medio de un banco digital de filtros,
cuya estructura es un simtrico rbol binario, haciendo una transformada
de wavelet en cada uno de los nodos del rbol, los cuales se asocian
con cada una de las sub bandas.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

86

Captulo 3. Aplicaciones de Procesamiento de Voz.

Emplear todas las sub bandas obtenidas del rbol binario para generar
los parmetros correspondientes para representar las caractersticas
extradas de la seal de voz de muestra.

La figura 3.19 muestra un diagrama de bloques, desde el primer bloque (bloque


2) donde una muestra de voz S es ingresada, hasta el bloque 14, el cual
muestra la salida C, con las caractersticas de la seal de voz. Ahora se
analizar los 7 bloques que forman el anlisis de wavelet.

Fig. 3.19 Diagrama de Bloques del mtodo para la extraccin de caractersticas de voz [32].

El primer bloque (2) es un bloque de pre-nfasis el cual enfatiza alguna de las


frecuencias a las cuales el odo humano es ms sensitivo. El filtrado es
necesario para enfatizar las regiones del espectro ms importantes en trminos
de la percepcin auditiva, dicho espectro contiene las frecuencias ante las

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

87

Captulo 3. Aplicaciones de Procesamiento de Voz.

cuales el odo humano es ms sensible. El filtrado de la seal sale del bloque 2


mediante un filtro FIR.

El segundo bloque (4) agrupa las muestras en marcos. La operacin de


agrupamiento de las muestras son llevadas a cabo considerando una ventana
de N muestras y M muestras en cada una de las ventanas, durante el tiempo
que permanece la seal. El valor de M se configura en 80, que corresponde a
10 ms de la seal , mientras tanto,

valores diferentes se han usado

experimentalmente para las dimensiones de la ventana N, siendo los ms


significantes N=256 y N=384 (correspondientes a 32 ms y

48 ms). La

posibilidad de crecer la ventana N hace posible el variar la resolucin de la


variable tiempo frecuencia, la cual se obtiene mediante una transformada
Wavelet.

El tercer bloque (6) filtra la seal a travs de un banco de filtros digitales,


realizando una transformada discreta Wavelet para descomponer la seal en
sub bandas. El conjunto de filtros digitales en el bloque 6 tiene una estructura
de rbol binario, similar al mostrado en la figura 3.20.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

88

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig. 3.20 Diagrama esquemtico que ilustra el rbol de filtrado [32].

El nmero de niveles en el rbol puede variar de acuerdo a la dimensin de los


marcos de entrada, (48 ms, 384 muestras en este caso), y al nmero de
parmetros (que corresponden al nmero de nodos en el rbol) a ser
calculados.

La figura 3.20 muestra varios niveles del rbol, desde el nivel 1 hasta el nivel 6.
Las diferentes resoluciones tiempo frecuencia (desde 384 muestras en el nivel
1, hasta 12 muestras en el nivel 6) se muestran entre parntesis. Las bandas
se vuelven ms cercanas y las muestras se vuelven ms escasas a medida
que se baja en los niveles del rbol. El filtrado se lleva a cabo mediante una
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

89

Captulo 3. Aplicaciones de Procesamiento de Voz.

ventana de muestras de la seal original, manteniendo una memoria de las


ventanas anteriores.

La estructura 20 del rbol en la figura 3.20 consiste en una cascada de filtros


pasa baja (22a) y filtros pasa alta (24a). Despus de cada filtro se coloca otro
par de filtros, un pasa baja y uno pasa altas.

La arquitectura en el sitio 20 del rbol de anlisis compromete a todos los


nodos en seis niveles del rbol binario, que corresponde a considerar 63
bandas de frecuencia, una para cada nodo, con una resolucin de frecuencia
de 4 KHz en el primer nodo (21) hasta 125Hz en las hojas ltimas (31). El
nmero de muestras obtenidas en los nodos de filtrado decrece mientras se
desciende en el rbol, pero el intervalo de tiempo asociado a las muestras
filtradas no cambia. En el nodo 21 al inicio del rbol se tiene un intervalo de
tiempo de 384 muestras, cada nodo del segundo nivel le corresponden 192
muestras, los nodos del tercer nivel tienen 96 muestras, los del cuarto nivel
contienen 48 muestras, los del quinto nivel tienen 24 muestras y finalmente los
del ltimo nivel corresponden a 12 muestras cada uno.

De acuerdo al principio de incertidumbre de Heisinberg, existe una relacin


entre la resolucin tiempo y la resolucin frecuencia de las muestras en las
diferentes sub bandas. De acuerdo a este principio, el producto entre la
resolucin tiempo y la resolucin frecuencia de una seal no puede estar
debajo de cierto umbral. En este caso, considerando que la resolucin de la
frecuencia incrementa desde la raz (21) hasta las hojas (31) del rbol de

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

90

Captulo 3. Aplicaciones de Procesamiento de Voz.

anlisis, se puede considerar un intervalo de tiempo diferente en cada nivel del


anlisis.

La figura 3.21 nos muestra una relacin de las frecuencias correspondientes en


cada nivel del rbol de anlisis. Los intervalos de tiempo se van viendo
reducidos a la mitad en cada uno de los niveles, pero nunca son menores a 10
ms.

Fig. 3.21 Relacin de frecuencias para cada uno de los niveles del rbol de anlisis [32].

Regresando de nuevo a la figura 3.9, en el bloque 8, se lleva a cabo una


operacin de integracin, despus de haber pasado por toda la operacin de
filtrado en el bloque 6. Esta operacin de integracin consiste en la extraccin
de los parmetros que sern utilizados para el proceso de reconocimiento,
estos parmetros se obtienen de las muestras obtenidas en las diferentes subbandas. De acuerdo a la invencin, las 63 sub-bandas se utilizan para extraer
los diferentes parmetros de voz. La operacin para la extraccin de dichos
parmetros se hace mediante el operador de integracin en cada una de las
muestras de las diferentes sub-bandas.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

91

Captulo 3. Aplicaciones de Procesamiento de Voz.

El operador de integracin se escoge de acuerdo a la siguiente frmula:


'

) $

()%

Como resultado de la integracin, se tendrn 63 valores calculados en el


anlisis de wavelet que resulta del rbol de anlisis. Los cuales corresponden a
las diferentes sub-bandas, cada una con un nivel de resolucin tiempo
frecuencia diferente. De acuerdo al procedimiento de la invencin las 63 subbandas (que corresponden a los 63 nodos del rbol) se emplean para extraer
las caractersticas de la seal de voz. Esta informacin aumenta la precisin
del reconocimiento de voz del sistema.

En el bloque 10 se lleva a cabo una operacin de compresin seguido de una


operacin de reduccin de parmetros, la reduccin se realiza mediante una
compresin logartmica.

Los siguientes bloques contienen una etapa de anlisis llamada PCA (Principal
Component Analysis) las cuales se llevan a cabo en el bloque 12, para sacar
las caractersticas principales despus de la reduccin de datos. En el bloque
14 se encuentra una red neuronal, la cual nos da como resultado la muestra C,
la cual contienen las principales caractersticas de la muestra S, las cuales nos
ayuda para hacer un reconocimiento de voz. Esta invencin fue hecha para
implementarse en los diferentes dispositivos que utilicen reconocimiento de
voz, ya que lo nico que hace este proyecto es sacar las caractersticas
principales de la muestra de voz.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

92

Captulo 3. Aplicaciones de Procesamiento de Voz.

3.4 APLICACIONES DE OTRAS DISTRIBUCIONES TIEMPO - FRECUENCIA

3.4.1 Anlisis de palabras utilizando la transformada de Gabor.


Esta investigacin emplea la transformada de Gabor para el anlisis de seales
de voz [35]. Dichas seales fueron grabadas en unas condiciones de ruido alto.
Los resultados de los anlisis fueron comparados con unos obtenidos mediante
el uso de la Transformada de Fourier de Tiempo Corto. El anlisis de Gabor, en
general demostr una mejor resolucin espectral comparada con el anlisis de
SFTF. Por lo tanto, esta aplicacin tiene un potencial ms alto y es ms
efectivo en el procesamiento de voz.

El anlisis de Gabor se aplic a ciertas palabras grabadas bajo un ambiente


con ruido. La figura 3.22 muestra la forma de onda de la palabra India. Es
evidente que el ruido de fondo es bastante predominante.

Fig. 3.22 Forma de onda de la palabra India [35].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

93

Captulo 3. Aplicaciones de Procesamiento de Voz.

La figura 3.23 muestra el espectro tiempo frecuencia empleando la


Transformada de Fourier de Tiempo Corto sobre la forma de onda de la figura
3.22.

Fig. 3.23 Anlisis de la Transformada de Fourier de Tiempo Corto sobre la forma de onda de la
figura 3.14 [35].

La figura 3.24 muestra el espectro tiempo frecuencia empleando el anlisis


de Gabor a la forma de onda de la figura 3.22. El espectro tiempo frecuencia
tiene el tiempo en el eje X, la frecuencia en el eje Y y la seal de potencia.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

94

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig. 3.24 Espectro tiempo frecuencia utilizando el anlisis de Gabor para la forma de onda de
la figura 3.16 [35].

Las figuras 3.25(a) y 3.25(b) muestran los espectrogramas de la forma de onda


original utilizando Transformada de Fourier de Tiempo Corto y anlisis de
Gabor respectivamente. Se puede observar, mediante las figuras 3.23, 3.24,
3.25(a) y 3.25(b), que el anlisis de Gabor tiene una mejor resolucin
comparado con la Transformada de Fourier de Tiempo Corto. stos dos
diferentes tipos de anlisis se aplicaron tambin a otras palabras grabadas en
condiciones de mucho ruido con resultados similares. Por lo tanto se puede
concluir, en general, que el anlisis de Gabor da como resultado una mejor
resolucin espectral, comparado con el mtodo de la Transformada de Fourier
de Tiempo Corto.

El anlisis de Gabor funciona mejor que varios otros mtodos, sobre todo
cuando se tiene un fondo con demasiado ruido al ser grabadas las palabras. El
anlisis de Gabor no es todava tan usado en comparacin con la
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

95

Captulo 3. Aplicaciones de Procesamiento de Voz.

Transformada de Fourier de Tiempo Corto, pero tiene un mayor potencial por


explotar que lo dicho en este trabajo de investigacin.

Fig. 3.25 Espectrogramas de la forma de onda de la figura 3.22 empleando (a) STFT y (b)
anlisis de Gabor [35].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

96

Captulo 3. Aplicaciones de Procesamiento de Voz.

3.4.2 Anlisis tiempo frecuencia de la seales de voz utilizando una


distribucin suavizada Wigner Ville.

Este trabajo de investigacin muestra como la distribucin suavizada Wigner


Ville puede ser utilizada en el anlisis de las seales de voz. Si se suavizan las
funciones de tiempo y frecuencia se pueden utilizar para incrementar la
resolucin de un espectro Wigner Ville, esto a travs de la eliminacin de
trminos que afectan a la resolucin final del espectro [36].

El anlisis espectral basado en la Transformada de Fourier de Tiempo Corto es


una herramienta poderosa y muy conocida, pero no deja muy buenos
resultados para procesos no estacionarios debido a la mala resolucin de
frecuencia.

La distribucin Wigner Ville es una respuesta a este problema, pero


solamente para seales con componentes de frecuencias individuales. Para las
seales de frecuencias mltiples, a las cuales la mayora de seales en la vida
real pertenecen, la naturaleza bilineal de la distribucin produce interferencias.
Dicho fenmeno de interferencia muestra componentes de frecuencia que no
existen en realidad, lo cual afecta considerablemente la interpretacin del plano
tiempo frecuencia. El objetivo entonces es la eliminacin o atenuacin de
este problema de interferencias.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

97

Captulo 3. Aplicaciones de Procesamiento de Voz.

La distribucin Wigner Ville suavizada es un ejemplo de un desarrollo que se


basa en el uso de un kernel. Para eliminar trminos de interferencia, se utilizan
funciones Gaussianas en operaciones suavizadas de tiempo y frecuencia.

La distribucin Wigner Ville se define como:


2
2
*+ ,, - = . / 0, + 3 / , 4
2
2

56%789

:2

Donde z es la seal analtica obtenida de la seal real o seal original s.


Si se escoge una funcin kernel - ;, 2 = < ; 2 , con una transformada de

Fourier de la forma: = ,, > = =?@- ;, 2 A = B , C > se obtendr la llamada


Distribucin Wigner Ville suavizada:

#DEF ,, > = . 2 G. B

2
2
0 + 3 0 3 : I 4 56%7J9 :2
2
2

Se han probado diferentes funciones kernel, y la siguiente ha sido la que


mejores resultados ha tenido, filtrando las interferencias independientemente
de la direccin de los ejes, lo cual le da ms flexibilidad a la operacin de
suavizado:
- ;, 2 = 4

5K

7L
P
M%NO

79
5K
P
M%N
R
4

Sustituyendo en la ecuacin de la distribucin Wigner Ville suavizada,


tenemos que SPWVD(t,v)=
Q

5K
P
2
Q
= S . 4 M%NR . U;4 5%N L
T
79

,V+2

, V 2 :V 4 56

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

7J9

:2
98

Captulo 3. Aplicaciones de Procesamiento de Voz.

Con sta distribucin Wigner Ville suavizada se puede hacer una mejor
lectura en los espectrogramas tiempo frecuencia, comparada con la
distribucin Wigner Ville normal. Los siguientes ejemplos muestras ms
claramente dicha comparacin.

a) Modelo de dos componentes:


Una seal que combina dos frecuencias f1=32Hz y f2=96Hz, se
muestran en la figura 3.26. Las figuras 3.27 y figura 3.28 representan,
respectivamente, la distribucin Wigner Ville y la distribucin Wigner Ville
suavizada.

Fig. 3.26 Forma de onda que combina dos seales de frecuencia [36].

Fig. 3.27 Distribucin Wigner Ville de la combinacin [36].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

99

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig. 3.28 Distribucin Wigner Ville suavizada [36].

b) Modelo de tres componentes:


La suma de tres frecuencias: 16Hz, 32 Hz y 64Hz se muestra en la
figura 3.29

Fig. 3.29 Suma de tres diferentes frecuencias [36].

La DVW y la DVWS se muestran en la figura 3.30 y la figura 3.31

Fig. 3.30 Representacin de la distribucin Wigner Ville [36].

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

100

Captulo 3. Aplicaciones de Procesamiento de Voz.

Fig. 3.31 Representacin de la Distribucin Wigner Ville suavizada [36].

Con esto queda demostrado que al utilizar la distribucin Wigner Ville


suavizada, tenemos un grado de perfeccin mas amplio que con la Distribucin
normal, ya que los espectrogramas quedan mejor definidos y sin la seal de
ruido que generalmente inserta la distribucin de Wigner Ville. Por lo tanto el
reconocimiento de voz se puede hacer sin problema alguno, ya que teniendo la
base de datos de espectrogramas para letras o palabras, al hacer la
comparacin, podr detectar sin problemas que es lo que se est diciendo o
que es lo que contiene el archivo de voz que se va a procesar.

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ

101

CONCLUSIONES

Las seales, por diversa que sea la aplicacin a realizar, cuentan con
caractersticas bsicas que son comunes a todas ellas. Por ejemplo, se puede
afirmar que cualquier seal es funcin de una o ms variables independientes y
que cuentan con informacin del comportamiento o naturaleza de algn
fenmeno en particular. Las seales se clasifican en diversos modos, y se
pueden representar de distintas maneras, pero no se debe olvidar que lo ms
importante de todas las seales, es la informacin que contienen y que se
puede aprovechar para nuestros proyectos y aplicaciones.

Uno de los tipos de seales, que en nuestros das es cada vez ms comn
trabajarlas, son las seales de audio. Con la informacin contenida en dichas
seales, mediante diferentes funciones como la Transformada de Fourier se
pueden obtener los espectros de la seal. Dichos espectros nos dicen las
diferentes frecuencias y su intensidad existentes en el archivo de audio, cules
frecuencias son las dominantes y cules se pueden considerar como ruido,
debido a su poca o dbil seal.

Pero an con estos espectros, hay informacin que se escapa, o que no se


menciona en dichos grficos. Se pueden saber las frecuencias utilizadas, pero
no se puede conocer en qu tiempo fueron usadas, por lo tanto se crearon
algunos mtodos que puedan indicarnos la frecuencia y el tiempo en el que
cada frecuencia se encuentra activa. A sta relacin se le conoce como
relacin Tiempo Frecuencia, lo cual nos muestra un mapeo ms preciso en

102

cuanto a las seales de audio se refiere. Existen diferentes herramientas que


nos ayudan para encontrar esta relacin, se vieron tres diferentes: La
Transformada de Fourier de Tiempo Corto, la Transformada Gabor y la
Transformada Wavelets, de las cuales la transformada Wavelets es la ms
utilizada en las aplicaciones de reconocimiento de voz.

Las aplicaciones de reconocimiento del habla o reconocimiento de voz, han ido


en aumento da a da, y en los tiempos venideros ser ms extendida su
aplicacin. Se utilizan hoy en da para sistemas de seguridad en una empresa
o incluso puede ser utilizada domsticamente, esta aplicacin realiza un
grabado de la persona que va a poder utilizar dicho sistema, se guardan los
valores de picos de frecuencia y en general las caractersticas de la seal de
audio. Al momento de querer ingresar se dice nuevamente la palabra o frase
clave y el sistema automticamente compara ambos valores, para as saber y
decidir si el usuario que intenta ingresar es el correcto o no.

La tendencia y el sentido comn dice entonces que en un futuro no muy lejano,


el reconocimiento de voz ser utilizado de manera regular y comn, se har un
sistema de uso mundial, y de uso en todos los productos del mercado, por lo
tanto es necesario seguir actualizndose en el tema, ya que su inminente
aplicacin en el futuro est empezando desde hoy.

103

LISTA DE FIGURAS
Captulo 1

Fig. 1.1 Circuito RC sencillo con voltaje en la fuente Vs y voltaje del capacitor Vc

Fig 1.2 Representacin grfica de la palabra should en funcin del tiempo

Fig. 1.3 Perfil tpico vertical anual del viento

Fig. 1.4 Diagrama de Bloques. Sistema Discreto.

Fig. 1.5 (a) Seal aperidica x(t) (b) Seal peridica ( ) construida
para que sea igual a x(t)en un periodo

Fig 1.6 Representacin grfica de la ecuacin 1.24

15
17

Fig. 1.7 (a) Seal x[n] de duracin finita. (b) seal peridica [ ] construida
para que sea igualada a x[n] en un periodo

27

Fig. 1.8 Representacin grfica de la ecuacin 1.44

30

Fig. 1.9Transformada de Fourier de [ ] =

32

Captulo 2

Fig. 2.1. Partitura de un arpegio

37

Fig. 2.2. Seal (a) y Espectro de Fourier (b) del arpegio.

37

Fig. 2.3. Representacin Tiempo Frecuencia del arpegio.

38

Fig 2.4. Seal de voz correspondiente a la palabra GABOR.


Seal en el tiempo y su densidad espectral de energa

41

Fig. 2.5. Seal de voz analizada en el plano tiempo frecuencia

42

Fig. 2.6. Distribucin Wigner Ville de una seal chirp linear

45

Fig. 2.7. Ventanas comunmente utilizadas en el anlisis de Gabor

49

Fig. 2.8. Grfica del logaritmo

| ( )| de las grficas mostradas en la Fig 2.7 50

Fig. 2.9 (a) Seal de Voz How are you, (b) Transformada de Gabor con una ventana
estrecha, (c) Transformada de Gabor con una ventana ms amplia

52

Captulo 3

Fig. 3.1 Anlisis grfico en Speech Viewer

58

Fig. 3.2 Pronunciacin de la letra E

59

Fig. 3.3 Pronunciacin de la letra I

59

Fig. 3.4 Pronunciacin de la letra A

61

Fig. 3.5 Comparacin entre el espectro original y el espectro del fonema EME

63

Fig. 3.6 Sistema de computadoras donde se implementa la invencin

65

Fig 3.7 Estructura interna de la computadora

66

Fig. 3.8 Estructura interna de un diccionario

67

104

Fig. 3.9 Estructura de un segmento de voz continua dentro de una entrada


de diccionario

68

Fig. 3.10 Mtodo de Transformada de Tiempo Triple

70

Fig. 3.11 Diagrama de flujo de la presente invencin

72

Fig. 3.12 Espectrogramas de un usuario predeterminado

73

Fig. 3.13 Comparacin de 3 diferentes tipos de espectrogramas

74

Fig. 3.14 Espectrogramas de la vocal a

75

Fig. 3.15 Espectrogramas de la segunda muestra de voz

76

Fig. 3.16 Estructura principal de un clasificador

80

Fig 3.17 Clasificacin del habla sin ruidos externos

85

Fig. 3.18 Clasificacin del habla con ruido externo de 10dB

85

Fig. 3.19 Diagrama de Bloques del mtodo para la extraccin de caractersticas de voz 87
Fig. 3.20 Diagrama esquemtico que ilustra el rbol de filtrado

89

Fig. 3.21 Relacin de frecuencias para cada uno de los niveles del rbol de anlisis

91

Fig. 3.22 Forma de onda de la palabra India.

93

Fig. 3.23 Anlisis de la Transformada de Fourier de Tiempo Corto

94

Fig. 3.24 Espectro tiempo frecuencia utilizando el anlisis de Gabor

95

Fig. 3.25 Espectrogramas de la forma de onda de la figura 3.22 empleando


(a) STFT y (b) anlisis de Gabor.

96

Fig. 3.26 Forma de onda que combina dos seales de frecuencia

99

Fig. 3.27 Distribucin Wigner Ville de la combinacin

99

Fig. 3.28 Distribucin Wigner Ville suavizada

100

Fig. 3.29 Suma de tres diferentes frecuencias.

100

Fig. 3.30 Representacin de la distribucin Wigner Ville

100

Fig. 3.31 Representacin de la Distribucin Wigner Ville suavizada

101

105

REFERENCIAS
Pginas Web:

[1] http://www.tecnun.es/asignaturas/tratamiento%20digital/tema1.pdf Visitado del da


17 de Diciembre del 2009

[2] Lozano, Jos. Edicin de Sonido I. Visitado el da 26 de Febrero del 2010.


http://www.iua.upf.es/~jlozano/audio/edicion1.html

[3] http://www.monografias.com/trabajos12/circu/circu.shtml. Visitado el da 12 de


Febrero del 2010

[4]http://exa.unne.edu.ar/depar/areas/fisica/electymagne/TEORIA/elecmagnet/induccio
n/anillo2/anillo2.htm Visitado el da 3 de marzo del 2010
Documentos PDF:

[5] Prez Iglesias Hctor. Seales y Sistemas discretos. Visitado el 1 de marzo del
2010. http://wahwah.des.udc.es/signals/senales.pdf

[6] Apuntes sobre Tiempo Frecuencia. Maestra Ingeniera Electrnica. Proporcionados


por M.C. Julio Cesar Herrera Garca.

[7] Rosa Zurera, Manuel. Tcnicas de Anlisis en Tiempo y Frecuencia. Disponible en


diciembre del 2009. http://agamenon.tsc.uah.es/Asignaturas/it/tdv/apuntes/3-Analisistiempo-frecuencia.pdf

[8] Lara Senz, Andrs. Sobre la transformacin Tiempo Frecuencia y la aplicacin


del proceso de Convolucin a la dinmica de sistemas fsicos. Visitado en Enero 2010.
Disponible en http://www.sea-acustica.es/revista/VOL38-12/02.pdf

[9] Slaney Malcolm. Auditory Toolbox: A MatLab toolbox for Auditory Modeling Work.
Visitado en Febrero 2010. Disponible en http://cobweb.ecn.purdue.edu/~malcolm/
interval/1998-010/AuditoryToolboxTechReport.pdf

106

[10] Rosado Muoz, Alfredo. Desarrollo de Tcnicas de Fibrilacin Ventricular Basadas


en Algoritmos Tiempo Frecuencia. Tesis Doctoral. Captulo 2 Las Transformadas
tiempo frecuencia. Universidad de Valencia. Visitado en Enero 2010. Disponible en:
http://www.uv.es/rosado/tesis_pdf/capitulo2.PDF

[11] Javier Duoandikoetxea. Lecciones sobre las series y transformadas de Fourier.


UNAN Managua. 2003. Visitado en Diciembre 2009. Disponible en http://www.cemat.org/cdc/Fourier.pdf

[12] Avalos Briseo, J. Benito, Reconocimiento de voz, Instituto Tecnolgico de


Aguascalientes.

Visitado

en

Marzo

2010.

Disponible

en

http://redalyc.uaemex.mx/redalyc/pdf/944/94402206.pdf

[13] J. Romero y S. Cerd. Comparacin de cuatro mtodos de anlisis de seal no


estacionaria: STFT, Wigner Ville, Transformada Wavelet y el anlisis Multiresolucin.
Universidad de Valencia. Visitado en Enero 2010. Disponible en http://www.seaacustica.es/publicaciones/4360gk005.pdf

[14] Echeverry, Julin David. Caracterizacin de seales no estacionarias empleando


distribucin Wigner Ville en el reconocimiento de zonas cerebrales. Mayo del 2006.
Universidad Politcnica de Valencia. Visitado en Febrero 2010. Disponible en
http://www.utp.edu.co/php/revistas/ScientiaEtTechnica/docsFTP/8593987-91.pdf

[15] Vuletich, Juan Manuel. Nuevas bases para el procesamiento de msica en el


dominio de tiempo frecuencia. Universidad de Buenos Aires. 2005. Visitado en
febrero 2010. Disponible en http://www.jvuletich.org/Research/TesisVuletich.pdf

[16] Cabrera, Francisco. Diseo de un detector de voz en condiciones adversas.


Universidad de Las Palmas de Gran Canaria. Visitado en Marzo 2010. Disponible en
http://w3.iec.csic.es/ursi/articulos_modernos/articulos_villaviciosaodon_2001/articulos/
308.pdf

[17] Dermody, Phillip. The use of wavelet transforms in phoneme recognition. The
University

of

Newcastle.

Visitado

en

Enero

2010.

Disponible

en

http://www.asel.udel.edu/icslp/cdrom/vol4/356/a356.pdf

107

[18] Cohen L. Time Frequency distributions A review. Visitado en Marzo 2010.


Disponible
en
http://www.coe.montana.edu/ee/rosss/Courses/EE578_Fall_2008/Papers/Time_Freque
ncy_Distributions_A_Review.pdf
[19] Teora de Wavelets. Capitulo 2. Visitado en Marzo 2010. Disponible en
http://catarina.udlap.mx/u_dl_a/tales/documentos/lem/hernandez_d_m/capitulo2.pdf

[20] Pedro Serrano, Eduardo. Introduccin a la transformada Wavelet y sus


aplicaciones al procesamiento de seales de emisin acstica. Universidad Nacional
de

General

San

Martn.

Visitado

en

Febrero

2010.

Disponible

en

http://www.cnea.edu.ar/cac/endye/glea/trabajos/serrano.pdf

[21] Seales y Sistemas. ITESO. Visitado en Enero 2010. Disponible en


http://www.desi.iteso.mx/sys/s&s/Tema1_bugarin.pdf

[35] Madan V. K., Analysis of spoken words employing Gabor Transform. BARC,
Trombay, Mumbay. Visitado el 22 de abril 2010.
http://www.isca-speech.org/archive/wslp_03/wslp_067.pdf

[36] Marir, Farir. Time frequency analysis of speech signals Smoothed Pseudo WignerVille Distribution. Makkah College of Technology, KSA. Visitado en abril 2010.
Disponible en: http://stcex.gotevot.edu.sa/NR/rdonlyres/5264CDF4-841F-477D-8C032011469BE2F1/0/218.pdf

Libros:

[22] Oppenheim, Alan V. Seales y Sistemas. Editorial Parson Education. 2 Edicin.

[23] Carmona, Ren. et al. Practical Time Frequency Analysis. Wavelet and Gabor
Transforms. Editorial AP. 1 Edicin.

[24] Rabiner, Lawrence. Fundamentals of Speech Recognition. Prentice Hall


International. 1993. 2 edicin.

108

[25] Gonzles, Patricia. Reconocimiento de voz mediante el uso de Matlab. Tesis.


2009. Instituto Tecnolgico de Estudios Superiores de Zamora.

[26] Mallat, A Wavelet Tour of signal processing, Segunda Edicin. San Diego:
Academic Press, 1999.

[27] I. Daubechies, Ten Lectures on Wavelet. Primera Edicin. Philadelphia: SIAM,


1992.

[28] H. G. Stark, Wavelets and Signal Processing: An application-Based Introduction,


Primera Edicin, Berln: Springer, 2005.

[29] C. Burrus, R.A. Gopinath y H, Guo, Introduction to Wavelets and Wavelets


Transforms a Primer. New Jersey. Prentice Hall.

Revistas:

[30] Potaminos Alexandros. Time Frequency Distributions for Automatic Speech


Recognition. IEEE Transactions on speech and audio processing. Vol. 9. No. 3. Marzo
2001.

Patentes:

[31] Procedimiento y dispositivo de clasificacin de las seales del habla. Pat. ES


21659/33 T3. Inventor, Joachim Stegmann. 1 de Abril del 2002. Disponible en
http://invenes.oepm.es/InvenesWeb/faces/visualizadorTabs.jsp?idrefe=e96104213

[32] Method for extracting voice signal features and related voice recognition system.
Pat. US 2003/0191640 A1. Inventores: Roberto Gemello y Franco Mana. 9 de Octubre
del

2003.

Disponible

en

http://v3.espacenet.com/publicationDetails/originalDocument?FT=D&date=19981020&
DB=EPODOC&locale=en_EP&CC=US&NR=5826232A&KC=A

[33]

Speech

Recognition

System

Using

Spectrogram

Analysis.

Pat.

US

2002/0128834 A1. Inventores: Vitaliy Fain y Samuel Fain. 12 de Septiembre del 2002.
Disponible

en

109

http://v3.espacenet.com/publicationDetails/originalDocument?CC=US&NR=200212883
4A1&KC=A1&FT=D&date=20020912&DB=EPODOC&locale=en_EP

[34] Methods of identification using voice sound analysis. Pat. US 2009/0326942 A1.
Inventor:

Sean

Fulop.

31

de

Diciembre

del

2009.

Disponible

en

http://v3.espacenet.com/publicationDetails/originalDocument?CC=US&NR=200932694
2A1&KC=A1&FT=D&date=20091231&DB=EPODOC&locale=en_EP

110

Вам также может понравиться